כוונון עדין (למידה עמוקה)
בלמידה עמוקה, כוונון עדין (fine tuning) הוא גישה ללמידה באמצעות העברה, כלומר שימוש במודל שאומן על משימה מסוימת כדי לבצע משימה אחרת.
בכוונון עדין מתבצע אימון קצר נוסף של רשת נוירונים, אשר כבר אומנה אימון מלא על משימה אחרת. האימון הקצר נועד להתאים את הפרמטרים של הרשת למשימה החדשה.[1] כוונון עדין יכול להתבצע על כל הרשת, או רק על תת-קבוצה של השכבות שלה. במקרה השני, השכבות שאינן עוברות כוונון עדין "מוקפאות", כלומר, לא משתנות במהלך ה-backpropagation.[2]
עבור ארכיטקטורות מסוימות, כגון רשתות קונבולציה, מקובל לשמור את השכבות המוקדמות יותר (הקרובות לשכבת הקלט) קפואות, מכיוון שהן מזהות תכונות ברמה נמוכה יותר, ולאמן רק את השכבות האחרונות.[2][3] לדוגמה, רשת שאומנה על זיהוי בעלי-חיים, ניתן לאמן מחדש את השכבות האחרונות שלה על זיהוי חפצים, מתוך הנחה שהשכבות המוקדמות מזהות תכונות ויזואליות כלליות, כגון כיווני קווים, שינויי צבעים וצורות גאומטריות, ורק השכבות האחרונות מזהות אובייקטים מורכבים.
מודלים שאומנו מראש על קורפוסים גדולים וכלליים עוברים בדרך כלל כוונון עדין על ידי שימוש חוזר בפרמטרים שלהם כנקודת התחלה והוספת שכבה ספציפית למשימה שאומנה מאפס.[4] למשל, מודל שאומן על זיהוי בעלי חיים באופן כללי, יכול כך לעבור כוונון עדין כדי לזהות באופן מפורט גזעים שונים של כלבים. כוונון עדין של המודל המלא הוא גם נפוץ ולעיתים קרובות מניב תוצאות טובות יותר, אך הוא יקר יותר מבחינה חישובית.[5]
על אף שכוונון עדין מתבצע בדרך כלל באמצעות למידה מונחית, כלומר באמצעות דוגמאות מוכנות מראש של קלט יחד עם הפלט הרצוי, ישנן גם טכניקות לכוונון עדין שמשלבות למידה מונחית עם למידה בלתי מונחית.[6] ניתן גם לשלב כוונון עדין עם למידת חיזוק המבוססת על משוב אנושי כדי לייצר מודלי שפה כגון ChatGPT (גרסה של מודלי GPT לאחר כוונון עדין) ו-Sparrow.[7][8] במקרים כאלו בני אדם מעניקים משוב לפלט של המודל, עם התייחסות להיבטים כמו תקינות תחבירית, ידידותיות או תקינות פוליטית.
קישורים חיצוניים
הערות שוליים
- ↑ Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 978-1-5443-6137-6. ארכיון מ-10 בינואר 2023. נבדק ב-10 בינואר 2023.
{{cite book}}
: (עזרה) - ^ 2.0 2.1 "CS231n Convolutional Neural Networks for Visual Recognition". cs231n.github.io. נבדק ב-9 במרץ 2023.
{{cite web}}
: (עזרה) - ↑ Zeiler, Matthew D; Fergus, Rob (2013). "Visualizing and Understanding Convolutional Networks". ECCV. arXiv:1311.2901.
- ↑ Dodge, Jesse; Ilharco, Gabriel; Schwartz, Roy; Farhadi, Ali; Hajishirzi, Hannaneh; Smith, Noah (2020). "Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping". arXiv:2002.06305.
{{cite journal}}
: Cite journal requires|journal=
(עזרה) - ↑ Dingliwal, Saket; Shenoy, Ashish; Bodapati, Sravan; Gandhe, Ankur; Gadde, Ravi Teja; Kirchhoff, Katrin (2021). "Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems". InterSpeech. arXiv:2112.08718.
- ↑ Yu, Yue; Zuo, Simiao; Jiang, Haoming; Ren, Wendi; Zhao, Tuo; Zhang, Chao (2020). "Fine-Tuning Pre-trained Language Model with Weak Supervision: A Contrastive-Regularized Self-Training Approach". Association for Computational Linguistics. arXiv:2010.07835.
- ↑ "Introducing ChatGPT". openai.com. נבדק ב-9 במרץ 2023.
{{cite web}}
: (עזרה) - ↑ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martin; Thacker, Phoebe; Campbell-Gillingham, Lucy (2022). "Improving alignment of dialogue agents via targeted human judgements". DeepMind. arXiv:2209.14375.
כוונון עדין (למידה עמוקה)41789754Q117286419