טרנספורמר (למידת מכונה)

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

טרנספורמר הוא מודל למידה עמוקה המשמש בעיקר בתחומי עיבוד שפה טבעית (NLP) וראייה ממוחשבת (CV).[1] ייחודו של המודל בשימוש במנגנון הקשב-העצמי (self-attention). מנגנון זה לוקח בחשבון את היחסים בין מילים ואת ההקשר בו המילים נמצאות. יתרונו של המודל מתבטא בין היתר בכך שההקשר האמור לוקח בחשבון רצף שלם של טקסט, ולא רק משפט בודד בו המילה נמצאת.

בנוסף, המנגנון האמור מאפשר לעבד קלט שלם של טקסט בו זמנית, והוא אינו נדרש לעבד את הטקסט מילה אחר מילה. עיבוד מקבילי זה מביא לביצועים גבוהים של המודל בעיבוד טקסט, ביחס למודלים אחרים.

מודלי טרנספורמר הוצגו לראשונה ב-2017 על ידי גוגל, ובשנים שלאחר מכן הם החלו לצבור פופולריות ונעשו למודל מועדף לבעיות עיבוד שפה טבעית.[2] זאת, בעיקר בשל תכונת המקביליות האמורה המאפשרת אימון על מערכי נתונים גדולים יותר. יצירת המודל שימשה בסיס לפיתוח מערכות מאומנות מראש, כמו GPT (סדרת מודלים שפותחו על ידי OpenAI, ונעשו לפופולריים במיוחד מאז הושק הצ׳טבוט ChatGPT) ו-BERT. מודלים אלו הוכשרו עם מערכי נתונים גדולים של שפות, בהם קורפוס ויקיפדיה. כמו כן, ניתן לכוונן את המודלים באופן שבו יותאמו לביצוע משימות נקודתיות.[3][4]

עיבוד רציף

קודם ליצירת מודלי הטרנספורמר, רוב מערכות עיבוד השפה הטבעית המתקדמות הסתמכו על מודל RNN. מודלים מסוג זה מעבדים טוקנים (tokens, יחידות הטקסט הבסיסיות ביותר איתן עובדות תוכנות מחשב המנתחות שפה. לרוב, מדובר במילים) ברצף, תוך שמירה על וקטור הכולל מידע אודות כל טוקן ביחס למידע שקדם לו. כלומר, כאשר המודל עובד ברצף ולא במקביל, עיבוד הטוקן ה-n ייקח בחשבון את המצב הקיים עד n-1 יחד עם הטוקן החדש, כדי ליצור מצב חדש (וקטור) לאחר עיבוד הטוקן n. כתוצאה מכך נוצרת בעיית "הגרדיאנט הנעלם", המשאירה את וקטור המצב בסופו של משפט ארוך ללא מידע מדויק שניתן לחלץ ממנו על הטוקנים הקודמים. בשל כך, לעיתים נפגעת היעילות באימון מודלי RNN.

קשב עצמי

מודלי הטרנספורמר מתמודדים עם הבעיות הנובעות מעיבוד רציף באמצעות מנגנון הקשב העצמי. מנגנון זה מאפשר למודל ליצור מצב המתחשב בכל הנקודות לאורך הרצף. המודל כולל "שכבת" קשב המסוגלת לגשת לכל אחד מהמצבים הקודמים ולתת להם משקל אותם על פי מדד רלוונטיות, והתאם לספק מידע רלוונטי לטוקנים רחוקים.

דוגמה ברורה לערך הקשב העצמי היא בתרגום שפה, שם ההקשר הכללי חיוני להבנת משמעות של מילה במשפט. כך למשל, במערכת תרגום מאנגלית לצרפתית, לרוב המילה הראשונה של הפלט הצרפתי תהיה תלויה במידה רבה במילים הראשונות של הקלט האנגלי. עם זאת, במודל RNN קלאסי, על מנת להפיק את המילה הראשונה של הפלט הצרפתי, המודל מקבל רק וקטור המצב לאחר עיבוד המילה האחרונה באנגלית. תאורטית, וקטור זה יכול לקודד מידע על כל המשפט האנגלי, ולתת למודל את כל הידע הנדרש לתרגום. בפועל, מידע זה נשמר לרוב בצורה לא טובה. מנגנון הקשב מתמודד עם בעיה זו על ידי כך שנותן גישה לוקטורי המצב של כל מילה בקלט באנגלית, ולא רק לאחרונה המייצגת את המצב האחרון.

מעבר ליתרון הדיוק שנוצר משימוש במנגנון הקשב העצמי, העיבוד המקבילי משפר משמעותית את מהירות אימון המודל.

כוונון עדין (finetune)

אימון מודלי טרנספורמר נעשה בדרך כלל בשיטת למידה בהנחיה עצמית, הכוללת אימון למידה בלתי מונחית ואחריו כוונון עדין באמצעות למידה מונחית. האימון המקדים נעשה בדרך כלל על מערך נתונים גדול יותר מאשר הכוונון העדין, בשל הזמינות המוגבלת של נתוני אימון מתוייגים. המשימות הנפוצות לאימון מקדים וכוונון עדין הן:

שימושים

הטרנספורמר זכה להצלחה רבה בעיבוד שפה טבעית (NLP), ובאופן ספציפי במשימות תרגום מכונה וחיזוי סדרות זמן. מודלים מאומנים מראש כמו GPT-2, GPT-3, GPT-4, BERT, XLNet, RobERTa ו-ChatGPT מדגימים את יכולתם של הטרנספורמרים לבצע מגוון רחב של משימות הקשורות ל-NLP, והשימוש בהם ביישומים בעולם האמיתי זולג לתחומים רבים, ונכון לתחילת שנת 2023, נעשה פופולרי במיוחד. תחומים בהם נעשה שימוש במודלים כוללים, בין היתר:

יישומים

מודל הטרנספורמר מיושם במסגרות התוכנה הפופולריות ללמידה עמוקה, כמו TensorFlow ו-PyTorch. כמו כן, קיימת ספריית תוכנה בשם Transofrmers שנוצרה על ידי חברת Hugging Face, המספקת ארכיטקטורות מבוססות טרנספורמרים ומודלים שאומנו-מראש.

הערות שוליים

  1. ^ He, Cheng (31 בדצמבר 2021). "Transformer in CV". Transformer in CV. Towards Data Science. {{cite web}}: (עזרה)
  2. ^ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6.
  3. ^ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog. נבדק ב-2019-08-25.
  4. ^ 4.0 4.1 "Better Language Models and Their Implications". OpenAI. 2019-02-14. נבדק ב-2019-08-25.
  5. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446.
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

טרנספורמר (למידת מכונה)35886052Q85810444