מודל דיפוזיה

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
תמונה שנוצרה על ידיי מודל פיזור

מודל דיפוזיה (באנגלית: Diffusion model) הוא סוג של מודלים גנרטיביים ללמידת מכונה שתוכנן על ידי גסצ'ה סול דיקסטיין ועמיתיו בשנת 2015[1].

בהינתן סט אימון, ניתן להשתמש במודל בשביל ללמוד את ההתפלגות שממנה מגיעים הנתונים, וכתוצאה מכך ניתן להשתמש בו בשביל ליצור דגימות חדשות שנראות כמו דגימות ששייכות למאגר הנתונים. לדוגמה, מודל שאומן על מאגר תצלומים של בני אדם, יוכל ליצור תצלומים חדשים של בני אדם שנראים אותנטיים ומכילים מאפיינים מציאותיים רבים. דוגמאות למודלי דיפוזיה מוכרים הינם DALL-E של OpenAI או parti של גוגל.

היסטוריה

הרעיון של מודל דיפוזיה הועלה לראשונה ב-2015 במחקר שפורסם על ידי גסצ'ה סול דיקסטיין ועמיתיו בתור אופציה נוספת על פני מודלים גנרטיבים אחרים כגון GAN.

ב-2021 זכה לתהודה כאשר המודל DALL-E של OpenAi העושה שימוש במודל, הצליח ליצור תמונות מפורטות במגוון סגנונות. התחום קיבל גל חדש של עניין בשל כך וחברות רבות עלו עם מודלי דיפוזיה משלהם.

תהליך האימון

תהליך האימון מתחלק לשני חלקים, בחלק הראשון מוסיפים רעש גאוסיאני לתמונת האימון בהדרגה והמודל לומד את ההתפלגות הפוסטריורית (התפלגות המצבים בשרשרת המרקוב בהינתן התמונה ההתחלתית). בשלב השני הופכים את התהליך ומנסים לשחזר את התמונה המקורית מהתמונה עם הרעש על ידי הורדת הרעש שנוסף בכל שלב והמודל לומד את ההתפלגות ההפוכה (התפלגות התמונה בהינתן תמונה עם הוספת רעש).

קובץ:Screenshot-from-2022-04-12-14-55-09.png
מהלך הוספת והורדת הרעש

שלב הוספת הרעש

בכל שלב מוסיפים רעש גאוסיאני לתמונת האימון וממשיכים כך באופן באופן איטרטיבי מספר קבוע של פעמים (בדרך כלל גדול מספיק כך שהתמונה הופכת לרעש גאוסיאני ללא אפשרות לזיהוי של התמונה המקורית).

את תהליך הוספת הרעש אפשר לתאר על ידי שרשרת מרקוב כאשר מייצגת את מספר האיטרציה ו- מייצגת את גודל הצעד ( נקבעת לפי המתזמן שבחרנו). אפשר לחשב את האיטרציה ה- בחישוב אחד על ידי כאשר ו- .

שלב ניחוש הרעש שנוסף

בשלב זה לוקחים את תמונת הרעש מהשלב הקודם ומנסים לשחזר ממנה את התמונה המקורית בעזרת רשת עצבית מלאכותית שמקבלת את התמונה ומנסה לנחש את התמונה ואת התהליך נבצע פעמים עד שנקבל את התמונה המשוחזרת. את התהליך אפשר לתאר כשרשרת מרקוב כאשר היא ההסתברות ההתחלתית למצב (התפלגות גאוסיאנית).

לקריאה נוספת

  • Jonathan Ho, Denoising Diffusion Probabilistic Models
  • Alex Nichol, Improved Denoising Diffusion Probabilistic Models
  • Prafulla Dhariwal, Diffusion Models Beat GANs on Image Synthesis

קישורים חיצוניים

הערות שוליים

  1. ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya, Deep Unsupervised Learning using Nonequilibrium Thermodynamics, 12/05/2015
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

מודל דיפוזיה34896393Q114617315