מודל דיפוזיה

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
תמונה שנוצרה על ידיי מודל פיזור

מודל דיפוזיהאנגלית: Diffusion model) הוא סוג של מודל גנרטיבי ללמידת מכונה שתוכנן על ידי ג'ונתן הו ועמיתיו מאוניברסיטת קליפורניה בשנת 2020[1]

בהינתן סט אימון, ניתן להשתמש במודל בשביל ללמוד את ההתפלגות שממנה מגיעים הנתונים, וכתוצאה מכך ניתן להשתמש בו בשביל ליצור דגימות חדשות שנראות כמו דגימות ששייכות למאגר הנתונים. לדוגמה, מודל שאומן על מאגר תצלומים של בני אדם, יוכל ליצור תצלומים חדשים של בני אדם שנראים אותנטיים ומכילים מאפיינים מציאותיים רבים. דוגמאות למודלי דיפוזיה מוכרים הם DALL-E של OpenAI או parti של גוגל.

היסטוריה

הרעיון של מודל דיפוזיה הועלה לראשונה ב-2015 במחקר שפורסם על ידי גסצ'ה סול דיקסטיין ועמיתיו בתור אופציה נוספת על פני מודלים גנרטיבים אחרים כגון GAN.[2]

ב-2021 זכה לתהודה כאשר המודל DALL-E של OpenAi העושה שימוש במודל, הצליח ליצור תמונות מפורטות במגוון סגנונות. התחום קיבל גל חדש של עניין בשל כך וחברות רבות עלו עם מודלי דיפוזיה משלהם.

תהליך האימון

תהליך האימון מתחלק לשני חלקים, בחלק הראשון מוסיפים רעש גאוסיאני לתמונת האימון בהדרגה והמודל לומד את ההתפלגות הפוסטריורית q(x1...T|x0) (התפלגות המצבים בשרשרת המרקוב בהינתן התמונה ההתחלתית). בשלב השני הופכים את התהליך ומנסים לשחזר את התמונה המקורית מהתמונה עם הרעש על ידי הורדת הרעש שנוסף בכל שלב והמודל לומד את ההתפלגות ההפוכה pθ(xt1|xt) (התפלגות התמונה בהינתן תמונה עם הוספת רעש).

שלב הוספת הרעש

בכל שלב מוסיפים רעש גאוסיאני לתמונת האימון וממשיכים כך באופן באופן איטרטיבי מספר קבוע של פעמים T (בדרך כלל T גדול מספיק כך שהתמונה הופכת לרעש גאוסיאני ללא אפשרות לזיהוי של התמונה המקורית).

את תהליך הוספת הרעש אפשר לתאר על ידי שרשרת מרקוב q(x1...T|x0)=t=1Tq(xt|xt1)=t=1TN(xt;1βtxt1,βtI) כאשר t מייצגת את מספר האיטרציה ו-β מייצגת את גודל הצעד (β נקבעת לפי המתזמן שבחרנו). אפשר לחשב את האיטרציה ה-t בחישוב אחד על ידי q(xt|x0)=N(xt;at¯x0,1at¯) כאשר at=1βt ו- at¯=s=1tas.

שלב ניחוש הרעש שנוסף

בשלב זה לוקחים את תמונת הרעש מהשלב הקודם ומנסים לשחזר ממנה את התמונה המקורית בעזרת רשת עצבית מלאכותית שמקבלת את התמונה xt ומנסה לנחש את הרעש שנוסף לתמונה xt1 (מנסים לנחש את הרעש ולא את התמונהxt1 ישירות מכיוון שזה נותן תוצאה טובה יותר. אפשר להשיג את התמונה xt1 ברגע שיש לנו את הרעש) ואת התהליך נבצע T פעמים עד שנקבל את התמונה המשוחזרת. את התהליך אפשר לתאר כשרשרת מרקוב pθ(x1...T)=p(xT)t=1Tpθ(xt1|xt) כאשר p(xT) היא ההסתברות ההתחלתית למצב xT (התפלגות גאוסיאנית).

לקריאה נוספת

  • Jonathan Ho, Denoising Diffusion Probabilistic Models
  • Alex Nichol, Improved Denoising Diffusion Probabilistic Models
  • Prafulla Dhariwal, Diffusion Models Beat GANs on Image Synthesis

קישורים חיצוניים

הערות שוליים

  1. Jonathan Ho, Ajay Jain, Pieter Abbeel, Denoising Diffusion Probabilistic Models, 2020
  2. ascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, Surya Ganguli, Deep Unsupervised Learning using Nonequilibrium Thermodynamics, Proceedings of the 32nd International Conference on Machine Learning, 2015, עמ' 2256-2265
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

מודל דיפוזיה38242873Q114617315