לדלג לתוכן

משתמש:נתנאל שטרן/Stochastic gradient descent

מתוך המכלול, האנציקלופדיה היהודית

'ירידת שיפוע סטוכסטית' ' - אלוגריתם איטרטיבי לאופטימיזציה ירידת שיפוע באמצעות משמש לזרז את החיפוש פונקציית יעד באמצעות ערכת אימונים מוגבלת גודל, אשר נבחרת באופן אקראי בכל איטרציה.

אלגוריתם

יְצִיאָה:

  • Xn & nbsp; - מדגם אימונים
  •  eta & nbsp; - קצב למידה
  •  lambda & nbsp; - פרמטר נגד כינויים של Q

כְּנִיסָה:

  • משקל וקטורי w

גוּף:

  1. אתחל את המאזניים
wj, (j=0, dots,k, כאשר k & nbsp; הוא המימד מרחב סימנים);
  1. אתחל את ההערכה התפקודית הנוכחית:
    Q:= sumi=1nL(a(xi,w),yi);
  2. חזור:
    1. בחר אובייקט xi מ- Xn (למשל, באופן אקראי);
    2. חשב את הערך המקורי של האלגוריתם a(xi,w) ואת השגיאה:
       varepsiloni:=L(a(xi,w),yi);
    3. בצע שלב ירידת מעבר צבע:
      הפענוח נכשל (שגיאת תחביר): {\displaystyle w: = w - \ eta L_a ^ \ prime \ left (a (x_i, w), y_i \ right) \ varphi ^ \ prime \ left (\ langle w, x_i \ rangle \ right) x_i </ math>; ## הערך ערכי פונקציונליות: ##: <math> Q: = (1 - \ lambda) Q + \ lambda \ varepsilon_i } ;
  3. עד שהערך של Q יתייצב ו / או המשקל של w יפסיק להשתנות.

הליך בחירת אובייקט

נאמר לעיל כי במקרה של ירידת שיפוע סטוכסטית, יש לבחור באובייקטים באופן אקראי. עם זאת, ישנם היוריסטיות שמטרתן לשפר את ההתכנסות, שמשנות במידה מסוימת את הבחירה האקראית הרגילה:

  • דשדוש. מומלץ לבחור אובייקטים באופן אקראי, אך לסירוגין ממעמדות שונים. הרעיון הוא שאובייקטים ממחלקות שונות עשויים להיות פחות "דומים" מאובייקטים מאותה מחלקה, ולכן הווקטור w ישתנה יותר בכל פעם.
  • וריאציה של האלגוריתם אפשרית כאשר הבחירה של כל אובייקט סבירה באופן שווה, וההסתברות של נפילת האובייקט היא ביחס הפוך לגודל השגיאה באובייקט. יש לציין כי בשיטה היוריסטית כזו הופכת רגישה מאוד לרעש.

דרכים לאתחל את המאזניים

  • אתחל את הווקטור w באפסים. שיטה זו משמשת במערכות רבות, אך לא תמיד היא הטובה ביותר.
  • wj:=rand left( frac1k, frac1k right), כאשר k & nbsp; - ממד מרחב סימנים. שיטה זו מוצלחת יותר מזו הקודמת, אם מנרמל כראוי את תיאור הסימנים. (ראה " חסרונות ודרכים להתמודד איתם."
  • גישה נוספת היא לפתור את בעיית האופטימיזציה הראשונית במקרה של תכונות עצמאיות סטטיסטית, פונקציית הפעלה לינארית ( varphi) ופונקציית אובדן ריבועית (L). ואז הפתרון נראה כמו:
wj:= frac langley,fj rangle langlefj,fj rangle.

הגדרת החלקה

האלגוריתם לאמידת הפונקציונלית Q בכל איטרציה משתמש בערכו המשוער לפי השיטה החלקה אקספוננציאלית, כאשר עדיף לקחת את  lambda לסדר  frac1n. אם אורך המדגם ארוך מדי, יש להגדיל את  lambda.