משתמש:נתנאל שטרן/Stochastic gradient descent

'ירידת שיפוע סטוכסטית' ' - אלוגריתם איטרטיבי ל אופטימיזציה ירידת שיפוע באמצעות משמש לזרז את החיפוש פונקציית יעד באמצעות ערכת אימונים מוגבלת גודל, אשר נבחרת באופן אקראי בכל איטרציה.

אלגוריתם

יְצִיאָה:

$X^{n}$ & nbsp; - מדגם אימונים
$e t a$ & nbsp; - קצב למידה
$l a m b d a$ & nbsp; - פרמטר נגד כינויים של $Q$

כְּנִיסָה:

משקל וקטורי $w$

גוּף:

אתחל את המאזניים

 $w_{j}$ , ( $j = 0, d o t s, k$ , כאשר  $k$  & nbsp; הוא המימד מרחב סימנים);

אתחל את ההערכה התפקודית הנוכחית:
$Q : = s u m_{i = 1}^{n} L (a (x_{i}, w), y_{i})$ ;
חזור:
1. בחר אובייקט $x_{i}$ מ- $X^{n}$ (למשל, באופן אקראי);
2. חשב את הערך המקורי של האלגוריתם $a (x_{i}, w)$ ואת השגיאה:
  $v a r e p s i l o n_{i} : = L (a (x_{i}, w), y_{i})$ ;
3. בצע שלב ירידת מעבר צבע:
  הפענוח נכשל (שגיאת תחביר): {\displaystyle w: = w - \ eta L_a ^ \ prime \ left (a (x_i, w), y_i \ right) \ varphi ^ \ prime \ left (\ langle w, x_i \ rangle \ right) x_i </ math>; ## הערך ערכי פונקציונליות: ##: <math> Q: = (1 - \ lambda) Q + \ lambda \ varepsilon_i } ;
עד שהערך של $Q$ יתייצב ו / או המשקל של $w$ יפסיק להשתנות.

הליך בחירת אובייקט

נאמר לעיל כי במקרה של ירידת שיפוע סטוכסטית, יש לבחור באובייקטים באופן אקראי. עם זאת, ישנם היוריסטיות שמטרתן לשפר את ההתכנסות, שמשנות במידה מסוימת את הבחירה האקראית הרגילה:

דשדוש. מומלץ לבחור אובייקטים באופן אקראי, אך לסירוגין ממעמדות שונים. הרעיון הוא שאובייקטים ממחלקות שונות עשויים להיות פחות "דומים" מאובייקטים מאותה מחלקה, ולכן הווקטור $w$ ישתנה יותר בכל פעם.
וריאציה של האלגוריתם אפשרית כאשר הבחירה של כל אובייקט סבירה באופן שווה, וההסתברות של נפילת האובייקט היא ביחס הפוך לגודל השגיאה באובייקט. יש לציין כי בשיטה היוריסטית כזו הופכת רגישה מאוד לרעש.

דרכים לאתחל את המאזניים

אתחל את הווקטור $w$ באפסים. שיטה זו משמשת במערכות רבות, אך לא תמיד היא הטובה ביותר.
$w_{j} : = r a n d l e f t (- f r a c 1 k, f r a c 1 k r i g h t)$ , כאשר $k$ & nbsp; - ממד מרחב סימנים. שיטה זו מוצלחת יותר מזו הקודמת, אם מנרמל כראוי את תיאור הסימנים. (ראה " חסרונות ודרכים להתמודד איתם."
גישה נוספת היא לפתור את בעיית האופטימיזציה הראשונית במקרה של תכונות עצמאיות סטטיסטית, פונקציית הפעלה לינארית ( $v a r p h i$ ) ופונקציית אובדן ריבועית ( $L$ ). ואז הפתרון נראה כמו:

w_{j} : = f r a c l a n g l e y, f_{j} r a n g l e l a n g l e f_{j}, f_{j} r a n g l e

.

הגדרת החלקה

האלגוריתם לאמידת הפונקציונלית $Q$ בכל איטרציה משתמש בערכו המשוער לפי השיטה החלקה אקספוננציאלית, כאשר עדיף לקחת את $l a m b d a$ לסדר $f r a c 1 n$ . אם אורך המדגם ארוך מדי, יש להגדיל את $l a m b d a$ .