לדלג לתוכן

Bootstrap (סטטיסטיקה)

מתוך המכלול, האנציקלופדיה היהודית

Bootstrap או בוטסטראפ היא שיטה בסטטיסטיקה ובלמידת מכונה המשמשת לאמדן התפלגות דגימה של מדד, באמצעות דגימה מחדש של נתונים מתוך מדגם קיים. השיטה פותחה על ידי הסטטיסטיקאי האמריקאי ברדלי אפרון בשנת 1979. טכניקה זו היא אחת הטכניקות הסטטיסטיות הראשונות שהתבססו על סימולציות ממוחשבות, ולא על הסקה אלגברית של נוסחאות סגורות. יסודותיה התאורטיים של השיטה נשענים על משפט גליבנקו-קנטלי (Glivenko–Cantelli theorem) ועל משפט משפט ברי-אסן (Berry–Esseen theorem).

שיטת הבוטסטראפ שימושית במיוחד לאמדן התפלגויות דגימה של סטטסיטים אשר לא מצויה להם התפלגות דגימה ידועה, או לאמדן התפלגויות דגימה של סטטיטיסיטים מעל מדגמים החורגים מהנחות סטטיסטיות נפוצות כמו נורמליות השאריות או הומוסקדסטיות.

הסבר אינטואיטיבי לשיטה

כאשר רוצים לאמוד התפלגות של פרמטר מסוים באוכלוסייה, למשל גובה ממוצע במדינה מסוימת, ניתן לאמוד אותו על סמך מדגם מייצג של אותה האוכלוסייה. עם זאת, מאחר שהתפלגות הגבהים במדגם אינה זהה להתפלגות באוכלוסייה, התפלגות הפרמטר במדגם לא תהיה זהה לזו באוכלוסייה. משפט גליבנקו-קנטלי מבטיח כי תחת תנאים מסוימים ככל שהמדגם יהיה גדול יותר הבדל זה יקטן. פורמלית, המרחק בין פונקציית התפלגות מצטברת אמפירית F^n, ופונקציית התפלגות מצטברת F יקטן כאשר n ישאף לאינסוף:

F^nFsupt|F^n(t)F(t)|  0

לפיכך, לפחות עבור מדגמים גדולים ניתן להתייחס להתפלגות המדגם כאומדן להתפלגות האוכלוסייה. שיטת הבוטסטראפ מתייחסת למדגם כאילו היה האוכלוסייה. בשיטה מסמלצים אלפי מדגמים, הנקראים מדגמי בוטסטראפ, באמצעות דגימה עם החזרה מתוך המדגם המקורי. על מדגמי בוטסטראפ אלו מחושב סטטיסט מסוים. התפלגותו של הסטטיסט על פני מדגמי הבוטסטראפ אומדת את התפלגות הדגימה שלו באוכלוסייה.

ניתן להראות כי אסימפטוטית (כאשר מספר התצפיות שואף לאינסוף) תחת תנאים מסוימים אכן אמדן הבוטסטראפ להתפלגות הדגימה מתכנס להתפלגות באוכלוסייה, זאת לצד מחקרי סימולציה אשר מדגימים את כוחה של השיטה ועליונותה על פני שיטות אחרות בהתמודדות עם חריגות מהנחות כמו הומוסקדסטיסיות גם עבור מדגמים בעלי מספר תצפיות סופי.

מתודולוגיה

שיטת הבוטסטראפ לאמדן התפלגות דגימה לסטטיסט מסוים θ מבוססת על מספר שלבים:

  1. דגימה מחדש עם החזרה (Resampling with Replacement):
    • יצירת מדגם מתוך המדגם המקורי על ידי דגימה מחדש עם החזרה שייקרא מדגם בוטסטראפ. מספר התצפיות במדגם הבוטסטראפ זהה למספר התצפיות במדגם המקורי.
    • חישוב המדד θ על מדגם הבוטסראפ.
  2. חזרה על ההליך מספר רב של פעמים (Repeated Resampling):
    • על מנת לקבל הערכות מדויקות ואמינות, יש לחזור על תהליך מספר רב של פעמים. כל חזרה כזו יוצרת מדגם בוטסטראפ חדש ואמדן של הסטטיסט במדגם הבוטסטראפ.
  3. הפקת הערכות ורווחי ביטחון (Inference from the Bootstrap Distribution):

ראו גם

קישורים חיצוניים

  • Bootstrap, באתר MathWorld (באנגלית)

הערות שוליים

Bootstrap (סטטיסטיקה)41991411Q301990