שיעור התגליות השגויות
שיעור התגליות השגויות (FDR - False Discovery Rate) הוא שמה של שיטה סטטיסטית לבדיקת השערות מרובות, שפותחה בידי שני סטטיסטיקאים מאוניברסיטת תל אביב, הפרופסורים יואב בנימיני ויוסף הוכברג. שיטה זו הוצעה על ידי בנימיני והוכברג כבר ב-1989 אך בתחילה היא נתקלה בהתנגדות, עד שב-1995 מאמרם התקבל בכתב העת Journal of the Royal Statistical Society, ומאז הוא דורג בין 25 המאמרים המצוטטים ביותר בסטטיסטיקה.[1] בנימיני זכה בפרס ישראל לשנת 2012 בעיקר עקב תגליותיו בנושא זה.[2]
הצורך בשיטה
כמעט כל תחומי המדע המודרני מבוססים על בדיקת השערות בניסויים או בתצפיות, בהתבסס על מדגם מקרי. בתחום הסטטיסטי של בדיקת השערות פותחו כללים לקבל או לדחות השערה מדעית, באמצעות עימותה עם השערה שמרנית המכונה "השערת האפס". למשל, בבדיקה האם תרופה חדשה שפותחה מאריכה את תוחלת החיים של החולים המשתמשים בה, קיימות שיטות מקובלות לדגום חולים המשתמשים בתרופה וחולים שאינם משתמשים בתרופה, למדוד את תוחלת החיים שלהם ולהכריע בין השערת האפס : "תוחלת החיים של המשתמשים בתרופה אינה ארוכה יותר" ולבין ההשערה החלופית : "תוחלת החיים של המשתמשים בתרופה ארוכה יותר", אשר תוביל לפרסום תגלית מדעית שהתרופה יעילה. בשיטות טיפוסיות נוהגים לחשב מהי ההסתברות p לקבל את תוחלות החיים שנמדדו בפועל בהנחה שהשערת האפס נכונה, ולדחות השערה זו אם ורק אם p קטן מרמת מובהקות שרירותית כלשהי. רמת מובהקות מקובלת מאוד בתחומי הרפואה והביולוגיה הוא 0.05, כלומר רק אם הסיכוי p יהיה קטן מ-0.05 תידחה השערת האפס, וניתן יהיה לפרסם מאמר מדעי המדווח על תגלית - התרופה יעילה באופן "מובהק סטטיסטית". הערך 0.05 הוא שרירותי, שכן עקרונית ניתן היה להחליט כל ערך אחר, והוא מקובל במדע בזכות שמרנותו - הוא מקל בהרבה על קבלת השערת האפס מאשר על דחייתה, ולמעשה מכתיב כי תוכרז תגלית שגויה לכל היותר ב-0.05 (היינו 5%) מן המקרים בהם השערת האפס נכונה.
ואולם השיטות המסורתיות של בדיקת השערות אינן מספקות כאשר יש צורך בבדיקת השערות מרובות. למשל, נניח שבעת ביצוע מחקר בגנטיקה מעוניינים לבדוק את ההשפעה של 10,000 גנים. לשם כך דוגמים פרטים מן האוכלוסייה ומודדים את ההשפעה של 10,000 גנים בכל אחד מהם, כך שיש לבדוק 10,000 השערות: לכל גן נבדקת השערת האפס שאין לו השפעה לעומת ההשערה שיש לו השפעה. רמת מובהקות של 0.05 נראית שמרנית דיה לבדיקת השערה יחידה, אך אם תאומץ לבדיקת כל אחת מ-10,000 ההשערות יש לצפות שאפילו אם אין לאף גן השפעה כלשהי, תתקבלנה בממוצע 0.05*10,000=500 תגליות שגויות של גנים שהם כביכול בעלי השפעה "מובהקת סטטיסטית". מכאן עולה הצורך במבחן סטטיסטי מתוקן להשוואות מרובות. תיקון מסורתי כזה הוא תיקון בונפרוני (על שם המתמטיקאי האיטלקי קרלו אמיליו בונפרוני) אשר דוחה את השערת האפס רק אם ההסתברות p לקבלת התוצאות קטנה מרמת המובהקות המקורית מחולקת במספר ההשערות, במקרה זה ערך מתוקן של 0.05/10,000=0.000005 בלבד. הוכח ששימוש בתיקון בונפרוני מבטיח שההסתברות לקבל ולו תגלית שגויה אחת לא תהיה גדולה מרמת המובהקות.
החסרון בתיקון בונפרוני היא העוצמה הסטטיסטית הנמוכה מאוד שלו. היינו, על מנת להבטיח שאפילו תגלית שגויה אחת לא תעשה, תיקון בונפרוני הוא שמרן מדי, ונוטה להחמיץ תגליות מדעיות אמיתיות. בשל כך נמנעו מדענים רבים מן השימוש בו, או בכל תיקון אחר להשוואות מרובות, וחשפו את עצמם לתגליות שגויות. מצב זה החמיר במיוחד מאז סוף המאה ה-20, משום שההתקדמות הטכנולוגית מאפשרת מדידה אוטומטית של יותר ויותר משתנים בכל ניסוי ותצפית. בשנת 1995 הציעו בנימיני והוכברג להחליף את תיקון בונפרוני ב"שיעור התגליות השגויות" (FDR, ראשי תיבות באנגלית של False Discovery Rate), והראו שהעוצמה הסטטיסטית שלו גדולה בהרבה. כלומר, גם במחקרים המודדים משתנים רבים מאוד בו-זמנית ניתן להבטיח "שמרנות מדעית" ועדיין לקבל תגליות אמיתיות.
הרעיון בבסיס השיטה שהתוו בנימיני והוכברג היה לבקר את היחס שבין מספר התגליות השגויות לבין סך התגליות, במקום את ההסתברות לעשות תגלית שגויה אחת ויחידה. על פי רעיון זה ככל שמתקבלות פחות תגליות, הביטחון באמיתותן יורד, ולכן יש לדרוש שמרנות מחמירה יותר. למעשה, כאשר מספר התגליות הוא אחד בלבד, שיעור התגליות השגויות מתנהג כמו תיקון בונפרוני. לעומת זאת ככל שמתקבלות תגליות רבות יותר, הביטחון שלפחות חלק מהן נכונות עולה, ולכן ניתן לדרוש פחות שמרנות. המשפט שהוכיחו בנימיני והוכברג קובע שקיים כלל הכרעה אשר השימוש בו מסוגל להבטיח כל רמה נדרשת של שיעור תגליות שגויות.
תיאור השיטה
בהינתן מדגם והשערות מרובות , נסמן ב- את מספר התגליות, ונסמן ב- את מספר התגליות השגויות מתוכן (שאיננו יודעים מהו). בהינתן רמת מובהקות , סביר לדרוש מכלל ההכרעה לקיים . כלומר נרצה למצוא כלל הכרעה כזה שיבטיח לנו שאם נפעל לפיו אז תוחלת שיעור התגליות השגויות מתוך כלל התגליות לא תעלה על .
- סימון: נסמן לכל השערה -ית את הערך-p שלה ב-. נבצע אינדוקס מחודש של ערכי-p כך שיהיו בסדר עולה, ונניח לשם הפישוט שהם כולם שונים זה מזה, כך שמתקיים לכל .
- כלל ההכרעה: נגדיר , ונקבע את כלל ההכרעה "לדחות כל את כל ההשערות שהערך-p המתאים להן הוא בקבוצה ".
כלל הכרעה זה הוא הכלל שלגביו הוכיחו בנימיני והוכברג שהוא מקיים את הדרישה שהזכרנו. עם זאת זה לא תקף באופן מוחלט ותמיד, אלא בתנאי מסוים שנגדיר כעת.
- הגדרה: אומרים שקבוצה של משתנים מקריים הם PRDS (Positive Regression Dependence on each one from a Subset of variables) אם לכל פונקציה שהיא לא-יורדת, לכל מתקיים כי הפונקציה אינה יורדת ב-.
- ניתן להוכיח שאם משתנים מקריים כנ"ל הם PRDS, אז גם הפונקציה אינה יורדת ב-.
- המשפט שהוכיחו בנימיני והוכברג קובע שאם הערכי-p, כלומר המשתנים המקריים , הם PRDS, אז שימוש בכלל ההכרעה הזה מבטיח את הדרישה .
דוגמאות
כאשר יש בידינו מספר השערות רב, תחילה יש לבדוק p-value עבור כל השערה בנפרד. לאחר מכן, יש למיין את ה-p-value שהתקבלו בסדר עולה (נסמן ב-(p(i את ה-p-value ה-i ברשימה הממוינת).
על מנת לקבוע מהן ההשערות שיידחו – נמצא את ה-i הגדול ביותר עבורו מתקיים: . אם מתקיים – דוחים את כל ההשערות j כך ש: . בשתי הדוגמאות להלן נניח שרמת המובהקות של הבדיקה היא: .
בטבלה הבאה מובאת דוגמה עבור 3 השערות:
השערה | p-value מסודרים מהקטן לגדול | היחס של המנה | החלטה |
---|---|---|---|
1 | 0.01 | 0.01667 | לדחות |
2 | 0.03 | 0.0333 | לדחות |
3 | 0.07 | 0.05 | לא לדחות |
במקרה זה נדחו שתי השערות, בעוד לפי תיקון בונפרוני (שלפיו היינו משווים את כל ערכי ה-p-value ל-0.01667) רק ההשערה הראשונה הייתה נדחית.
בטבלה הבאה מובאת דוגמה עבור 15 השערות[3]:
השערה | p-value מסודרים מהקטן לגדול | היחס של המנה | החלטה |
---|---|---|---|
H(1) | 0.0037 | 0.0033 | לדחות |
H(2) | 0.0050 | 0.0067 | לדחות |
H(3) | 0.0105 | 0.0100 | לדחות |
H(4) | 0.0110 | 0.0133 | לדחות |
H(5) | 0.0150 | 0.0167 | לדחות |
H(6) | 0.0278 | 0.0200 | לא לדחות |
H(7) | 0.0298 | 0.0233 | לא לדחות |
H(8) | 0.0344 | 0.0267 | לא לדחות |
H(9) | 0.0459 | 0.0300 | לא לדחות |
H(10) | 0.3240 | 0.0333 | לא לדחות |
H(11) | 0.4262 | 0.0367 | לא לדחות |
H(12) | 0.5719 | 0.0400 | לא לדחות |
H(13) | 0.6528 | 0.0433 | לא לדחות |
H(14) | 0.7590 | 0.0467 | לא לדחות |
H(15) | 1.0000 | 0.0500 | לא לדחות |
במקרה זה נדחו חמש השערות, בעוד לפי תיקון בונפרוני (שלפיו היינו משווים את כל ערכי ה-p-value ל-0.0033) אפילו השערה אחת לא הייתה נדחית.
שימו לב שהערך גדול מה-p-value של H(i) עבור i=1,3, אך אלו אינם רלוונטיים, כיוון שמעניין אותנו רק מהו ה-i הגדול ביותר עבורו גדול או שווה מה-p-value של ההשערה ה-i, בהתאם לנוסחה:
הוכחה
ההוכחה המובאת אינה זו המקורית של בנימיני והוכברג, אלא של Helmut Finner, Thorsten Dickhaus ו-Markus Roters.
נסמן . נשים לב שמתקיים השוויון הקבוצתי .
נניח ללא הגבלת הכלליות כי ההשערות הנכונות הן עבור ונשים לב שבסימונים שלנו מתקיים . כמו כן קל לראות כי , ולכן נסיק בהתאם לתוחלת של פונקציה בשני משתנים ומהגדרת הסתברות מותנית:
כעת נשים לב שהצבה של משתנה מקרי בפונקציית ההתפלגות שלו עצמו חסומה על ידי ההתפלגות האחידה,[4] ולכן , ונקבל את החסם:
אם נפרק את הסכום שקיבלנו לאיבר הראשון, , ועוד שאר האיברים, נקבל את הסכום הטלסקופי:
כעת נשים לב שמכך שהקבוצה היא PRDS ומכך ש היא פונקציה לא עולה ב נובע כי:
נשים לב עוד כי מהגדרת כלל ההכרעה נובע שעבור דוחים, כלומר , ולכן . מכאן נקבל בדיוק את החסם הנדרש במשפט:
ראו גם
לקריאה נוספת
- יואב בנימיני ויוסף הוכברג, "Controlling the false discovery rate: a practical and powerful approach to multiple testing", כתב העת "Journal of the Royal Statistical Society, Series B"
קישורים חיצוניים
הערות שוליים
- ^ Ryan, T. P.; Woodall, W. H. (2005). "The most-cited statistical papers". Journal of Applied Statistics 32 (5): 461.
- ^ * יואב בנימיני/cv.htm שיעור התגליות השגויות, קורות חיים באתר פרס ישראל
- ^ הדוגמה מבוססת על הדוגמה שבמאמר: Benjamini, Yoav; Hochberg, Yosef (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing". Journal of the Royal Statistical Society, Series B. 57 (1): 289–300. MR 1325392, עם שינויים קלים.
- ^ במקרה שבו המשתנה המקרי רציף זו בדיוק ההתפלגות .
38082371שיעור התגליות השגויות