לדלג לתוכן

טעות דגימה

מתוך המכלול, האנציקלופדיה היהודית

בסטטיסטיקה, טעויות דגימה מתרחשות כאשר המאפיינים הסטטיסטיים של אוכלוסייה מוערכים מתת-קבוצה, או מדגם, של אוכלוסייה זו. מפני שהמדגם לעיתים קרובות אינו כולל את כלל האוכלוסייה, סטטיסטיקות של מגדן (המכונות לעיתים קרובות אומדנים), כגון ממוצעים ורבעונים, לרוב שונות מהסטטיסטיקות של כלל האוכלוסייה (המכונות פרמטרים). ההבדל בין סטטיסטיקת המדגם לפרמטר האוכלוסייה נחשב לטעות הדגימה.[1] לדוגמה, במדידה של הגובה של אלף אנשים מתוך אוכלוסייה של מיליון אנשים, לעיתים קרובות לא יצא אותו הממוצע.

מכיוון שדגימה כמעט תמיד נעשית בשביל למצוא פרטי מידע על אוכלוסייה שאינם ידועים לנו, לא ניתן למצוא את המידע המדויק; עם זאת, לעיתים קרובות ניתן להעריך אותן, בין אם בשיטות כלליות כמו bootstrapping, ובין אם בשיטות ספציפיות המשלבות הנחות (או ניחושים) בנוגע להתפלגות האוכלוסייה האמיתית ולפרמטרים שלה.

תיאור

שגיאת דגימה

טעות הדגימה היא השגיאה הנגרמת כתוצאה מתצפית על מדגם במקום על כלל האוכלוסייה.[1] טעות הדגימה היא ההפרש בין נתון סטטיסטי המשמש להערכת פרמטר של אוכלוסייה לבין הערך בפועל אך הלא ידוע של הפרמטר.[2]

דגימה יעילה

בסטטיסטיקה, מדגם אקראי אמיתי פירושו בחירת פרטים מאוכלוסייה בעלת הסתברות זהה; במילים אחרות, בחירת פרטים מקבוצה ללא אף גורם חיצוני. אי ביצוע פעולה זו בצורה נכונה יביא להטיה דגימה, אשר יכולה להגדיל באופן דרמטי את טעות הדגימה בצורה שיטתית. לדוגמה, ניסיון למדוד את הגובה הממוצע של כלל אוכלוסיית העולם, אך מדידת מדגם ממדינה אחת בלבד, עלול לגרום להערכת יתר או תת-הערכה גדולה. במציאות, קבלת מדגם לא מוטה יכולה להיות קשה מכיוון שפרמטרים רבים (בדוגמה זו, מדינה, גיל, מין וכן הלאה) עלולים להטות מאוד את האומדן ויש לוודא שאף אחד מהגורמים הללו לא משחק תפקיד בתהליך הבחירה.

אפילו במדגם מושלם ולא מוטה, טעות הדגימה עדיין קיימת עקב הרכיב הסטטיסטי הנותר; יש לקחת בחשבון שמדידת שניים או שלושה אנשים בלבד וחישוב הממוצע יניבו תוצאה משתנה באופן משמעותי בכל פעם. לרוב אפשר להקטין את גודל הטעות על ידי הגדלת כמות הנתונים.[3]

קביעת גודל המדגם

העלות של הגדלת גודל מדגם עשויה להיות גבוהה במציאות. מכיוון שלעיתים קרובות ניתן להעריך את טעות המדגם מראש כפונקציה של גודל המדגם, נעשה שימוש בשיטות שונות לקביעת גודל מדגם כדי לשקול את הדיוק החזוי של אומדן מול העלות החזויה של לקיחת מדגם גדול יותר.

Bootstrapping ושגיאה סטנדרטית

כפי שנדון, נתון סטטיסטי מדגם, כגון ממוצע או אחוז, יהיה בדרך כלל נתון לשונות ממדגם למדגם.[4] על ידי השוואת דגימות רבות, או פיצול דגימה גדולה יותר לקטנות יותר (ייתכן עם חפיפה), ניתן להשתמש בפיזור סטטיסטיקות הדגימה המתקבלות כדי להעריך את סטיית התקן במדגם.

בגנטיקה

המונח "טעות דגימה" שימש גם במובן דומה אך שונה באופן מהותי בתחום הגנטיקה ; למשל באפקט צוואר הבקבוק או אפקט המייסד, כאשר אסונות טבע או נדידות מפחיתים באופן דרמטי את גודל האוכלוסייה, וכתוצאה מכך יכולה להיווצר אוכלוסייה שיכולה לייצג כראוי את האוכלוסייה המקורית, אבל יכולה גם לא להיווצר אוכלוסייה כזאת. זהו מקור לסחיפה גנטית, כאשר אללים מסוימים הופכים נפוצים יותר או פחות, ומכונה "טעות דגימה",[5] אף על פי שאינה "שגיאה" במובן הסטטיסטי.

ראו גם

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא טעות דגימה בוויקישיתוף

הערות שוליים

  1. ^ 1.0 1.1 Sarndal, Swenson, and Wretman (1992), Model Assisted Survey Sampling, Springer-Verlag, ISBN 0-387-40620-4
  2. Burns, N.; Grove, S. K. (2009). The Practice of Nursing Research: Appraisal, Synthesis, and Generation of Evidence (6th ed.). St. Louis, MO: Saunders Elsevier. ISBN 978-1-4557-0736-2.
  3. Scheuren, Fritz (2005). "What is a Margin of Error?". What is a Survey? (PDF). Washington, D.C.: American Statistical Association. אורכב מ-המקור (PDF) ב-2013-03-12. נבדק ב-2008-01-08.
  4. Sarndal, Swenson, and Wretman (1992), Model Assisted Survey Sampling, Springer-Verlag, ISBN 0-387-40620-4 0-387-40620-4
  5. Campbell, Neil A.; Reece, Jane B. (2002). Biology. Benjamin Cummings. pp. 450–451. ISBN 0-536-68045-0.

טעות דגימה41742176Q3306280