אנטרופיה (סטטיסטיקה)

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

בסטטיסטיקה ובתחומים נוספים, ובעיקר בתורת האינפורמציה, אנטרופיהאנגלית: Entropy) היא מדד לגודלו האפקטיבי של מרחב הסתברות. האנטרופיה של התפלגות אחידה בדידה על n מצבים היא log2n. את מושג האנטרופיה המתמטית פיתח אבי תורת האינפורמציה קלוד שאנון ב־1948[1].

לדוגמה, הטלת מטבע מחזירה אחת מבין שתי אפשרויות, והטלת קובייה מחזירה אחת מבין שש אפשרויות. ברור שאת התוצאה של הטלת הקוביה קשה יותר לחזות מאשר את זו של המטבע. חיבור התוצאות של שתי קוביות מחזיר אחת מבין 11 אפשרויות, שבהן 7 היא השכיחה ביותר, ואילו 2 או 12 נדירות ביחס. כאן לא די לומר שגודל מרחב ההסתברות הוא 11 – ההסתברויות אינן אחידות, ולכן לא ניתן במבט ראשון לקבוע האם תוצאת החיבור קשה יותר לחיזוי מאשר בחירה של ספרה אקראית בין 1 ל־9 (בהתפלגות אחידה בדידה), לדוגמה. הצורך להשוות באופן מדויק בין מרחבי התפלגות שונים קיים בכל תחומי המדע, ומדידת האנטרופיה באופן שיוצג להלן שכיחה בפיזיקה, בתורת האינפורמציה בביולוגיה (שם היא נקראת מדד שאנון-ויבר) ובתחומים נוספים.

הגדרה ואקסיומטיקה

אם X הוא מרחב הסתברות סופי, עם ההסתברויות הבאות p1,,pn המייצגות את המאורעות השונים במרחב, אזי האנטרופיה שלו מוגדרת לפי הנוסחה:

H(X)=𝔼[logX]=i=1npilog2(pi)

זהו ערך אי-שלילי, המקיים H(X)log2(n), עם שוויון רק כאשר ההסתברויות שוות כולן זו לזו. במובן זה, האנטרופיה מייצגת את הלוגריתם של גודל המרחב, ולא את הגודל עצמו. על־פי אותה נוסחה בדיוק אפשר לחשב את האנטרופיה של משתנה מקרי (המקבל מספר סופי של ערכים). בשני המקרים, האנטרופיה אינה מתחשבת בטיבם של המאורעות השונים במרחב, אלא בהסתברות שהם יתרחשו.

בנוסחת האנטרופיה לעיל, אם אחת או יותר מההסתברויות היא אפס, כלומר pi=0 אז הערך של האיבר המתאים בסכום הוא מהצורה 0log2(0) שמחושב בסכום כאפס, בהתאמה לגבול:

limp0+plog(p)=0

את "מספר האפשרויות" שמייצג X אפשר למדוד בדרכים נוספות, כגון ספירת מצבים נאיבית (n, במקרה זה), ממוצע הרמוני של ההסתברויות ((pi1/n)1) ועוד.

ניתן להסתכל על מזווית קצת שונה. עבור מאורעות בלתי תלויים וזרים מתקיים השוויון:

p(A1A2An)=1np(n)

וכאשר ממשקלים את ההסתברות בערך המאורעות עצמם מתקבלת התוחלת של המשתנה המקרי:

E(X)=ixiP(X=xi)

מנקודת מבט זו ניתן לראות את התוחלת של משתנה מקרי IID כמדד כללי שמייחס להסתברות שאחד מהמאורעות יקרה (A1A2An).

אנטרופיה, לעומת זאת, היא מדד להסתברות שכל המאורעות יקרו ביחד (A1A2An) וזאת בשל העובדה שפונקציית הלוגריתם הופכת כפל לסכום.

H(X)=E(x)=(pln(p))=ln(pipi)

שזהו למעשה ממוצע הנדסי משוקלל על ההסתברות.

הסיבה לכך שמדד האנטרופיה נחשב למדד המתאים בהקשרים רבים כל־כך קשורה לכמה תכונות יסודיות שהוא מקיים.

כדי שניתן יהיה להסביר תכונות אלה, יוזכרו מושג יסודי אחר בסטטיסטיקה: התפלגות מותנית. אם X ו־Y שני משתנים מקריים, אז עבור כל ערך אפשרי y של Y, אפשר לבנות משתנה מקרי חדש XY=y, "המשתנה המותנה", המייצג את הערכים שיכול לקבל X אם ידוע ש־Y קיבל את הערך y. כאשר הערך של Y אינו ידוע, מסמנים את המשתנה המותנה בסימון XY; זהו, אם כך, משתנה מקרי, שהתפלגותו המדויקת תלויה בערך שיקבל Y.

פונקציית האנטרופיה H מקיימת את ארבע התכונות הבאות:

  1. אדיטיביות: אם X ו־Y שני משתנים מקריים בלתי תלויים, אז H(X,Y)=H(X)+H(Y). במילים אחרות, האנטרופיה של מכפלה ישרה של מרחבי התפלגות שווה לסכום האנטרופיות של שני המרחבים.
  2. פיצול: אם X משתנה מקרי ו־Y פונקציה של X, אז H(X,Y)=H(XY)+H(Y), כאשר H(XY) מייצג את התוחלת של H(XY=y) במעבר על כל הערכים האפשריים של Y.
  3. רציפות: האנטרופיה של התפלגות ברנולי b(p) היא פונקציה רציפה של p.
  4. נורמליות: האנטרופיה של ההתפלגות האחידה על שני מצבים, היא 1.

משפט: פונקציית האנטרופיה H היא הפונקציה היחידה המקיימת את ארבע התכונות לעיל.

הוכחה:

נניח ש-H היא פונקציה המוגדרת על משתנים מקריים, ומקיימת את תכונות האדיטיביות, הפיצול, הרציפות והנורמליות. ראשית יחושב H(p), שהוא הערך של H במשתנה ברנולי b(p). יהיו X,Yb(p) משתני ברנולי בלתי תלויים. נסמן ב-Z את המשתנה המתאפס אם X=Y ושווה 1 אחרת. Z הוא פונקציה של הזוג הסדור (X,Y). לפי אקסיומות הפיצול והאדיטיביות:

2H(p)=H(X)+H(Y)=H(X,Y)=H(X,Y|Z)+H(Z)

אבל Z עצמו מתפלג ברנולי, עם הסתברות 2pq להיות שווה 1 (כאשר q=1p). בהינתן Z=1, הזוג (X,Y) מקבל את הערכים (0,1) ו-(1,0) בהסתברויות שוות; ובהינתן Z=0 (מאורע שהסתברותו א-פריורי היא p2+q2), ההסתברות ל-(1,1) היא:

q2p2+q2

אם כך, לפי ההגדרה:

H(X,Y|Z)=(p2+q2)H(p2p2+q2)+2pqH(12)

לכן:

2H(p)=(p2+q2)H(p2p2+q2)+2pqH(12)+H(2pq)

זוהי משוואה פונקציונלית, שהפתרון היחיד שלה הוא H(p)=plogpqlogq, עד כדי קבוע; הנורמליות קובעת שהלוגריתם הוא בבסיס 2. עבור משתנה המקבל n ערכים, אפשר לחשב את H באינדוקציה, על ידי התניה בקבלת הערך האחרון:

H(p1,,pn)=(1pn)H(p11pn,,pn11pn)+H(pn)

דוגמה

עבור הדוגמה שבפתיח (מה יותר קשה לחיזוי – סכום הטלת שתי קוביות או התפלגות אחידה בין 9 תוצאות): למרחב אחיד בגודל 9 יש 9 תוצאות, ולכל אחת מהן הסתברות 19, ולכן האנטרופיה היא:

9(19log2(19))=log2(9)3.17

לעומת זאת, האנטרופיה של מרחב התוצאות האפשריות של סכום שתי קוביות היא:

 pilog2(pi)=[2(136log2(136))+2(118log2(118))+2(112log2(112))+2(19log2(19))+2(536log2(536))+(16log2(16))]3.27

כלומר, מעט קשה יותר לחזות את התוצאה של הטלת שתי קוביות מאשר את התוצאה של בחירה אקראית מתוך 9 אפשרויות.

שימושים

לאנטרופיה של שאנון קשר הדוק ליכולת לדחוס אינפורמציה וליכולת ללמוד מהאינפורמציה באמצעות אלגוריתמים של למידת מכונה. מושגים נוספים הקשורים לאנטרופיה קשר הדוק הם אינפורמציה הדדית ואנטרופיה מותנית. לאנטרופיה יש גם קשר עמוק למושג סיבוכיות קולמוגורוב.

אנטרופיה של משתנה מקרי רציף

האנטרופיה של שאנון מוגבלת למשתנים מקריים בדידים. עבור משתנה מקרי רציף X, בעל פונקציית צפיפות הסתברות f(x) ותומך 𝕏, חסום או לא חסום על הישר הממשי, מגדירים את האנטרופיה הדיפרנציאלית באופן דומה:

H(X)=𝔼[log2f(X)]=𝕏f(x)log2f(x)dx

האנטרופיה הדיפרנציאלית חסרה מספר מאפיינים חשובים שיש לאנטרופיה של שאנון, ובפרט היא עשויה להיות שלילית. ולכן לעיתים, עבור התפלגויות רציפות, משתמשים בהכללות אחרות של האנטרופיה.

ראו גם

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא אנטרופיה בוויקישיתוף

הערות שוליים

  1. C.E. Shannon, "A Mathematical Theory of Communication", Bell System Technical Journal, vol. 27, pp. 379–423, 623–656, July, October, 1948


הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

אנטרופיה (סטטיסטיקה)41396882Q204570