אי-שוויון ברנשטיין למטריצות
![]() בערך זה |
אי-שוויון ברנשטיין למטריצות (באנגלית: Matrix Bernstein Inequality) הוא אי-שוויון מרכזי בתורת ההסתברות ובתורת המטריצות האקראיות. הוא מספק חסם הסתברותי על הסטייה של סכום של מטריצות הרמיטיות אקראיות ובלתי תלויות מתוחלת. אי-השוויון מהווה הרחבה טבעית של אי-שוויון ברנשטיין הקלאסי, העוסק בסכום של משתנים מקריים סקלריים. אי-השוויון שימושי במיוחד במצבים שבהם המטריצות בסכום עשויות להיות בעלות נורמה גדולה, אך השונות המצרפית שלהן (שנמדדת על ידי הנורמה של סכום תוחלות הריבועים) קטנה יחסית.
היסטוריה ופיתוח
אי-השוויון במתכונתו המודרנית הופיע לראשונה בעבודתם של רודולף אלסווד (Rudolf Ahlswede) ואנדריאס וינטר (Andreas Winter) משנת 2002[1]. הם השתמשו בו בהקשר של תורת האינפורמציה הקוונטית, ספציפית לחקר שיעורי התכנסות חזקים (strong converse rates) בערוצים קוונטיים.
מאז, אי-השוויון זכה לתשומת לב רבה, וגרסאות שונות, הכללות ושיפורים פותחו. תרומה משמעותית במיוחד ניתנה על ידי ג'ואל טרופ (Joel A. Tropp) במאמרו משנת 2012[2], שהציג הוכחה נגישה יותר וניסוח "ידידותי למשתמש" של אי-השוויון, ותרם רבות להפצתו ולהפיכתו לכלי סטנדרטי בתחומים רבים.
ניסוח פורמלי
יהיו סדרה סופית של מטריצות אקראיות בלתי תלויות מממד , אשר כל אחת מהן היא הרמיטית. נניח כי כל המטריצות הן ממוקדות, כלומר (מטריצת האפס) לכל .
נניח שקיים קבוע כך שהנורמה של כל מטריצה חסומה כמעט בוודאות: לכל כאשר היא הנורמה אופרטורית (הידועה גם כנורמה ספקטרלית), השווה לערך הסינגולרי הגדול ביותר של המטריצה (או הערך העצמי הגדול ביותר בערכו המוחלט, עבור מטריצות הרמיטיות).
נגדיר את "פרמטר השונות המטריציוני" (matrix variance parameter) של הסכום על ידי: כאן, היא תוחלת המטריצה . מכיוון שכל היא הרמיטית, היא מטריצה חיובית (positive semidefinite), וכך גם תוחלתה . לפיכך, הסכום הוא מטריצה חיובית, והנורמה האופרטורית שלו היא פשוט הערך העצמי הגדול ביותר של מטריצת השונות המצטברת הזו.
אזי, לכל , מתקיים אי-שוויון ברנשטיין למטריצות:
הערה: הקבוע במכנה האקספוננט עשוי להשתנות מעט בין גרסאות שונות של אי-השוויון בספרות, בהתאם לחסמים הספציפיים שבהם משתמשים בהוכחה.
הסבר ואינטואיציה
אי-שוויון ברנשטיין למטריצות מספק חסם על ההסתברות שהנורמה (הספקטרלית) של סכום המטריצות האקראיות תסטה באופן משמעותי מתוחלתו (שהיא אפס). החסם מציג התנהגות דואלית המזכירה את אי-שוויון ברנשטיין הסקלרי:
- הקבלה לאי-שוויון ברנשטיין הסקלרי: באי-השוויון הסקלרי, חסם הזנב תלוי בשונות הכוללת ובחסם העליון על גודל המשתנים הבודדים. באופן מקביל, אי-שוויון המטריצות תלוי בפרמטר השונות המטריציוני (שמכמת את השונות המצטברת של המטריצות) ובחסם העליון על הנורמה של המטריצות הבודדות. אי-שוויון ברנשטיין למטריצות הוא הכללה של אי-שוויון ברנשטיין עבור משתנים מקריים סקלריים. כאשר ממד המטריצות הוא 1 (d=1), הנורמה האופרטורית מתכווצת לערך המוחלט, והאי-שוויון הופך לאי-שוויון ברנשטיין הסטנדרטי עבור סכום של משתנים מקריים חסומים .
- משמעות האיברים במכנה האקספוננט: המכנה משלב שני משטרים:
- מקרה תת-גאוסיאני (Sub-Gaussian regime): כאשר קטן יחסית (ובאופן גס, ), האיבר הדומיננטי במכנה הוא . החסם דומה להתנהגות זנב גאוסיאני, . התנהגות זו אופיינית לסטיות קטנות הנשלטות על ידי השונות המצטברת, ברוח משפט הגבול המרכזי.
- מקרה תת-אקספוננציאלי (Sub-exponential regime): כאשר גדול (), האיבר הדומיננטי במכנה הוא . החסם דומה להתנהגות זנב פואסוני או תת-אקספוננציאלי, (עד כדי פקטורים קבועים). התנהגות זו אופיינית לסטיות גדולות, הנשלטות על ידי הערכים הקיצוניים האפשריים של המטריצות (הנורמה המקסימלית ).
- תפקיד הממד : הפקטור המופיע לפני האקספוננט הוא ההבדל הבולט ביותר בהשוואה לאי-השוויון הסקלרי (שם המקדם הוא 2). הוא נובע מהמעבר למרחב מטריצות, ובאופן טכני, מהשימוש בעקבה (trace) של אקספוננט מטריציוני בהוכחה, והחסם עבור מטריצות חיוביות. ניתן לחשוב על פקטור זה כמחיר שמשלמים על חוסר הקומוטטיביות של כפל מטריצות ועל העובדה שהנורמה של המטריצה מושפעת מ- ערכים עצמיים פוטנציאליים. במקרים רבים, כאשר למטריצות יש מבנה נוסף (למשל, דרגה נמוכה), ניתן לשפר פקטור זה ולהחליפו ב"ממד אפקטיבי" הקטן מ-.
- שימושיות: אי-השוויון יעיל במיוחד כאשר השונות המצטברת קטנה משמעותית מהשונות שהייתה מתקבלת אם היינו משתמשים בחסם הגס בלבד (למשל, כאשר ). במצבים אלו, הוא מספק חסמים הדוקים יותר מאשר אי-שוויון הופדינג למטריצות, שאינו מתחשב במבנה השונות.
הוכחה (סקיצה)
ההוכחה המודרנית הנפוצה, כפי שהוצגה על ידי טרופ[2], מתבססת על שיטת פונקציה יוצרת מומנטים (או טרנספורם לפלס) למטריצות, בשילוב עם אי-שוויונות יסודיים מתורת המטריצות.
הוכחה |
---|
נסמן את הסכום . מטרתנו היא לחסום את .
1. פירוק הנורמה: מכיוון ש- היא מטריצה הרמיטית, הנורמה האופרטורית שלה היא הערך המוחלט של הערך העצמי הקיצוני ביותר: כאשר ו- הם הערכים העצמיים המקסימלי והמינימלי של , בהתאמה. לכן, על ידי אי-שוויון האיחוד: נשים לב ש- שקול ל-. מכיוון שהסכום מורכב גם הוא ממטריצות הרמיטיות בלתי תלויות וממורכזות, עם אותו חסם נורמה ואותו פרמטר שונות , החסם על זהה לחסם על . לכן, מספיק לחסום את ולהכפיל את התוצאה ב-2. 2. שימוש בחסם צ'רנוף ובעקבה: עבור (פרמטר שייבחר בהמשך), נשתמש בחסם צ'רנוף: לפי אי-שוויון מרקוב, ההסתברות חסומה על ידי: כעת משתמשים בקשר היסודי בין הערך העצמי המקסימלי לעקבה של אקספוננט מטריציוני. לכל מטריצה הרמיטית , מתקיים הוא לוגריתם של הרדיוס הספקטרלי של המטריצה החיובית . כמו כן, הרדיוס הספקטרלי של מטריצה חיובית חסום על ידי העקבה שלה: לכן: מכאן מקבלים את החסם המבוסס על תוחלת העקבה: 3. חסם על תוחלת עקבת האקספוננט: זהו השלב המרכזי והטכני ביותר. בשל אי-קומוטטיביות המטריצות, אינו מתפרק למכפלת אקספוננטים. משתמשים בתוצאה עמוקה מתורת המטריצות, הנובעת ממשפט ליב (Lieb's theorem on trace convexity/concavity) או תוצאות קשורות כמו אי-שוויון גולדן-תומפסון. תוצאה מרכזית (למשל, Tropp, Theorem 3.6[2]) מאפשרת לחסום את תוחלת העקבה באופן איטרטיבי או ישיר: כאשר הוא לוגריתם מטריציוני. 4. חסם על הלוגריתם של תוחלת האקספוננט הבודד: השלב הבא הוא לחסום כל . כאן משתמשים בתכונות של (הרמיטית, ממורכזת, חסומה בנורמה על ידי ). ניתן להראות, על ידי הכללה של טכניקות מאי-שוויון ברנשטיין הסקלרי, כי מתקיים האי-שוויון המטריציוני (בסדר ליוונר, פירושו חיובית): (הסימן מציין אי-שוויון בסדר ליוונר. חסם זה תקף בתנאי ש- קטן מספיק, למשל ). נסמן את הפקטור הסקלרי . 5. הרכבת החסמים: בהצבת החסם על בחזרה ושימוש בתכונות המונוטוניות של אקספוננט ועקבת מטריצות (ובפרט, העובדה ש- גורר עבור הרמיטיות), מקבלים: נשתמש שוב בתכונת העקבה . מכיוון ש- היא מטריצה חיובית ו-, נקבל: 6. אופטימיזציה של : מציבים את החסם על בחזרה לחסם צ'רנוף: מבצעים אופטימיזציה על (בדומה לאי-שוויון ברנשטיין הסקלרי). הבחירה האופטימלית (או קרוב לאופטימלית) של היא . הצבת ערך זה של במעריך (לאחר חישוב אלגברי) נותנת: 7. התוצאה הסופית: לאחר הכפלה בפקטור 2 (כפי שהוסבר בשלב 1), מתקבל אי-השוויון המוצהר: |
גרסאות והרחבות
קיימות מספר גרסאות והרחבות לאי-שוויון ברנשטיין למטריצות:
- מטריצות מלבניות: ניתן להכליל את אי-השוויון למקרה שבו הן מטריצות אקראיות מממד , כאשר אינן בהכרח הרמיטיות. במקרה זה, הנורמה היא עדיין הנורמה האופרטורית, וההגדרות של משתנות מעט (לרוב מערבות את ו-). הפקטור מוחלף ב-.
- מטריצות סימטריות: אם המטריצות Xi הן סימטריות, ניתן לקבל חסם דומה עם פקטור 1 במקום 2 לפני d.
- תלות בממד אפקטיבי: הפקטור יכול להיות פסימי מדי אם למטריצות יש מבנה פנימי, כגון דרגה נמוכה. ניתן להראות שבתנאים מסוימים, יכול להיות מוחלף ב"ממד אפקטיבי" או "דרגה יציבה" (stable rank), שיכול להיות קטן משמעותית מ-.
- הרפיית תנאי אי-התלות: קיימות גרסאות של אי-השוויון עבור סדרות תלויות של מטריצות, למשל, סדרות המהוות מרטינגל (תורת ההסתברות) מטריציוני (Matrix Martingale). גרסאות אלו דומות לאי-שוויון אזומה-הופדינג למטריצות.
- גרסאות עם קבועים שונים: כאמור, קיימות גרסאות עם קבועים מעט שונים במכנה האקספוננט, הנובעות משימוש בחסמים שונים בהוכחה.
שימושים
אי-שוויון ברנשטיין למטריצות הפך לכלי בסיסי וחשוב בתחומים רבים, ביניהם:
- תורת המטריצות האקראיות: ניתוח התנהגות ספקטרלית של סכומי מטריצות אקראיות, חסימת ריכוז של מטריצות קווריאנציה אמפיריות סביב תוחלתן.
- למידת מכונה וסטטיסטיקה:
- ניתוח אלגוריתמים של אמידה סטטיסטית בממדים גבוהים.
- ריכוז של מטריצות גרעין (Kernel matrices).
- ניתוח ניתוח גורמים ראשיים (PCA) אקראי ואלגוריתמי הורדת ממדים.
- בניית אמדי קווריאנציה רובוסטיים וקביעת גבולות על שגיאות.
- ניתוח של שיטות למידה מקוונת (online learning).
- מדעי המחשב העיוניים:
- ניתוח של אלגוריתמים אקראיים, במיוחד אלגוריתמים על גרפים (למשל, חסימת ההפרש בין לפלסיאן של גרף אקראי לתוחלתו), ניתוח ספקטרלי של מטריצות סמיכויות של גרפים.
- בנייה וניתוח של אלגוריתמי קירוב, למשל בבעיות כיסוי.
- שיטות של ספרסיפיקציה ספקטרלית (spectral sparsification) של גרפים.
- תורת האינפורמציה הקוונטית (אנ'): כפי שצוין, האי-שוויון שימש במקור לחקר ערוצים קוונטיים ויכולת הבחנה בין מצבים קוונטיים.
- עיבוד אותות: ניתוח שיטות שחזור ודגימה, למשל בחישה דחוסה (אנ') (Compressed Sensing).
- ניתוח רשתות מורכבות: חקר תכונות ספקטרליות של מטריצות שכנות (adjacency matrices) ומטריצות לפלסיאן של רשתות אקראיות.
דוגמה חישובית עבור מטריצה בגודל 2×2
כדי להמחיש את אי-שוויון ברנשטיין למטריצות, נבחן את המקרה הפשוט של שתי מטריצות מקריות סימטריות בגודל :
כאשר הם משתנים מקריים בלתי תלויים עם תוחלת אפס:
ונניח כי קיימת קבועה כך ש- כמעט תמיד.
מגבלת הנורמה
- עבור , הערכים העצמיים הם , ולכן:
- עבור , הערכים העצמיים הם , ולכן:
נגדיר את החסם האחיד:
חישוב פרמטר השונות
נחשב את המטריצות ו-:
ולכן:
נסמן , ונקבל:
החלת האי-שוויון
לפי אי-שוויון ברנשטיין למטריצות, עבור ועבור כל :
נציב את החסמים:
כלומר, ההסתברות שהנורמה הספקטרלית של סכום המטריצות תחרוג מהערך דועכת אקספוננציאלית בקצב התלוי בפרמטרים ו-.
סימולציה נומרית עבור אי-שוויון ברנשטיין

כדי להמחיש את אי-שוויון ברנשטיין למטריצות ואת אופיו כחסם, ניתן לבצע סימולציה נומרית. התמונה משמאל מציגה תוצאות של סימולציה כזו.
תיאור הסימולציה
בסימולציה זו, נקבעו הפרמטרים הבאים:
- ממד המטריצות:
- מספר המטריצות בסכום:
- חסם עליון על הנורמה של כל מטריצה:
- מספר הניסויים (חזרות) בסימולציה: 5000
בכל אחד מ-5000 הניסויים הבלתי תלויים:
- נוצרה סדרה של מטריצות אקראיות מממד . כל מטריצה נבנתה כך שתקיים את תנאי אי-השוויון:
- הרמיטיות:
- תוחלת אפס: (מטריצת האפס).
- נורמה חסומה: כמעט בוודאות. (דרך נפוצה להשיג זאת היא ליצור מטריצות עם רכיבים אקראיים ממשיים או מרוכבים בעלי תוחלת אפס ושונות קבועה, לבצע הרמטיזציה (למשל, אם היא מטריצת רכיבים גאוסיאניים), ואז לנרמל את המטריצה אם הנורמה שלה חורגת מהחסם ).
- חושב הסכום של המטריצות: .
- חושבה הנורמה אופרטורית של הסכום: .
לאחר 5000 חזרות, התקבלו 5000 ערכים של , המהווים מדגם אמפירי להתפלגות הנורמה של הסכום.
ניתוח הגרפים
היסטוגרמה (גרף שמאל)
הגרף השמאלי מציג היסטוגרמה של 5000 ערכי שהתקבלו בסימולציה. ציר ה-x מייצג את ערך הנורמה האופרטורית , וציר ה-y מייצג את צפיפות ההסתברות האמפירית. ניתן לראות שהתפלגות הנורמה מרוכזת סביב ערכים מסוימים (באזור 6-8 במקרה זה). למרות שתוחלת הסכום היא מטריצת האפס (), הנורמה שלו היא תמיד ערך אי-שלילי המודד את "גודל" הסטייה של ממטריצת האפס. הריכוז שנצפה בהיסטוגרמה מדגים את העובדה שהסתברות לקבל ערכי נורמה גדולים מאוד היא נמוכה.
הסתברות זנב אמפירית מול חסם ברנשטיין (גרף ימין)
הגרף הימני משווה בין הסתברות הזנב האמפירית לבין החסם התאורטי של ברנשטיין:
- ציר ה-x: ערך הסף .
- ציר ה-y: הסתברות (בסולם לוגריתמי). הסולם הלוגריתמי מדגיש התנהגות של דעיכה מעריכית.
- הקו הכחול (רציף): מייצג את ההסתברות האמפירית , כפי שנמדדה בסימולציה. ערך זה עבור נתון הוא פשוט שיעור הניסויים (מתוך 5000) שבהם הנורמה הייתה גדולה או שווה ל-.
- הקו האדום (מקווקו): מייצג את החסם העליון התאורטי שמספק אי-שוויון ברנשטיין למטריצות: . כדי לצייר גרף זה, יש צורך לחשב או לאמוד את פרמטר השונות עבור המטריצות הספציפיות שנוצרו בסימולציה (או להשתמש בחסם עליון עבורו).
פרשנות והקשר לאי-השוויון
מהגרפים ניתן ללמוד מספר דברים המדגימים את תכונות אי-שוויון ברנשטיין למטריצות:
- החסם אכן מתקיים: הקו הכחול (ההסתברות האמיתית, כפי שנצפתה בסימולציה) נמצא תמיד מתחת או על הקו האדום המקווקו (החסם התאורטי). זה מאשר את נכונות אי-השוויון עבור המקרה שנבדק – החסם אכן מהווה חסם עליון להסתברות הזנב.
- החסם אינו בהכרח הדוק: קיים פער (gap) בין החסם האדום לבין ההסתברות האמיתית הכחולה. הפער יכול להיות משמעותי, במיוחד עבור ערכי נמוכים. הדבר נובע מאופיו הכללי של אי-השוויון, שנועד להיות נכון עבור כל התפלגות מטריצות המקיימת את התנאים (הרמיטיות, תוחלת אפס, נורמה חסומה, ושונות נתונה), ולכן הוא מהווה חסם "במקרה הגרוע" (worst-case bound) ואינו מותאם ספציפית להתפלגות הגאוסית (או אחרת) ששימשה בסימולציה.
- לכידת הדעיכה המעריכית: למרות הפער, החסם של ברנשטיין (הקו האדום) מצליח ללכוד את קצב הדעיכה המהיר (המעריכי) של הסתברות הזנב, כפי שמשתקף בשיפוע הירידה הדומה של שני הקווים בציר הלוגריתמי. ככל ש- גדל, ההסתברות לסטייה גדולה כזו יורדת במהירות, והחסם משקף נכונה התנהגות זו.
לסיכום, הסימולציה והגרפים מדגימים באופן ויזואלי כיצד אי-שוויון ברנשטיין למטריצות מספק חסם עליון על הסתברות לסטייה גדולה של נורמת סכום מטריצות אקראיות מתוחלתו (שהיא אפס, אך הנורמה חיובית), וכי חסם זה לוכד את הדעיכה המעריכית של הסתברות זו, גם אם אינו הדוק בכל נקודה.
אי-שוויונות קשורים
- אי-שוויונות ברנשטיין: הגרסה הסקלרית הקלאסית, שאי-שוויון המטריצות מכליל.
- אי-שוויון צ'רנוף למטריצות (Matrix Chernoff Inequality): חסם ריכוז דומה, אך מיועד ספציפית לסכום של מטריצות חיוביות (PSD) אקראיות ובלתי תלויות. לרוב נותן חסמים הדוקים יותר מברנשטיין במקרה זה, והתנאים מנוסחים במונחי הערכים העצמיים המקסימליים של המטריצות הבודדות.
- אי-שוויון הופדינג למטריצות (Matrix Hoeffding Inequality): גרסה פשוטה יותר של אי-שוויון ריכוז למטריצות. הוא מניח רק חסימות על הנורמה של המטריצות הבודדות () ולא משתמש במידע על השונות . החסם המתקבל תלוי רק בסכום ריבועי החסמים . הוא פחות הדוק מברנשטיין כאשר קטן משמעותית מסכום ריבועי הנורמות המקסימליות, אך פשוט יותר לשימוש כאשר מידע על השונות אינו זמין.
- אי-שוויון אזומה-הופדינג למטריצות (Matrix Azuma-Hoeffding Inequality): הרחבה של אי-שוויון הופדינג למטריצות לסדרות תלויות של מטריצות המהוות מרטינגל (תורת ההסתברות) מטריציוני. הוא מספק חסם על הסטייה של המרטינגל מערכו ההתחלתי.
ראו גם
- מטריצה אקראית
- חסם הופדינג
- אי-שוויונות ברנשטיין
- אי-שוויון אפרון-שטיין
- אי-שוויון צ'רנוף למטריצות (אנ')
- אי-שוויונות ריכוז מידה (אנ')
לקריאה נוספת
- https://arxiv.org/pdf/1004.4389 - מאמר הסקירה המקיף של ג'ואל טרופ, כולל הוכחה מפורטת ודיון ביישומים.
- http://www.cs.cmu.edu/~avrim/Talks/MatrixConcentration.pdf - מצגת הרצאה על אי-שוויוני ריכוז למטריצות] מאת איברים בלום (Avrim Blum) (באנגלית).
- https://terrytao.wordpress.com/2010/01/03/254a-notes-1-concentration-of-measure/ - פוסט בבלוג של טרנס טאו] על ריכוז המידה, כולל דיון באי-שוויונות למטריצות (באנגלית).
- An Introduction to Matrix Concentration Inequalities Joel A. Tropp https://arxiv.org/pdf/1501.01571
- Proof of Matrix Bernstein Inequality: https://pages.cs.wisc.edu/~yudongchen/cs839_sp22/4_mtx_concentration2.pdf
- Proof of Matrix Bernstein Inequality: https://www.stat.cmu.edu/~arinaldo/Teaching/36710/F18/Scribed_Lectures/Oct8.pdf
- https://www.stat.cmu.edu/~larry/=stat705/Lecture3.pdf - Carnegie mellon university Larry Wasserman course on Intermediate Statistics 36-705 - Lecture Notes 3
- Bai & Silverstein, Spectral Analysis of Large Dimensional Random Matrices, 2010
- Terence Tao, Topics in random matrix theory
- Vershynin, R. High-Dimensional Probability. Cambridge University Press, 2018.
- Wainwright, M. J. (2019). High-dimensional statistics: A non-asymptotic viewpoint. Cambridge University Press.
- Joel A. Tropp, An Introduction to Matrix Concentration Inequalities, Foundations and Trends® in Machine Learning, 2015. (ספר מבוא מקיף לנושא).
הערות שוליים
- ↑ Ahlswede, R.; Winter, A. (2002). "Strong converse for identification via quantum channels". IEEE Transactions on Information Theory. 48 (3): 569–579. doi:10.1109/18.985947.
- ^ 2.0 2.1 2.2 Tropp, J. A. (2012). "User-friendly tail bounds for sums of random matrices". Foundations of Computational Mathematics. 12 (4): 389–434. arXiv:1004.4389. doi:10.1007/s10208-011-9099-z.
אי-שוויון ברנשטיין למטריצות41567524