בטיחות בינה מלאכותית

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

בטיחות בינה מלאכותיתאנגלית: AI safety) הוא תחום מחקר בין-תחומי המתמקד במניעת תאונות, שימוש לרעה ותוצאות מזיקות אחרות שעלולות לנבוע ממערכות בינה מלאכותית (AI). התחום כולל יישור בינה מלאכותית (אנ') (שמטרתו להבטיח שמערכות בינה מלאכותית יפעלו כפי שהתכוונו יוצריהן), ניטור סיכונים במערכות בינה מלאכותית ושיפור חוסנן. התחום עוסק במיוחד בסיכונים קיומיים הנשקפים ממודלי בינה מלאכותית מתקדמים.[1]

מעבר למחקר טכני, בטיחות בינה מלאכותית כוללת פיתוח נורמות ומדיניות המקדמות בטיחות. התחום צבר פופולריות משמעותית בשנת 2023, עם ההתקדמות המהירה בבינה מלאכותית יוצרת ודאגות ציבוריות שהביעו חוקרים ומנכ"לים לגבי סכנות פוטנציאליות. במהלך פסגת בטיחות הבינה המלאכותית ב-2023, הקימו ארצות הברית והממלכה המאוחדת מכוני בטיחות בינה מלאכותית משלהן. עם זאת, חוקרים הביעו דאגה מכך שאמצעי הזהירות הננקטים אינם מדביקים את קצב ההתפתחות המהיר של יכולות הבינה המלאכותית.[2]

מניעים

חוקרים דנים בסיכונים הנוכחיים הנובעים מכשלים במערכות קריטיות,[3] הטיה אלגוריתמית (אנ'),[4] ומעקב מבוסס בינה מלאכותית,[5] וכן בסיכונים מתעוררים כמו אבטלה טכנולוגית, מניפולציה דיגיטלית,[6] לוחמה רובוטית,[7] מתקפות סייבר[8] וטרור ביולוגי.[9] בין היתר נידונים גם סיכונים ספקולטיביים ובהם אובדן שליטה על סוכני בינה מלאכותית כללית (AGI) עתידיים,[10] או מ-AI המאפשר דיקטטורות יציבות תמידית.[11]

בטיחות קיומית

עמוד ראשי
ראו גם – סכנה קיומית מבינה מלאכותית כללית

יש המבקרים את החששות מבינה מלאכותית כללית, ביניהם אנדרו אנג, שהשווה אותם ב-2015 ל"דאגה מאכלוס יתר של מאדים כשעוד לא דרכנו על הכוכב".[12] סטיוארט ראסל, מנגד, קורא לזהירות, בטענה ש"עדיף לצפות את כושר ההמצאה האנושי מאשר להמעיט בערכו".[13]

היסטוריה

דיונים בנושא הסיכונים מבינה מלאכותית החלו להתקיים בצורה רצינית מתחילת עידן המידע:

יתרה מכך, אם ננוע בכיוון של יצירת מכונות הלומדות והתנהגותן משתנה על ידי ניסיון, עלינו להתמודד עם העובדה שכל דרגה של עצמאות שאנו נותנים למכונה היא דרגה של התרסה אפשרית כנגד רצונותינו.

בשנת 2014, פרסם הפילוסוף ניק בוסטרום (אנ') את הספר "אינטליגנציית-על: נתיבים, סכנות, אסטרטגיות". טענתו כי מערכות מתקדמות עתידיות עלולות להוות איום על קיום האנושות, הניעה את אילון מאסק,[15] ביל גייטס[16] וסטיבן הוקינג[17] להביע דאגות דומות.

ב-2023 אמר רישי סונאק כי הוא מעוניין שהממלכה המאוחדת תהיה "הבית הגאוגרפי של אסדרת בטיחות הבינה המלאכותית העולמית" ותארח את הפסגה העולמית הראשונה בנושא בטיחות בינה מלאכותית.[18] פסגת בטיחות הבינה המלאכותית התקיימה בנובמבר 2023, והתמקדה בסיכונים של שימוש לרעה ואובדן שליטה הקשורים למודלי בינה מלאכותית חזיתיים.[19]

ב-2024, חתמו ארצות הברית ובריטניה על שותפות חדשה בנושא מדע בטיחות הבינה מלאכותית. המזכר נחתם ב-1 באפריל 2024 על ידי שרת המסחר האמריקאית ג'ינה ריימונדו ושרת הטכנולוגיה הבריטית מישל דונלאן, במטרה לפתח במשותף בדיקות מתקדמות למודלי בינה מלאכותית.[20]

ב-2025, צוות בינלאומי של 96 מומחים בראשות יהושע בנג'יו פרסם את דוח הבטיחות הבינלאומי הראשון בבינה מלאכותית. הדוח,שהוזמן על ידי 30 מדינות והאו"ם, מציג את הסקירה המדעית העולמית הראשונה של סיכונים פוטנציאליים הקשורים לבינה מלאכותית מתקדמת.[21]

מוקדי מחקר

ניתן להוסיף רעש שעוצב בקפידה לתמונה כדי לגרום לה להיות מסווגת באופן שגוי בביטחון גבוה. (מימין) תמונה מסווגת נכון, (במרכז) הרעש שהוחל מוגדל פי 10, (משמאל) הדוגמה היריבונית

תחומי המחקר בבטיחות AI כוללים חוסן, ניטור ויישור.

חוסן

מערכות בינה מלאכותית פגיעות לדוגמאות יריבות(אנ') – קלטים שנבנו כדי להטעות את המודל.[22] כבר ב־2013 נמצא כי הוספת רעש עדין לתמונה עלולה לגרום לסיווג שגוי.[23] בעיה זו נמשכת גם כיום, אם כי לעיתים הרעש נראה לעין.[24][25][26]

החוסן קשור גם לביטחון: אותות שמע יכולים להיות מוסווים כך שמערכות זיהוי דיבור יפענחו הודעה שגויה,[27] וגם מערכות לזיהוי חדירות רשת[28] ותוכנות זדוניות עלולות להיות מוטעות.[29]

מודלים שמעריכים מטרות (כגון מודלי תגמול) חייבים להיות חסינים גם הם, אחרת מודלים אחרים ינצלו את חולשותיהם כדי להשיג ציון טוב יותר אך ביצועים גרועים בפועל.[30] חוסן יריב במודלי תגמול ובכלי ניטור נדרש כדי למנוע מניפולציות גם בהערכת ביצועי בינה מלאכותית.[31]

ניטור

הערכת אי-ודאות

במצבים קריטיים כמו אבחון רפואי חשוב לדעת עד כמה יש לסמוך על מערכת בינה מלאכותית.[32] מודלים נוטים להיות בטוחים מדי,[33] במיוחד מול מצבים שלא נכללו באימון.[34] תחום הכיול מבקש ליישר הסתברויות עם דיוק אמיתי. גילוי חריגות מזהה מצבים חריגים כמו חיישן רכב תקול,[35] ונעשה באמצעים פשוטים כמו מסווג חריג/לא חריג,[36] לצד טכניקות מתקדמות נוספות.[37]

זיהוי שימוש זדוני

חוקרים וגופי ממשל התריעו שמערכות בינה מלאכותית עלולות לסייע בייצור נשק,[38] במניפולציה על דעת הקהל,[39] או במתקפות סייבר.[40] לשם כך, חברות כמו OpenAI מפתחות מערכות ניטור ומניעה לשימוש לרעה.[41]

שקיפות

רשתות נוירונים מתוארות לעיתים כ"קופסה שחורה", שקשה להבין את החלטותיהן.[42] הדבר מקשה על צפיית כשלים, כפי שקרה בתאונת רכב אוטונומי קטלנית ב־2018. השקיפות מאפשרת גם להסביר החלטות משפטיות,[43] לחשוף כשלים (למשל במגפת הקורונה),[44] ואף לתקן טעויות במודלים כמו GPT.[45] מחקר פרשנות "פנימית" מבקש להבין אילו תבניות מיוצגות בתוך הנוירונים והמעגלים,[46] כולל נוירונים המזהים מושגים מופשטים כמו ספיידרמן.[47]

גילוי סוסים טרויאנים

מודלים עלולים להכיל "דלת אחורית" שמופעלת רק מול טריגר מסוים, למשל תכשיט במערכת זיהוי פנים.[48] הדבר מתאפשר במיוחד במודלים שפה גדולים המאומנים על נתוני אינטרנט ציבוריים.[49] מחקרים הראו שניתן להטמיע סוס טרויאני על ידי שינוי זעיר במערך האימון.[50] בשנת 2024 הראו חוקרי אנת'רופיק כי מודלים גדולים עשויים להכיל "סוכני שינה" דלתות אחוריות שנשמרות לאורך זמן ומופעלות בעתיד, גם לאחר אימון בטיחותי.[51]

יישור

יישור מתאר את התאמת מטרות המערכת לערכים, העדפות או עקרונות מוסריים של בני אדם. מערכת נחשבת מיושרת אם היא מקדמת את המטרות הרצויות, ולא מיושרת אם היא פועלת בניגוד אליהן.[52] קשה למעצבי בינה מלאכותית להגדיר במדויק אילו התנהגויות רצויות או מזיקות, ולכן נעשה שימוש במטרות חלופיות כמו חיפוש אישור אנושי. אך מטרות כאלה עלולות לעודד "התנהגות נראית מיושרת" בלבד, ולגרום לפריצת תגמול.[52][53] מערכות מתקדמות עלולות לפתח אסטרטגיות אינסטרומנטליות כמו חיפוש כוח או הישרדות,[54] ואף מטרות נסתרות חדשות שקשה עד בלתי אפשרי לזהותן מראש.[55][56] מחקרים מ־2024 הראו כי מודלי שפה גדולים כמו OpenAI o1 ו־Claude 3 עשויים להשתמש בהטעיה אסטרטגית להשגת מטרותיהם.[57][58]

בעיות אלו קיימות כבר כיום ביישומים מסחריים ביניהם: מודלי שפה גדולים,[59] רובוטיקה,[60] רכבים אוטונומיים,[61] ומערכות המלצה ברשתות חברתיות.[62] חוקרים רבים מזהירים כי מערכות עתידיות חזקות אף יותר יחריפו את הסיכונים, עד לרמה של סכנה קיומית מבינה מלאכותית כללית.[63] בין החוששים נמנים "אבות ה־AI" ג'פרי הינטון ויהושע בנג'יו, וכן מנכ"לי OpenAI, Anthropic ו־Google DeepMind. עם זאת, אחרים כמו יאן לקון מטילים ספק.[64]

בממשל

עמוד ראשי
ראו גם – רגולציה של בינה מלאכותית

בנובמבר 2023[65]]] מומחים מסוימים טענו כי מוקדם מדי להסדיר את תחום הבינה המלאכותית, והביעו דאגה כי רגולציות יפגעו בחדשנות.[66] אחרים, כמו איש העסקים אילון מאסק, קוראים לפעולה מונעת כדי להפחית סיכונים קטסטרופליים.[67]

במאי 2024, המחלקה למדע, חדשנות וטכנולוגיה של בריטניה (DSIT) הודיעה על מימון של כ-8.5 מיליון ליש"ט למחקר בבטיחות בינה מלאכותית. שרת הטכנולוגיה, מישל דונלאן, הודיעה על התוכנית בפסגת הבינה המלאכותית בסיאול, וציינה כי המטרה היא להפוך את הבינה המלאכותית לבטוחה בכל החברה. בריטניה חתמה גם על הסכם עם 10 מדינות אחרות והאיחוד האירופי שעיקרו הקמת רשת בינלאומית של מכוני בטיחות בינה מלאכותית.[68]

ראו גם

קישורים חיצוניים

הערות שוליים

  1. שזדה אחמד ואחרים, Field-building and the epistemic culture of AI safety, First Monday, ‏14 באפריל 2024
  2. בילי פריגו, U.K.'s AI Safety Summit Ends With Limited, but Meaningful, Progress, טיים, ‏2 בנובמבר 2023
  3. דה-ארטאגה, מריה (2020). "Machine Learning in High-Stakes Settings: Risks and Opportunities" (תזה לתואר דוקטור). אוניברסיטת קרנגי מלון.
  4. נינארה מהראבי ואחרים, A Survey on Bias and Fairness in Machine Learning, ACM Computing Surveys, ‏2021
  5. פלדשטיין, סטיבן (2019). "The Global Expansion of AI Surveillance". קרן קרנגי לשלום בינלאומי.
  6. בת' בארנס, Risks from AI persuasion, LessWrong, ‏2021
  7. מיילס בראנדג' ואחרים, The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation, מאגר אוניברסיטת קיימברידג', ‏30 באפריל 2018
  8. פסקל דייוויס, How NATO is preparing for a new era of AI cyber attacks, Euronews, ‏26 בדצמבר 2022
  9. אנג'אנה אהוג'ה, AI's bioterrorism potential should not be ruled out, פייננשל טיימס, ‏7 בפברואר 2024
  10. ג'וזף קרלסמית', Is Power-Seeking AI an Existential Risk?, arXiv, ‏16 ביוני 2022
  11. די מינארדי, The grim fate that could be 'worse than extinction', BBC, ‏16 באוקטובר 2020
  12. AGI Expert Peter Voss Says AI Alignment Problem is Bogus, NextBigFuture.com, ‏4 באפריל 2023
  13. אלן דפו, Yes, We Are Worried About the Existential Risk of Artificial Intelligence, MIT Technology Review, ‏2016
  14. ג'ון מרקוף, In 1949, He Imagined an Age of Robots, הניו יורק טיימס, ‏20 במאי 2013
  15. רוב ווייל, Elon Musk: Artificial Intelligence Is 'Potentially More Dangerous Than Nukes', Business Insider, ‏3 באוגוסט 2014
  16. קייזר קו, Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29, 2015, ‏31 במרץ 2015
  17. רורי סלן-ג'ונס, Stephen Hawking warns artificial intelligence could end mankind, BBC News, ‏2 בדצמבר 2014
  18. ראיין בראון, British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation, CNBC, ‏12 ביוני 2023
  19. לוקה ברטוצי, UK's AI safety summit set to highlight risk of losing human control over 'frontier' models, Euractiv, ‏18 באוקטובר 2023
  20. דייוויד שפרדסון, US, Britain announce partnership on AI safety, testing, רויטרס, ‏1 באפריל 2024
  21. What International AI Safety report says on jobs, climate, cyberwar and more, הגרדיאן, ‏29 בינואר 2025
  22. גודפלו, איאן; פפרנוט, ניקולא; הואנג, סנדי; דואן, רוקי; אביל, פיטר; קלארק, ג'ק (2017-02-24). "Attacking Machine Learning with Adversarial Examples". OpenAI. ארכיון מ-2022-11-24. נבדק ב-2022-11-24.
  23. סז'די, כריסטיאן; זרמבה, וויצ'ך; סוצקבר, איליה; ברונה, חואן; ארהאן, דומיטרו; גודפלו, איאן; פרגוס, רוב (2014-02-19). "Intriguing properties of neural networks". ICLR. arXiv:1312.6199.
  24. קורקין, אלכסי; גודפלו, איאן; בנג'יו, סמי (2017-02-10). "Adversarial examples in the physical world". ICLR. arXiv:1607.02533.
  25. מדרי, אלכסנדר; מאקלוב, אלכסנדר; שמידט, לודוויג; ציפרס, דימיטריס; ולדו, אדריאן (2019-09-04). "Towards Deep Learning Models Resistant to Adversarial Attacks". ICLR. arXiv:1706.06083.
  26. קאנן, הריני; קורקין, אלכסי; גודפלו, איאן (2018-03-16). "Adversarial Logit Pairing". arXiv:1803.06373. {{cite journal}}: Cite journal requires |journal= (עזרה)
  27. קארליני, ניקולס; ווגנר, דייוויד (2018-03-29). "Audio Adversarial Examples: Targeted Attacks on Speech-to-Text". IEEE Security and Privacy Workshops. arXiv:1801.01944.
  28. שיטסלי, ריאן; פפרנוט, ניקולא; וייסמן, מייקל; ורמה, גונג'אן; מקדניאל, פטריק (2022-09-09). "Adversarial Examples in Constrained Domains". arXiv:2011.01183. {{cite journal}}: Cite journal requires |journal= (עזרה)
  29. סוצ'יו, אוקטביאן; קול, סקוט א'; ג'ונס, ג'פרי (2019-04-13). "Exploring Adversarial Examples in Malware Detection". IEEE Security and Privacy Workshops. arXiv:1810.08280.
  30. גאו, לאו; שולמן, ג'ון; הילטון, ג'ייקוב (2022-10-19). "Scaling Laws for Reward Model Overoptimization". ICML. arXiv:2210.10760.
  31. הנדריקס, דן; מזייקה, מנטאס (2022-09-20). "X-Risk Analysis for AI Research". arXiv:2206.05862. {{cite journal}}: Cite journal requires |journal= (עזרה)
  32. טרן, קואה א.; קונדרשובה, אולגה; בראדלי, אנדרו; וויליאמס, אליזבת' ד.; פירסון, ג'ון ו.; וודל, ניקולה (2021). "למידה עמוקה באבחון סרטן". Genome Medicine. 13 (1): 152. doi:10.1186/s13073-021-00968-x.
  33. גואו, צ'ואן; פלייס, ג'ף; סון, יו; ויינברגר, קיליאן קיו. (2017-08-06). "כיול רשתות נוירונים מודרניות". כנס בינ"ל ללמידת מכונה.
  34. אובדיה, יניב; פרטיג, אמילי; רן, ג'יה (2019-12-17). "הערכת אי-ודאות תחת שינוי מערך נתונים". NeurIPS. arXiv:1906.02530.
  35. בוגדול, דניאל; ברייטנשטיין, יאסמין (2021). אתגרי זיהוי מצבים קיצוניים בנהיגה אוטונומית. doi:10.1109/ICCVW54120.2021.00119.
  36. הנדריקס, דן; מזייקה, מנטס; דיטריך, תומאס (2019-01-28). "גילוי חריגות בלמידה עמוקה". ICLR. arXiv:1812.04606.
  37. ואנג, האוקי; לי, ג'יז'ונג (2022-03-21). "ViM: גילוי נתונים מחוץ-להתפלגות". CVPR. arXiv:2203.10807.
  38. אורבינה, פאביו; לנטזוס, פיליפה (2022). "שימוש כפול ב-AI לגילוי תרופות". Nature Machine Intelligence. 4 (3): 189–191.
  39. מרכז לביטחון וטכנולוגיות מתקדמות; בוכנן, בן (2021). "שקרים ואוטומציה בעידן מודלי שפה". {{cite journal}}: Cite journal requires |journal= (עזרה)
  40. מרכז לביטחון וטכנולוגיות מתקדמות; בוכנן, בן (2020). "אוטומציית התקפות סייבר". {{cite journal}}: Cite journal requires |journal= (עזרה)
  41. מרקוב, טודור; ג'אנג, צ'ונג (2022-08-10). "כלי ניטור תוכן משופרים". OpenAI.
  42. סאבג', ניל (2022-03-29). "פריצה לקופסה השחורה של הבינה המלאכותית". Nature.
  43. דושי-ולז, פינאלה; קורץ, מייסון (2019-12-20). "אחריות משפטית בבינה מלאכותית: תפקיד ההסבר". arXiv:1711.01134. {{cite journal}}: Cite journal requires |journal= (עזרה)
  44. פונג, רות; ודאלדי, אנדראה (2017). הסברים פרשניים באמצעות שיבוש משמעותי. doi:10.1109/ICCV.2017.371.
  45. מונג, קווין (2022). "איתור ועריכת ידע ב-GPT". NeurIPS. arXiv:2202.05262.
  46. באו, דיוויד (2017-04-19). "ניתוח רשתות: מדידת פרשנות". CVPR.
  47. גוה, גבריאל (2021). "נוירונים מולטימודליים ברשתות נוירונים מלאכותיות". Distill.
  48. גו, טיאניו (2019-03-11). "BadNets: זיהוי פרצות בשרשרת האספקה של למידה עמוקה". arXiv:1708.06733. {{cite journal}}: Cite journal requires |journal= (עזרה)
  49. צ'ן, שינגיונן (2017-12-14). "התקפות דלת אחורית באמצעות הרעלת נתונים". arXiv:1712.05526. {{cite journal}}: Cite journal requires |journal= (עזרה)
  50. קרליני, ניקולס (2022-03-28). "הרעלת למידה מבוססת קונטרסט". ICLR. arXiv:2106.09667.
  51. "כיצד סוכני שינה ב-AI עלולים לחבל בקוד". 16 ינואר 2024.
  52. ^ 52.0 52.1 ראסל, סטיוארט ג'.; נורוויג, פיטר (2021). בינה מלאכותית: גישה מודרנית (מהדורה רביעית ed.). פירסון. pp. 5, 1003. ISBN 9780134610993.
  53. נגו, ריצ'רד; צ'אן, לורנס; מיינדרמן, סרן (2022). "בעיית היישור מנקודת מבט של למידה עמוקה". ICLR. arXiv:2209.00626.
  54. קארלסמית', ג'וזף. "האם AI המחפש כוח הוא סיכון קיומי?". arXiv:2206.13353 [cs.CY].
  55. כריסטיאן, בריאן (2020). בעיית היישור: למידת מכונה וערכים אנושיים. W. W. Norton & Company. ISBN 9780393868333.
  56. לנגוסקו די, לאורו; קוך, ג'ק; שארקי, לי ד.; פפאו, ג'ייקוב; קרוגר, דיוויד. הכללה שגויה של מטרות בלמידת חיזוק עמוקה. ICML.
  57. פילאי, תארין (15 בדצמבר 2024). טיים.
  58. פריגו, בילי (18 בדצמבר 2024). טיים.
  59. אוויאנג, לונג (2022). "אימון מודלים של שפה בעזרת משוב אנושי". arXiv:2203.02155 [cs.CL].
  60. קובר, ינס ואח' (1 בספטמבר 2013). IJRR.
  61. נוקס, בראדלי ואח' (1 במרץ 2023). AI Journal.
  62. בומסאני, רישי ואח'. "הזדמנויות וסיכונים של מודלים בסיסיים". Stanford CRFM.
  63. בנג'יו, יושע; הינטון, ג'פרי ואח' (2024). "ניהול סיכוני AI קיצוניים". Science.
  64. פריגו, בילי (13 בפברואר 2024). טיים.
  65. אדם סטאריאנו ומייגן ספשיה, Global Leaders Warn A.I. Could Cause 'Catastrophic' Harm, הניו יורק טיימס, ‏1 בנובמבר 2023
  66. בארט זיגלר, Is It Time to Regulate AI?, וול סטריט ג'ורנל, ‏8 באפריל 2022
  67. קית' בלטון, How Should AI Be Regulated?, IndustryWeek, ‏7 במרץ 2019
  68. מארק סיי, DSIT announces funding for research on AI safety, UKAuthority, ‏23 במאי 2024


הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

בטיחות בינה מלאכותית41817529Q116291231