יצירה מבוססת-שליפה

יצירה מבוססת־שליפה (באנגלית: Retrieval‑Augmented Generation, בקיצור: RAG) היא ארכיטקטורה בתחום הבינה מלאכותית ועיבוד שפה טבעית (NLP), המשלבת בין מנגנון שליפת מידע ממאגר נתונים חיצוני לבין מודל שפה גדול (LLM) המבצע יצירת טקסט. השילוב מאפשר למודל להפיק תשובות המבוססות על מידע עדכני, אמין או ספציפי לארגון, אשר אינו מקודד מראש במשקלי המודל עצמו.^[1]

הגישה הוצגה לראשונה בשנת 2020 על ידי חוקרים מ־מטא AI (לואיס ואחרים) כפתרון לאחת המגבלות המרכזיות של מודלי שפה – התיישנות הידע מרגע סיום האימון. מאז הפכה RAG לאחת הפרדיגמות הבולטות ביותר להרחבת יכולותיהם של מודלי בינה מלאכותית בזמן ריצה.

הגדרת המונח ושימושיו

בספרות המקצועית ובתעשייה, המונח RAG משמש לתיאור שלוש רמות מושגיות שונות:

ארכיטקטורה טכנית – מערכת דו־שלבית הכוללת שליפה של מסמכים רלוונטיים ממאגר נתונים (לרוב מאגר וקטורי), והזנתם כהקשר למודל שפה המייצר תשובה. יעדי השיטה הם מתן גישה למידע חיצוני בזמן ריצה והפחתת תופעת ההזיות (hallucinations).
פרדיגמת תכנון – גישה הנדסית שבה ידע מוזן למודל באופן דינמי בעת הבקשה (prompt), בניגוד להטמעתו במודל מראש. במובן זה, RAG מהווה אלטרנטיבה או השלמה לכוונון עדין (fine‑tuning).
משפחת שיטות – שם כולל לאוסף של מתודולוגיות המבוססות על עיקרון זה, כגון RAG בסיסי (Naive), מתקדם (Advanced) ועוד.

רכיבי הליבה הטכניים

מערכת RAG טיפוסית מורכבת משלושה שלבים עיקריים:

ייצוג ואחסון ידע – מסמכי המקור מפוצלים ליחידות טקסט קטנות (chunks). כל יחידה מומרת לווקטור באמצעות מודל embedding. הווקטורים נשמרים במסד נתונים וקטורי המאפשר חיפוש מהיר במרחב רב־ממדי.
מנגנון השליפה – כאשר מתקבלת שאלת משתמש, היא מומרת לווקטור באותו האופן. המערכת מחפשת את הווקטורים הקרובים ביותר באמצעות מדדי קרבה סמנטית כגון דמיון קוסינוס (cosine similarity). לעיתים נעשה שימוש בחיפוש היברידי, המשלים התאמה סמנטית עם חיפוש מילות מפתח (BM25).
יצירה מבוססת‑הקשר – המסמכים שנשלפו מצורפים לשאלת המשתמש ומוזנים כקונטקסט למודל השפה. האתגר המרכזי הוא שמירה על נאמנות להקשר (context faithfulness), כלומר שהמודל יסתמך על המידע שנשלף ולא על ידע פנימי שגוי.

ארכיטקטורות וגרסאות מתקדמות

עם התפתחות התחום נוצרו מספר גישות ליישום המערכת:

Naive RAG (בסיסית) – שליפה חד־שלבית ויצירת תשובה ישירה. רגישה לניסוח חסר של שאלות ולאיכות התוצאות.
Advanced RAG (מתקדמת) – מוסיפה שכתוב שאלה (query rewriting), דירוג מחדש של תוצאות (reranking), וסינון לפני ההזנה למודל.
Modular RAG – תכנון מודולרי גמיש שבו רכיבי השליפה, הדירוג והיצירה ניתנים להחלפה או התאמה לתחום מסוים.
Agentic RAG – יישום הכולל סוכנים חכמים (AI agents) המאפשרים למודל עצמו להחליט מתי לשלוף מידע וכיצד להעריך את התוצאות במסגרת לולאת הנמקה (reasoning loop).

יתרונות, מגבלות ואתגרים

בהשוואה לכוונון עדין – המצריך משאבי חישוב וידע קבוע – RAG מאפשר עדכון ידע מיידי, הפחתת עלויות, וציון מדויק של מקורות (attribution). בהשוואה לגישה של חלון הקשר ארוך (long context), המכניסה מסמכים רבים ישירות למודל, RAG סלקטיבית וחסכונית יותר, ומסייעת למנוע את תופעת "אובדן המידע באמצע ההקשר" (lost in the middle).

אתגרים מרכזיים:

פער הרלוונטיות – קרבה סמנטית אינה מבטיחה בהכרח שהתוכן שנשלף עונה ישירות לשאלה.
התעלמות מהקשר – המודל עלול להסתמך על ידע מוקדם ולטעות למרות הקונטקסט שסופק.
איכות הנתונים – המערכת תלויה באיכות חומרי המקור ובאסטרטגיית הפיצול שלהם (chunking strategy).^[2]

הערכת ביצועים

הערכת מערכות RAG נעשית על פני שלושה ממדים עיקריים:

איכות השליפה – רלוונטיות המסמכים שנשלפו (precision ו‑recall).
נאמנות להקשר – מידת ההסתמכות על מקור המידע שסופק בלבד.
רלוונטיות התשובה – התאמת הפלט לשאלה המקורית.

מסגרות בדיקה כגון RAGAS (Retrieval‑Augmented Generation Assessment) משלבות את שלושת הממדים לצורך הערכת איכות כוללת.

יישומים

RAG משמשת כיום תשתית עיקרית ליישומי בינה מלאכותית ארגוניים ומסחריים. היא נפוצה במערכות תמיכה, במחקר משפטי, בפיננסים, ברפואה, ובעוזרים חכמים מבוססי שפה המשמשים בחברות כמו Perplexity AI או במנועי חיפוש מודרניים.^[2]

ראו גם

לקריאה נוספת

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., et al. (2020). Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks. NeurIPS 2020.
Gao, Y., et al. (2023). Retrieval‑Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997.
Es, S., et al. (2023). RAGAS: Automated Evaluation of Retrieval‑Augmented Generation. arXiv:2309.15217.

קישורים חיצוניים

מדיה וקבצים בנושא יצירה מבוססת-שליפה בוויקישיתוף

הערות שוליים

↑ What is retrieval-augmented generation (RAG)?, IBM Research, ‏2021-02-09 (באנגלית אמריקאית)
^ ^2.0 ^2.1 Ars Contributors, Can a technology called RAG keep AI models from making stuff up?, Ars Technica, ‏2024-06-06 (באנגלית)

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

יצירה מבוססת-שליפה43059662Q121362277

[1] What is retrieval-augmented generation (RAG)?, IBM Research, ‏2021-02-09 (באנגלית אמריקאית)

[הערה_אחת-2] 2.0 ^2.1 Ars Contributors, Can a technology called RAG keep AI models from making stuff up?, Ars Technica, ‏2024-06-06 (באנגלית)

[1]

[2]