מנוע חיפוש

מתוך המכלול, האנציקלופדיה היהודית
(הופנה מהדף מנוע-על)
קפיצה לניווט קפיצה לחיפוש
חיפוש מבוסס אינדקס

מנוע חיפוש הוא מערכת אחזור מידע שמטרתה לאתר מידע ברשת דיגיטלי מסוגים שונים (אתרי אינטרנט, קבצים או רשומות המייצגות פריטים פיזיים) המאוחסן במחשב או במערכת מידע. מנוע חיפוש מנגיש מידע למחפש, עוזר לצמצם את הזמן הנדרש כדי למצוא מידע, ועוזר להתגבר על הצפת המידע הקיימת כיום במדיה הדיגיטלית.

צורת החיפוש הנפוצה ביותר כיום היא חיפוש אתרים באמצעות מנועי חיפוש אינטרנטיים, אך היא שימושית גם במחשבים מקומיים, למשל: באיתור קובץ במחשב האישי (desktop search), או בשימוש במאגרי מידע מקומיים, כמו מאגרי פסקי דין או ספרי יהדות הנמצאים על גבי תקליטור. מנועי חיפוש קיימים גם בארגונים (Enterprise search), בין אם מדובר בחיפוש ספרים או תמונות בספרייה או ארכיון, אתרים פנים ארגוניים או רשומות במערכת המידע המייצגות פריטים פיזיים (כגון איתור פריט במחסן או מוצר בקטלוג ממוחשב לפי תיאור או מאפיינים אחרים שהוגדרו) או בלתי מוחשיים (כגון משימות ופרויקטים, מידע בנושאי תקציב ורכש וכן הלאה).

בעזרת מנוע חיפוש ניתן למצוא מגוון רחב של מידע: אתרי אינטרנט ותכנים המאוחסנים בהם, קבצים עם תוכן כתוב או קובצי מולטימדיה הקשורים לנושא מסוים, חיפוש אנשים ברשתות חברתיות, מידע גאוגרפי כגון כתובות, נקודות ציון וזמני נסיעה בתחבורה הציבורית. החיפוש יכול להיות מוכוון לפי התוכן עצמו, לפי מטא-דטא (מידע על המידע כגון-תאריכים, מחבר המידע, קטגוריה, שפה) או באמצעות מידע המייצג תוכן לא טקסטואלי (מילות מפתח או ייצוג דיגיטלי של מידע שאינו כתוב כגון תמונה או רצועת קול). לדוגמה, מנוע החיפוש של גוגל מסוגל לבצע חיפוש על תמונות הדומות לתמונה המוזנת למנוע והשירות שזאם מבצע חיפוש של שירים הדומים לרצועת קול המוזנת על ידי המשתמש.

עקרון הפעולה הבסיסי של מנוע חיפוש הוא שהלקוח מגדיר שאילתה שמתארת את המידע הנחוץ לו (הכוללת לרוב, מחרוזת חיפוש והגדרות נוספות, אך לא בהכרח) ושולח אותה למנוע האיחזור. המנוע מקבל את השאילתא ומפעיל יישום לביצוע הפעולה, תוך הפעלת אלגוריתמים שנועדו לסנן את התוצאות כך שיהיו רק בנושא שהלקוח מחפש. לסיום פעולתו מציג השרת את התשובה בפני המשתמש, בדרך כלל ברשימה.

נכון ל-2015, מנועי חיפוש לא מבצעים חיפושים מבוססי הקשר-במידה ומוזנת מחרוזת חיפוש לא מספיק מדויקת, רשימת התוצאות שתוחזר על ידי המנוע תכלול תוצאות בעלות משמעויות שונות או שיתקבלו תוצאות שמתאימות באופן מקרי. באופן דומה, מנוע החיפוש עשוי לא למצוא תוצאות שבהן מופיעה מילה נרדפת ולא זו שהוזנה במחרוזת. בעיות מסוג זה עשויות לקבל מענה עם כניסת טכנולוגיות של רשת סמנטית (המהווה רכיב משמעותי בתפיסת web 3.0).

היסטוריה

מנוע החיפוש הראשון נקרא "ארצ'י". הוא פותח בשנת 1990 על ידי אלן אמטאג, סטודנט באוניברסיטת מקגיל שבמונטריאול. מנוע החיפוש איפשר לחפש קבצים על שרתי FTP, שהיוו את פרוטוקול העברת הקבצים המרכזי באינטרנט באותה תקופה. בשנת 1991 פותח פרוטוקול "גופר" על ידי מארק מקהיל מאוניברסיטת מינסוטה. גופר סרק מסמכי טקסט שהיו מאוחסנים על שרתי FTP ויצר רשימות קונקורדנציה של המילים המופיעות בהן, החיפוש ברשימות אלה התבצע באמצעות התוכנות "ורוניקה" ו"ג'ארהד" (ששמותיהן היוו מחווה לשם ארצ'י - ורוניקה וג'ארהד הן דמויות בסדרת הקומיקס ארצ'י).

מנוע החיפוש הראשון שסרק את רשת המידע העולמית באמצעות זחלן (Crawler) היה Wandex. מנוע חיפוש זה, שאינו פועל כיום, פותח על ידי מתיו גריי מאוניברסיטת MIT בשנת 1993 ומטרתו הייתה למדוד את קצב הגידול של הרשת. באותה שנה פותח גם Aliweb, המנוע הוותיק ביותר שעדיין קיים. בשנת 1994 יצא לשוק WebCrawler, שהיה מנוע החיפוש הראשון ששילב חיפוש בטקסט שבגוף האתרים ולא רק בכותרות האתרים.

מנוע החיפוש המסחרי הגדול של התקופה היה לייקוס שפותח על ידי מייקל מלודין מאוניברסיטת קרנגי מלון. בעקבות הצלחתו של לייקוס פותחו מנועי חיפוש נוספים שהתחרו בשירותי הספריות שהיו נהוגים באותה תקופה לצורך חיפוש מידע.

ניתן להשוות מנועי חיפוש באינטרנט לפי איכות התוצאות שהם מספקים, מהירות התגובה, כמות התוצאות, אופן הצגת המידע ויכולות השלמה אוטומטית. מאז שנת 2001 שולט מנוע החיפוש Google בשוק מנועי החיפוש.

מרכיבי מנוע החיפוש

מנוע חיפוש שולחני AutoFocus, שמשוחרר תחת רישוי של קוד פתוח. אחת המגבלות הבולטות של התוכנה, היא היעדר תצוגה מקדימה של התוכן המבוקש.

מנוע חיפוש מודרני יורכב בדרך כלל משלשה חלקים:

  • ספיידר - רכיב שמאתר את הקבצים הנמצאים במחשב האישי או במרחב האינטרנט ומחלץ את תוכנם
  • מנוע אינדקס - רכיב שמפרק את תוכני המסמכים ויוצר מהם אינדקס לפי מילים
  • מנוע איחזור - רכיב שמקבל שאילתא מהמשתמש, מאתר את התוצאות, ומאחזר קטעי מידע למשתמש

מנועי החיפוש נבדלים ומשתנים זה מזה בכל אחד מן הרכיבים: באלגוריתם החיפוש של איתור הקבצים, בניית האינדקס, ואיחזור הנתונים.

בשלב איתור הקבצים ישנם מנועי חיפוש שמאגרי המידע שלהם נבנים באופן אוטומטי, באמצעות סריקה של האינטרנט על ידי רובוט, וישנם כאלו שהאינדקס שבו מקוטלג המידע אצלם נעשה בידי בני אדם. לעיתים ישנם מקרים שבהם האיתור הוא חצי אוטומטי, וישנה מעורבת אנושית בחלק מהמקרים כמו למשל במנוע החיפוש גוגל.

בשלב של האינדקס, משתרע תחום רחב של ביצוע מטלה זו, החל ממנועי חיפוש שאין להם מנוע אינדקס כלל, והם מבצעים חיפוש ישיר בקבצים, ועד למנועי חיפוש, שיוצרים אינדקס מפורט, עד לשמירת התכנים בשלמותם פעם נוספת אצלם.

בשלב של איחזור המידע, יש מנועי חיפוש שמאחזרים תצוגה מקדימה של שורה או מספר שורות לכל תוצאה שהם מוצאים, ויש כאלו שמאחזרים שמות של קבצים או אתרים, שבהם נמצא התוכן, ללא כל תצוגה מקדימה. בדרך כלל השלב הראשון של איתור הקבצים ויצירת האינדקס נעלמים מעיני המשתמש, שמקבל רק את החלק של איחזור המידע.

מנועי חיפוש אינטרנטיים

באינטרנט קיימים סוגים שונים של מנועי חיפוש. לצד מנועי החיפוש הכללים ישנם מנועי חיפוש בעלי התמחות מיוחדת. מנועי החיפוש האינטרנטיים שואפים להנגיש את החיפוש באמצעות ממשק ידידותי ביחד עם שליפת התוצאות המקוות ביותר מצד המחפש. בצד חיפוש טקסטואלי יש למנועי חיפוש אלו יכולת לחפש תמונות, וליאהו קיימת אף חיפוש קטעי וידאו וניגונם מתוך מסך החיפוש. מנוע חיפוש ייחודי נוסף, לדוגמה, הוא טכנורטי, המתמחה בחיפוש דרך בלוגים. כיום אפשרות גישה למנועי חיפוש באינטרנט משולבת בדפדפנים, ואין צורך לגלוש לאתר כדי להפעיל את החיפוש. לעיתים בדפדפנים משולבת אפשרות של חיפוש בהצבעה על מילה, ולחיצה על תפריט של עכבר ימני.

היסטוריית חיפוש

מנועי חיפוש מנסים לזהות את המשתמש שמבצע את החיפוש (למשל בעזרת עוגייה בדפדפן), ולהציע לו תוצאות יותר רלוונטיות, לפי חיפושים קודמים של אותו משתמש, או לפי מידע אחר שנצבר במנוע החיפוש אודות המשתמש. משתמשים שנרשמים במנוע החיפוש (למשל בעזרת "סרגל כלים" מיוחד לחיפוש), מזוהים גם בחיפושים שמבוצעים על פני דפדפנים שונים, והתאמת התוצאות יכולה להיות הדוקה יותר, משום שמנוע החיפוש יודע יותר על המשתמש. בגלל הפגיעה בפרטיות, מציעות חלק מהחברות דרכים להסרת ההיסטוריה.[1]

דף תוצאות החיפוש

בדף תוצאות החיפוש, מציג מנוע החיפוש למחפש את תמצית התוצאות שהניב החיפוש. על פי רוב מכיל דף זה כותרת שהיא קישור לדף האינטרנט או למסמך שנמצא וכן חלקי טקסט ובהם משפט או שניים שאמורים להסביר למחפש מדוע נבחר הדף או המסמך להכלל בין התשובות שקיבל (בדרך כלל מודגש).

במנועי חיפוש שונים ניתן למצוא לעיתים מידע נוסף על המסמך כגון גודל המסמך, כתובת המסמך וכן "מטמון" שהוא תמצית המסמך כפי שהיא נרשמה על ידי הבוט בפעם האחרונה שביקר בדף.

במנוע חיפוש המתקיים מפרסומת שהוא מציג, מוצגים בדרך כלל שלושה סוגים של תוצאות:

  • Pay-Per-Click advertising - פרסומות משולבות בראש התוצאות (כמו גוגל לדוגמה).
  • תוצאות החיפוש – שהן התוצאות ה-"טבעיות" שהחזיר המנוע בתגובה למילות החיפוש שהוזנו על ידי המחפש.
  • פרסומות בצד העמוד.

בעלי אתרים מייחסים חשיבות רבה למיקום האתר שלהם בתוצאות החיפוש שכן למיקום בדף החיפוש יש השפעה מכרעת על מספר הגולשים שיגיעו לאתר ממנוע החיפוש. מאחר שאפקטיביות של האתר (פרסום, ביצוע מכירה וכדומה) תלויה במספר המבקרים בו, נוצרת תחרות עזה בין האתרים השונים על המיקום בדף התוצאות. הפעילות של חברות העוסקות בקידום אתרים במנועי חיפוש באה לשפר את מיקומו של האתר בדף התוצאות.

מצד שני מנועי החיפוש פועלים כל הזמן לשפר את תוצאות החיפוש ומנסים לאתר ניסיונות התערבות לא "טבעית" בתוצאות. לעיתים קורה שמנועי החיפוש אף "מענישים" אתר שבו הם חושדים שמתקיימת פעילות קידום לא הוגנת בכך שהם מרחיקים את האתר מקדמת תוצאות החיפוש אף מעבר למקום שהיה זוכה לו בלי כל התערבות.

מחקרים רבים עוסקים בנושא ההטייה במנועי החיפוש, ביניהם מחקרים של החוקר הישראלי ד"ר אלעד שגב מאוניברסיטת תל אביב.

לעיתים ישנם אנשים או גופים המבקשים לעדכן את עותק הדף השמור בשרתי החברה או אף להסיר תוצאות מסיבות שונות ובהן חשיפת מידע פרטי או הזכות להישכח.

גמישות לשונית

אחת התכונות הבסיסיות שעל מנוע חיפוש לספק היא גמישות לשונית, אם כי מנועי חיפוש רבים עדיין אינם מצוידים בתכונה זו. גמישות לשונית היא יכולתו של מנגנון החיפוש להתגבר על בעיות הקשורות בשפה הטבעית, כגון כתיב מלא וכתיב חסר, יחיד ורבים, טעויות כתיב קלות, טעויות הקלדה וכדומה.

רוב מנועי החיפוש לא מאפשרים גמישות במילות החיפוש. משמעות הדבר היא שמנוע החיפוש מוצא רק דפים בהם מופיעות כל המילים הזהות למילות החיפוש. Google באנגלית - ובעברית, הוא בעל יכולת כזו במידה מסוימת. חיפוש wikipedya, למשל, גורם ל-Google לשאול "Did you mean: wikipedia". בעברית, לדוגמה, אם נקליד "מילחמה", גוגל ישאל אותנו אם התכוונו ל"מלחמה".

חשיבות מונחים

תכונה נוספת שעל מנוע חיפוש לספק היא הערכת חשיבות מונחים. כך למשל, בחיפוש המונח "שולחן מעץ מלא", על מנוע החיפוש לדעת שמסמך הכולל את המילה "מלא" הוא ככל הנראה פחות רלוונטי ממסמך הכולל את המונח "שולחן". שיטה נפוצה לחישוב "חשיבות" של מונח היא באמצעות הסטטיסטי tf-idf.

נאמנות למנוע חיפוש ספציפי

אחת השאלות המרכזיות ביחס למנועי החיפוש היא מה גורם לאדם לפתח נאמנות למנוע חיפוש ספציפי זה או אחר. מחקרים שנערכו לאחרונה מלמדים שגולשי אינטרנט מפתחים נאמנות למנוע חיפוש ספציפי, בעיקר בשל שירותים נוספים שהוא מספק ואשר מסונכרנים עם יכולת החיפוש.[2] לדוגמה, מנוע החיפוש גוגל מספק שורה ארוכה של שירותים מסונכרנים לחיפוש כמו: שירותי התראות, דואר אלקטרוני, העלאת קבצים לרשת, פתיחה וניהול של בלוגים ועוד. הרציונל שבני אדם מפתחים נאמנות למנוע חיפוש בשל השירותים הנוספים שהוא מספק, מסביר היטב מדוע גוגל רכשה את אתר האינטרנט יוטיוב. למעשה, באמצעות רכישה זאת, גוגל מצפה לחזק ולפתח את נאמנות גולשי האינטרנט למנוע החיפוש שלה, וזאת על ידי הענקת שירות חדש של סרטי וידאו המסונכרנים לחיפוש בגוגל.

מנוע-על

מנוע-על (meta-search engine) הוא מנגנון שלוקח שאילתה ממשתמש קצה, שולח אותה במקביל למספר מנועי חיפוש ומחזיר תוצאות מכל אחד ממנועי החיפוש. בהתחשב בכך שאין מנוע חיפוש שמסוגל לקטלג את כל האתרים ברשת האינטרנט, יתרונו של מנוע-העל הוא ביכולתו להחזיר תוצאות רבות יותר מאשר מנוע חיפוש יחיד. חסרונם של מנועי-העל הוא במספר הגדול של תוצאות לא-רלוונטיות שהם מחזירים לעומת מנוע חיפוש בודד - בעיה שאפשר להתמודד איתה דרך ניסוח של שאילתות ממוקדות ושימוש באלגוריתם שיסנן את התוצאות הלא-רלוונטיות או ידחק אותן לסוף רשימת התוצאות.

מנועי-על הם מנועים טפיליים - הם לא מכילים בסיס נתונים משל עצמם, אלא משתמשים בבסיסי נתונים של מנועים אחרים. הקושי בבניית אלגוריתם למנוע-על הוא בסידור תוצאות החיפוש של המנועים השונים לפי רלוונטיות, כאשר לכל מנוע יש שיטה שונה לדרוג האתרים. בנוסף לכך, מכיוון שלכל מנוע חיפוש יש שיטה שונה במקצת לניסוח שאילתות, האלגוריתם של מנוע-העל צריך 'לתרגם' את השאילתה של המשתמש כך שתתאים לכל אחד ממנועי החיפוש. כתוצאה מכך, מנוע-העל לא יכול לנצל את כל אפשרויות החיפוש של המנועים השונים (לדוגמה, כאשר במנוע חיפוש אחד יש אפשרות שלא קיימת בשאר המנועים).

מנועי חיפוש שולחניים

תפקידם של מנועי החיפוש השולחניים לגרום להאצה ומידיות בחיפוש של קבצים ותכנים במחשב האישי. בשוק קיימים מספר רב של תוכנות אלו, בין מנועי החיפוש העיקריים כיום: גוגל דסקטופ, יאהו דסקטופ סרץ, חלונות דסקטופ סרץ, קופרניק דסקטופ סרץ, ISYS דסקטופ סרץ, dtSearch ואוטופוקוס (שהוא היחיד ביניהם שמשוחרר ברישיון של קוד פתוח). כל מנועי חיפוש אלו, סורקים את הקבצים השונים הנמצאים בדיסק הקשיח (או בחלקו) ויוצרים להם אינדקס, שבו נרשמים וממויינים התכנים, כך שהם נעשים נגישים לחיפוש.

ההבדלים בין תוכנות החיפוש הם רבים, ונוגעים לצורת הממשק, קלות השימוש, הנגשה של המידע (באמצעות תצוגה מקדימה של המשפטים שבהם קיימת מחרוזת החיפוש), גמישות של החיפוש (חיפוש בוליאני מתקדם, חיפוש לפי שורשים), סוגי הקבצים שהן יודעות לקרוא ומתייחסות אליהם, שליטה על מנגנון האינדקסים וגמישות בתפעולו, מהירות יצירת האינדקסים, העמסה על משאבי המחשב, בטיחות המידע (יש ביניהן שמצפינות את האינדקס), תמחור של התוכנות (יש ביניהן בחינם), תמיכה בשפות זרות (כולל עברית) ועוד פרמטרים רבים.

כמו כן, קיימים מנועי חיפוש שולחניים שמחפשים ישירות בקבצים ללא יצירת אינדקס. תוכנות אלו בדרך כלל אינן יעילות בחיפוש במסות גדולות של חומר או בכל המחשב האישי, ועיקר שימושן הוא בחיפוש ממוקד בספרייה מסוימת, כאשר התוכן אינו רב מדי.

הגשת אתר למנוע חיפוש

מנועי החיפוש משתמשים בסריקה על מנת למצוא אתרים/דפים חדשים ולרשום אותם במנוע החיפוש. עם זאת, בעל אתר יכול לבקש ממנוע החיפוש לסרוק את האתר שלו ולהוסיפו באופן יזום במקום להמתין שמנוע החיפוש ימצא אותו לבד, ובכך לחסוך זמן. נכון ל 2022, כל מנועי החיפוש עושים תהליך זה ללא תשלום. חשוב לציין כי זה אינטרס של מנוע החיפוש להיות רחב ככל האפשר ולהכיל אינדקס של מספר מקסימלי של אתרים.

קיימות אפשרויות למנוע ממנוע החיפוש מביצוע תהליך רישום של אתר/דף, באמצעות הוספה של קוד HTML ייעודי לצורך זה בקוד המקור של האתר. זהו למעשה 'הסכם ג'נטלמני' בין האתר למנוע החיפוש שלא להציג את התוכן החסום בתוצאות מנוע החיפוש, שכן מנוע החיפוש אינו מנוע מביצוע הסריקה באופן טכני. על מנת למנוע ממנוע חיפוש לעשות סריקה, יש לנעול את התוכן מאחורי מערכת הרשאות כלשהי אשר מונעת גישה לתוכן עצמו.

נוכלויות בנושא הגשת אתרים למנועי חיפוש

אחת הנוכלויות הנפוצות בעניין מנועי חיפוש, הוא גופים המבקשים דמי רישום שנתיים עבור הרישום במנועי חיפוש. הרעיון בנוכלות זו הוא לנצל חוסר ידע של בעלי אתרים, הטועים לחשוב שרישום למנועי חיפוש כמוהו כמו רישום שם מתחם הדורש תשלום שנתי. הנוכלים שולחים מייל שמאיים על בעל האתר שאם לא ישלם את דמי הרישום השנתי, לא יופיע במנועי החיפוש ולקוחות לא יוכלו למצוא אותו.

ראו גם

לקריאה נוספת

  • ג'ון בטל, החיפוש – כיצד גוגל ומתחרותיה שינו את פני התרבות וכתבו מחדש את חוקי עולם העסקים, הוצאת "עברית" ו"כתר", 2006.
  • Allan Hanson, From classification to indexing: How automation transforms the way we think, in: Social Epistemology, Volume 18, Number 4, October-December 2004, pp. 333-356. (באנגלית) (אבסטרקט)

קישורים חיצוניים

הערות שוליים

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

35359294מנוע חיפוש