בדיקת A/B
בדיקת A/B (מבחן A/B או Split Testing) היא שיטה לבדיקת הקיים אל מול השינוי וקביעת הגרסה בעלת התוצאות החיוביות יותר. בדיקה זו נפוצה בתחומי השיווק, סחר אלקטרוני, פיתוח אתרים ותחומים נוספים ומאפשרת לבחון את תגובות המשתמשים לשינויים. בדיקת A/B מוכרת גם בשם Split Testing ו-bucket tests אך מונחים אלה מכילים גם מבחנים מעט יותר מורכבים.
הבדיקה מתבצעת על ידי השוואת 2 גרסאות, A - בדרך כלל הגרסה הנוכחית (control) מול B - גרסה עם שינוי יחיד (treatment). שתי קבוצות משתמשים דומות מקבלות בו זמנית את המערכת הנבדקת, כל קבוצה גרסה אחרת. מודדים את מטרת הבדיקה ומחליטים איזו גרסה גרפה תוצאות טובות יותר.
החלת שינוי לא מבטיחה שיפור ולכן יש סיכוי להפסד. ביצוע בדיקת A/B מספק מידע אמין על שינויים לפני שמחילים אותם בפועל ותוצאות הבדיקה הן מקור מידע בעל ערך רב למקבלי ההחלטות. שימוש בבדיקה זו יוביל להפחתת סיכונים והוזלת עלויות.
רקע
התאוריה של ניסוי מבוקר פותחה על ידי סר רונלד א. פישר דרך ניסויים שערך באנגליה בשנות העשרים. אמנם ניסויים לא מקוונים מפותחים היטב בעולם הסטטיסטיקה שנים רבות, ניסויים מבוקרים ברשת החלו בסוף שנות התשעים עם צמיחת האינטרנט כאשר דרכים חדשות לדגום אוכלוסיות הפכו לזמינות.
מהנדסי גוגל ביצעו את מבחן ה-A/B הראשון שלהם בשנת 2000 בניסיון לקבוע מה יהיה המספר האופטימלי של תוצאות מוצגות במנוע החיפוש שלה. הבדיקה הראשונה לא הצליחה עקב תקלות שנבעו מזמן טעינה איטי. אמנם מאוחר יותר מחקרים של בדיקות A/B הפכו מתקדמים יותר אך הבסיס והעקרונות הבסיסיים נשארו זהים. בשנת 2011, 11 שנים לאחר הבדיקה הראשונה שלה, גוגל ביצעה מעל 7,000 בדיקות A/B שונות.
בשנת 2012, עובד מיקרוסופט שעבד על מנוע החיפוש בינג יצר ניסוי לבחינת דרכים שונות להצגת כותרות פרסום. תוך שעות בודדות הפורמט האלטרנטיבי הניב עלייה בהכנסות של 12% ללא השפעה על מדדי חוויית המשתמש.
באוקטובר 2017, פלטפורמת פייסבוק השיקה לראשונה מערכת המאפשרת ביצוע מבחני A/B או Split Testing, אשר קיימת לכל מטרה פרסומית פרט לשלוש קטגוריות: Brand Awareness, Messages, Store Visits.
כיום, חברות כמו מיקרוסופט וגוגל עורכות כל אחת מעל 10,000 בדיקות A/B מדי שנה ואתרים גדולים רבים נוספים כולל אמזון, בינג, פייסבוק, לינקדאין ו-יאהו!, מבצעים אלפי עד עשרות אלפי ניסויים מבוקרים (מבחני A/B) בכל שנה לבדיקת שינויי ממשק משתמש (UI), שיפורים באלגוריתמים (חיפוש, מודעות, התאמה אישית, המלצות וכו'), שינויים באפליקציות, מערכת ניהול תוכן וכו'.
ניסויים מבוקרים ברשת נחשבים בימנו לכלי חיוני והשימוש בהם הולך וגדל עבור סטארטאפים ואתרים קטנים יותר, וחברות רבות משתמשות בגישת ה"ניסוי המעוצב" לקבלת החלטות שיווק, מתוך ציפייה שתוצאות מדגם רלוונטיות יכולות לשפר את יחס ההמרה. זהו נוהג נפוץ יותר ויותר ככל שהכלים והמומחיות צומחים בתחום זה.
התהליך
נרצה למצוא את האלטרנטיבה שמשיגה את התוצאות החיוביות ביותר ומייעלת לפחות אחת ממטרות המערכת.
תכנון- הגדירו היטב מה אתם בוחנים- מהי מטרת הבדיקה, מה השינוי מגרסה A לגרסה B, באילו מדדים תשתמשו ומה נחשב תוצאה טובה.
ביצוע- ניתן לפתח בדיקת A/B עצמאית או להשתמש בכלים חיצוניים. כיום ישנם מספר כלים מתקדמים שניתן לבצע את הבדיקה דרכם.
כלים מוכרים לבדיקת A/B באתרי אינטרנט: חברת Wingify (אנ') שפיתחה Visual Website Optimizer, חברת גוגל עם הכלי Google Website Optimizer (אנ') וחברת Optimizely (אנ').
תוצאות- תוצאות הבדיקה מוצגות כמידע כמותי המאפשר השוואה ברורה (רצוי להגיע למובהקות סטטיסטית). לפעמים אין הבדל משמעותי בין הגרסאות וחשוב לא למהר להסיק מסקנות. כמו כן צריך לחשוב על ההשפעה של הגרסה המנצחת של הפריט הנבדק על מטרות ופריטים אחרים.
שימושים
בדיקות A/B משווקות בחלקן כשינוי בפילוסופיה ואסטרטגיה עסקית בנישות מסוימות, אם כי הגישה זהה לעיצוב בין נושאים המשמש לעיתים במגוון תחומי מחקר. בדיקת A/B כפילוסופיה של פיתוח רשת מביאה את התחום לכיוון רחב יותר המתבסס על ראיות וניתוח נתונים. היתרונות של מבחני A/B באים לידי ביטוי בכך שניתן לבצע את המבחן באופן רציף כמעט על כל דבר, במיוחד מכיוון שלרוב תוכנות האוטומציה השיווקית כיום יכולת לבצע בדיקות A/B באופן שוטף.
בתחום הרפואה למשל, מתבצעת הבדיקה כדי לבדוק אפקטיביות של תרופה חדשה לפני שיוצאת לשוק- מנסים על קבוצת נסיינים את התרופה האמיתית ועל קבוצה אחרת תרופת פלצבו (תרופת דמה) וכך בודקים את השפעתה או חוסר השפעתה.
בעולם השיווק הדיגיטלי, בדיקת A/B הן למעשה ניסוי סטטיסטי המשווה בין שתי גרסאות במטרה לזהות ולהטמיע את השינוי שיביא לשיפור התוצאה הרצויה, למשל: אחוזי הקלקה, הרשמה, רכישה וכו’. ניתן ורצוי להשתמש בכלי הזה כדי לעשות אופטימיזציה להרבה מאוד דברים: עיצוב ותוכן של מיילים וניוזלטרים, דפי נחיתה, תיאורי מוצרים בחנות וירטואלית, מודעות בגוגל וברשתות החבריות ועוד. המטרה העיקרית בביצוע בדיקת A/B היא לחסוך כסף למשווק. בדיקה טובה ומקיפה מאפשרת להביא שיפור משמעותי בהמרות של קמפיין נתון, אפילו עד פי 10 מהמצב הקודם שלו וכך להוזיל את עלות הפרסום.
מה אפשר לבדוק?
אם אפשר לשנות אותו אפשר לבדוק אותו - כמעט כל דבר שמשפיע על התנהגות המשתמשים אפשר לבדוק בעזרת בדיקת A/B.
לדוגמה: אלמנטים באתר אינטרנט שאפשר לבדוק-
- פריסת העמוד ומיקום אלמנטים
- כותרות ותת כותרות
- צבעים, גדלים וסגנון
- טקסט וכפתורים – "Call to Action"
- קישורים, תוכן ותמונות
דוגמאות לבדיקות A/B
מודעת פרסום ברשת חברתית:
מטרת הבדיקה- למקסם מספר הקלקות על המודעה והגעת המשתמש לאתר החברה ביחס לכמות החשיפות למודעה (CTR).
ניתן לבדוק מספר שינויים במודעה למשל המסר, התמונה המצורפת, גודל פונט, מיקום המודעה באתר ועוד.
נשווה מספר הקלקות על כל גרסה של מודעה כאשר 2 המודעות נחשפו מספר שווה ולקבוצה דומה של משתמשים.
עמוד בית של אתר חדשות:
מטרת הבדיקה- שיפור במספר רכישות מנוי לאתר.
השינוי בגרסאות יכול להיות מבחינת עיצוב טופס ההרשמה, הגישה לעמוד ההרשמה (האם הטופס נמצא בדף הראשי או יש צורך לעבור לעמוד אחר על ידי לחיצה על כפתור), כמות הנתונים שהמשתמש צריך להזין ועוד.
נחלק את תעבורת המשתמשים לשתי הגרסאות ונמדוד איזה גרסה מביאה לתוצאות טובות יותר במספר הנרשמים.
בין החברות שמתמחות בבדיקת A/B ניתן למנות חברה ישראלית ABBI שנרכשה לאחרונה על ידי WalkMe[1]
חברה עם מאגר לקוחות של 2,000 איש מחליטה ליצור קמפיין במייל עם קוד הנחה על מנת לייצר מכירות דרך אתר האינטרנט שלה. לשם כך, נוצרו שתי גרסאות של הדוא"ל עם קריאה לפעולה שונה (החלק של העותק שמעודד לקוחות לבצע פעולה - במקרה של קמפיין מכירות, לבצע רכישה) וזיהוי קוד קידום מכירות.
דוגמה לבדיקת A/B דרך דוא"ל
לאלף אנשים נשלח הדוא"ל עם הקריאה לפעולה ובה נאמר "ההצעה מסתיימת ביום שבת הקרוב! השתמש בקוד "A1" ולעוד אלף איש נשלח הדוא"ל עם הקריאה לפעולה ובה נאמר "ההצעה תסתיים בקרוב! השתמש בקוד "B1".
כל שאר האלמנטים בהעתקה ובפריסה של הדוא"ל זהים. לאחר מכן החברה מנטרת לאיזה קמפיין יש את אחוזי ההצלחה הגבוהים יותר על ידי ניתוח השימוש בקודי הפרסום. לאימייל המשתמש בקוד A1 שיעור התגובה של 5% (50 מתוך 1000 האנשים שקיבלו את הדוא"ל השתמשו בקוד כדי לקנות מוצר), והדוא"ל שמשתמש בקוד B1 מכיל שיעור תגובה של 3% (30 מהנמענים השתמשו בקוד כדי לקנות מוצר). לפיכך החברה קובעת שבמקרה זה, הקריאה לפעולה הראשונה יעילה יותר ותשתמש בה במכירות עתידיות. בדיקה מקיפה יותר תכלול יישום של בדיקות סטטיסטיות כדי לקבוע אם ההבדלים בשיעורי התגובה בין A1 ל- B1 היו משמעותיים סטטיסטית (כלומר, סביר מאוד שההבדלים הם אמיתיים, ניתנים לחזרה ולא נובעים מקריות אקראית.
בדוגמה לעיל, מטרת הבדיקה היא לקבוע איזו היא הדרך היעילה יותר לעודד לקוחות לבצע רכישה. אם בכל זאת, מטרת הבדיקה הייתה לראות איזה דוא"ל יפיק את שיעור הקליקים הגבוה יותר - כלומר, מספר האנשים שלמעשה לוחצים לאתר לאחר קבלת הדוא"ל - ייתכן שהתוצאות היו שונות. לדוגמה, אף על פי שיותר מהלקוחות שקיבלו את הקוד B1 נכנסו לאתר, מכיוון שהקריאה לפעולה (Call To Action) לא הצהיר את תאריך הסיום של המבצע, רבים מהם עשויים לחוש דחיפות לבצע רכישה מיידית. כתוצאה מכך, אם מטרת הבדיקה הייתה פשוט לראות איזה דוא"ל יביא תנועה רבה יותר לאתר האינטרנט, ייתכן שהדוא"ל המכיל את הקוד B1 היה מצליח יותר. לבדיקת A/B צריכה להיות תוצאה מוגדרת הניתנת למדידה כמו מספר המכירות שבוצעו, המרת שיעור קליקים או מספר האנשים שנרשמים / נרשמים.
גרסאות נוספות
בדיקת פריט אחד עם שלוש אופציות וחלוקת קבוצת הנשאלים לשלוש כנראה עדיין תיחשב בדיקת A/B, למשל בדיקת גרסאות שונות לכותרת בדף אינטרנט כך שבכל גרסה הכותרת בצבע שונה. עדיף לבצע מבחן אחד במקביל לשלושת הצבעים מאשר שלושה מבחנים שונים (A/B, A/C, C/B).
בדיקה הכוללת שינויים ביותר מפריט אחד באותו מבחן לא תיחשב בדיקת A/B. למשל שינויים בכותרת וגם בכפתור ביצוע בדף אינטרנט, בדיקה זו נקראת multi-variate test (אנ') והיא יותר מורכבת.
ראו גם
קישורים חיצוניים
- לארה סוואנסון, מבחני A/B – מדריך למשתמש, חוויית משתמש ישראל
- Paras Chopra, The Ultimate Guide To A/B Testing
- udacity, A/B Testing Online Course
- כמה הערות על AB testing - ד"ר יוסי לוי - נסיכת המדעים
- R Kohavi, R Longbotham, Online Controlled Experiments and A/B Testing
הערות שוליים
בדיקת A/B32024862Q1810071