עיבוד נתונים מקדים

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

עיבוד נתונים מקדיםאנגלית: Data pre-processing) הוא מניפולציה או השלכה של נתונים לפני השימוש בהם על מנת לשפר ביצועים,[1] והוא שלב חשוב של הכנת נתונים בתהליך כריית מידע. הביטוי "זבל פנימה, זבל החוצה" מתאים במיוחד לפרויקטים של כריית נתונים ולמידת מכונה. שיטות איסוף נתונים נשלטות לעיתים קרובות באופן רופף, וכתוצאה מכך ערכים מחוץ לטווח (למשל, הכנסה: 100-), שילובי נתונים בלתי אפשריים (למשל, מין: זכר, בהריון: כן), וערכים חסרים וכו'. ניתוח נתונים שלא נבדקו בקפידה לאיתור בעיות כאלה עלול להניב תוצאות מטעות. לפיכך, הייצוג והאיכות של הנתונים הם קודם כל לפני הפעלת כל ניתוח.[2] לעיתים קרובות, עיבוד מקדים של נתונים הוא השלב החשוב ביותר בפרויקטי למידת מכונה, ובפרט בביולוגיה חישובית.[3]

אם יש הרבה מידע לא רלוונטי ומיותר או נתונים רועשים ולא מהימנים, אז גילוי ידע בשלב ההכשרה קשה יותר. שלבי הכנת וסינון נתונים עשויים לקחת זמן רב של עיבוד. דוגמאות לעיבוד מוקדם של נתונים כוללות ניקוי, בחירת מופעים, נורמליזציה, קידוד חם אחד, טרנספורמציה, חילוץ ובחירה של תכונות וכו'. התוצר של עיבוד מקדים של נתונים הוא סט נתוני האימון הסופי.

עיבוד מוקדם של נתונים עשוי להשפיע על האופן שבו ניתן לפרש את התוצאות של עיבוד הנתונים הסופי.[4] יש לשקול היטב היבט זה כאשר פרשנות התוצאות היא נקודת מפתח, כגון בעיבוד רב משתנים של נתונים כימיים (כימטריקה).

משימות של עיבוד מקדים של נתונים

דוגמה

בדוגמה זו יש לנו 5 מבוגרים במערך הנתונים שלנו שיש להם מין זכר או נקבה והאם הם בהריון או לא. אנו יכולים לזהות שמבוגרים 3 ו-5 הם שילובי נתונים בלתי אפשריים.

מִין בהריון
מבוגר
1 זכר לא
2 נקבה כן
3 זכר כן
4 נקבה לא
5 זכר כן

אנחנו יכולים לבצע ניקוי נתונים ולבחור למחוק נתונים כאלה מהטבלה שלנו. אנו מסירים נתונים כאלה מכיוון שאנו יכולים לקבוע שנתונים כאלה הקיימים במערך הנתונים נגרמים משגיאות הזנת משתמש או פגיעה בנתונים. סיבה שאולי צריך למחוק נתונים כאלה היא מכיוון שהנתונים הבלתי אפשריים ישפיעו על תהליך החישוב או מניפולציה של הנתונים בשלבים המאוחרים יותר של תהליך כריית הנתונים.

מִין בהריון
מבוגר
1 זכר לא
2 נקבה כן
4 נקבה לא

אנחנו יכולים לבצע עריכת נתונים ולשנות את מין המבוגר על ידי ידיעה שהמבוגרת בהריון, נוכל להניח שהמבוגרת היא נקבה ולבצע שינויים בהתאם. אנו עורכים את מערך הנתונים כדי לקבל ניתוח ברור יותר של הנתונים בעת ביצוע מניפולציה של נתונים בשלבים המאוחרים יותר בתהליך כריית הנתונים.

מִין בהריון
מבוגר
1 זכר לא
2 נקבה כן
3 נקבה כן
4 נקבה לא
5 נקבה כן

אנו יכולים להשתמש בצורה של הפחתת נתונים ולמיין את הנתונים לפי מין ועל ידי כך נוכל לפשט את מערך הנתונים שלנו ולבחור באיזה מין אנו רוצים להתמקד יותר.

מִין בהריון
מבוגר
2 נקבה כן
4 נקבה לא
1 זכר לא
3 זכר כן
5 זכר כן

כריית מידע

עיבוד מוקדם של נתונים שימש בתחילה בכריית נתונים. הרעיון היה לצבור מידע קיים ולחפש בתוכו. מאוחר יותר הוכר שגם עבור למידת מכונה ורשתות עצביות יש צורך בשלב עיבוד מוקדם של נתונים. זה הפך לטכניקה אוניברסלית המשמשת במחשוב באופן כללי.

עיבוד מקדים של נתונים מאפשר הסרה של נתונים לא רצויים עם שימוש בניקוי נתונים, זה מאפשר למשתמש לקבל מערך נתונים שיכיל מידע בעל ערך רב יותר לאחר שלב העיבוד המקדים לצורך מניפולציה של נתונים בהמשך תהליך כריית הנתונים. עריכת מערך נתונים כזה לתיקון שחיתות נתונים או טעות אנוש היא צעד חיוני כדי לקבל מכמתים מדויקים כמו חיובים אמיתיים, שליליים אמיתיים, חיוביות כוזבות ושליליות כוזבות שנמצאו במטריצת בלבול המשמשים בדרך כלל לאבחון רפואי. משתמשים יכולים לחבר קובצי נתונים יחד ולהשתמש בעיבוד מקדים כדי לסנן כל רעש מיותר מהנתונים שיכול לאפשר דיוק גבוה יותר. יש המשתמשים בסקריפטים לתכנות של Python בליווי ספריית הפנדות המעניקה להם את היכולת לייבא נתונים מערכים מופרדים בפסיק כמסגרת נתונים. מסגרת הנתונים משמשת לאחר מכן לתמרן נתונים שיכולים להיות מאתגרים אחרת לעשות באקסל. Pandas שהיא כלי המאפשר ניתוח ומניפולציה של נתונים; מה שמקל על הדמיות נתונים, פעולות סטטיסטיות ועוד הרבה יותר. יש המשתמשים גם ב-R כדי לבצע משימות כאלה.

עיבוד סמנטי מוקדם של נתונים

כריית נתונים סמנטית היא תת-קבוצה של כריית נתונים המבקשת באופן ספציפי לשלב ידע בתחום, כגון סמנטיקה פורמלית, בתהליך כריית הנתונים. ידע בתחום הוא הידע של הסביבה בה הנתונים עובדו. לידע בתחום יכול להיות השפעה חיובית על היבטים רבים של כריית נתונים, כגון סינון נתונים מיותרים או לא עקביים במהלך שלב העיבוד המקדים.[5] ידע בתחום פועל גם כאילוצים. זאת על ידי שימוש בעבודה כמערכת של ידע מוקדם כדי לצמצם את המקום הנדרש לחיפוש ולפעול כמדריך לנתונים. במילים פשוטות, עיבוד מקדים סמנטי מבקש לסנן נתונים באמצעות הסביבה המקורית של הנתונים האמורים בצורה נכונה ויעילה יותר.

ישנן בעיות מורכבות יותר ויותר אשר מבקשות להיפתר באמצעות טכניקות משוכללות יותר לניתוח טוב יותר של מידע קיים. במקום ליצור סקריפט פשוט לצבירה של ערכים מספריים שונים לערך בודד, הגיוני להתמקד בעיבוד מוקדם של נתונים מבוסס סמנטי. הרעיון הוא לבנות אונטולוגיה ייעודית, שמסבירה ברמה גבוהה יותר על מה הבעיה. בכל הנוגע לכריית נתונים סמנטיים ועיבוד מקדים סמנטי, אונטולוגיות הן דרך להמשגה ולהגדיר רשמית ידע ונתונים סמנטיים. ה-Protégé (תוכנה) הוא כלי סטנדרטי לבניית אונטולוגיה.[6] באופן כללי, השימוש באונטולוגיות מגשר על הפערים בין נתונים, יישומים, אלגוריתמים ותוצאות המתרחשות מחוסר התאמה סמנטית. כתוצאה מכך, לכריית נתונים סמנטיים בשילוב עם אונטולוגיה יש יישומים רבים שבהם אי בהירות סמנטית יכולה להשפיע על התועלת והיעילות של מערכות נתונים. היישומים כוללים את התחום הרפואי, עיבוד שפה, בנקאות,[7][8] ורבים נוספים.

הערות שוליים

  1. ^ "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau (באנגלית אמריקאית). נבדק ב-2021-10-17.
  2. ^ Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  3. ^ "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 35. בדצמבר 2017. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465. {{cite journal}}: (עזרה)
  4. ^ Oliveri, Paolo; Malegori, Cristina; Simonetti, Remo; Casale, Monica (2019). "The impact of signal preprocessing on the final interpretation of analytical outcomes – A tutorial". Analytica Chimica Acta (באנגלית). 1058: 9–17. doi:10.1016/j.aca.2018.10.055. PMID 30851858.
  5. ^ Dou, Deijing and Wang, Hao and Liu, Haishan. "Semantic Data Mining: A Survey of Ontology-based Approaches" (PDF) (באנגלית אמריקאית). University of Oregon.{{cite web}}: תחזוקה - ציטוט: multiple names: authors list (link)
  6. ^ F. Mary Harin Fernandez and R. Ponnusamy (2016). "Data Preprocessing and Cleansing in Web Log on Ontology for Enhanced Decision Making". Indian Journal of Science and Technology. Indian Society for Education and Environment. 9. doi:10.17485/ijst/2016/v9i10/88899free{{cite journal}}: תחזוקה - ציטוט: postscript (link)
  7. ^ Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele. "Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model". IEEE.{{cite web}}: תחזוקה - ציטוט: multiple names: authors list (link)
  8. ^ Chang, Maiga and D'Aniello, Giuseppe and Gaeta, Matteo and Orciuoli, Franceso and Sampson, Demetrois and Simonelli, Carmine. "Building Ontology-Driven Tutoring Models for Intelligent Tutoring Systems Using Data Mining". IEEE.{{cite web}}: תחזוקה - ציטוט: multiple names: authors list (link)
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

עיבוד נתונים מקדים32947617Q5227332