SIMCA

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

Soft independent modelling by class analogy (SIMCA) היא שיטה סטטיסטית לסיווג למידה מונחית של נתונים. השיטה דורשת סט נתוני אימון המורכבת מדגימות (או אובייקטים) עם קבוצה של תכונות והשתייכות למחלקה. המונח "רכה" מתייחס לעובדה שהמסווג יכול לזהות דגימות כשייכות למספר מחלקות ואינו בהכרח מייצר סיווג של דגימות למחלקות שאינן חופפות.

שיטה

על מנת לבנות את מודלי הסיווג, יש לנתח את הדגימות השייכות לכל מחלקה באמצעות ניתוח רכיבים עיקריים (PCA); רק הרכיבים המשמעותיים נשמרים.

עבור מחלקה נתונה, המודל שנוצר מתאר קו (עבור רכיב עיקרי אחד או PC), מישור (עבור שני PCs) או היפר-מישור (עבור יותר משני PCs). עבור כל מחלקה ממודלת, המרחק האורתוגונלי הממוצע של דגימות נתוני האימון מהקו, המישור או ההיפר-מישור (מחושב כסטיית תקן שיורית) משמש לקביעת מרחק קריטי לסיווג. מרחק קריטי זה מבוסס על התפלגות F ובדרך כלל מחושב באמצעות רווחי ביטחון של 95% או 99%.

תצפיות חדשות מוקרנות לכל מודל PC ומחושבים המרחקים השיוריים. תצפית מוקצית למחלקת המודל כאשר המרחק השיורי שלה מהמודל נמוך מהגבול הסטטיסטי של המחלקה. התצפית עשויה להימצא כשייכת למספר מחלקות, ומידת טיב המודל ניתנת למציאה ממספר המקרים שבהם התצפיות מסווגות למספר מחלקות. יעילות הסיווג מוצגת בדרך כלל על ידי מאפייני פעולה של מקלט.

בשיטת ה-SIMCA המקורית, קצוות ההיפר-מישור של כל מחלקה נסגרים על ידי הגדרת גבולות בקרה סטטיסטיים לאורך צירי הרכיבים העיקריים שנשמרו (כלומר, ערך ניקוד בין פלוס למינוס 0.5 פעמים סטיית התקן של הניקוד).

התאמות עדכניות יותר של שיטת SIMCA סוגרות את ההיפר-מישור על ידי בניית אליפסואידים (למשל, חלוקת T-בריבוע של הוטלינג או מרחק מהלנוביס). בשיטות SIMCA משופרות כאלה, סיווג של אובייקט דורש שגם המרחק האורתוגונלי שלו מהמודל וגם ההקרנה שלו בתוך המודל (כלומר, ערך הניקוד בתוך האזור המוגדר על ידי האליפסואיד) לא יהיו משמעותיים.

יישום

SIMCA כשיטת סיווג זכתה לשימוש נרחב בתחומים סטטיסטיים יישומיים, במיוחד בכימומטריה וניתוח נתוני ספקטרוסקופיה. היא מאפשרת זיהוי מדויק של דגימות במחקרים כימיים, כגון ניתוח תרכובות אורגניות או חומרים תעשייתיים, תוך התמודדות עם נתונים מורכבים ורועשים. השיטה נפוצה גם בתעשיית התרופות לבקרת איכות ולזיהוי זיהומים. בנוסף, SIMCA משמשת בתחומי הביוטכנולוגיה והמזון, כגון ניתוח תרכובות במזון או זיהוי חיידקים, הודות ליכולתה לסווג דגימות למספר מחלקות בו זמנית תוך שמירה על גמישות ודיוק גבוהים.

הפניות

וולד, סוונטה, וסיוסטרום, מייקל, 1977, SIMCA: שיטה לניתוח נתונים כימיים במונחים של דמיון ואנלוגיה, ב-Kowalski, B.R., עורך, תיאוריה ויישום כימומטריה, סדרת סימפוזיון של האגודה האמריקאית לכימיה 52, וושינגטון די.סי., האגודה האמריקאית לכימיה, עמ' 243–282.

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

SIMCA40768005Q7553984