צור קשר

בינה מלאכותית

LightAutoML: פתרון AutoML עבור מערכת אקולוגית גדולה של שירותים פיננסיים

mm
מְעוּדכָּן on

למרות ש-AutoML עלתה לפופולריות לפני כמה שנים, העבודה הפשוטה AutoML מתוארך לתחילת שנות ה-90 כאשר מדענים פרסמו את המאמרים הראשונים על אופטימיזציה של היפרפרמטרים. זה היה בשנת 2014 כאשר ICML ארגנה את סדנת AutoML הראשונה ש-AutoML זכתה לתשומת לבם של מפתחי ML. אחד המוקדים העיקריים לאורך השנים של AutoML הוא בעיית חיפוש ההיפרפרמטרים, כאשר המודל מיישם מערך של שיטות אופטימיזציה כדי לקבוע את ההיפרפרמטרים בעלי הביצועים הטובים ביותר במרחב היפרפרמטר גדול עבור מודל למידת מכונה מסויים. שיטה נוספת המיושמת בדרך כלל על ידי מודלים של AutoML היא להעריך את ההסתברות שהיפרפרמטר מסוים יהיה ההיפרפרמטר האופטימלי עבור מודל למידת מכונה נתון. המודל משיג זאת על ידי יישום שיטות בייסיאניות המשתמשות באופן מסורתי בנתונים היסטוריים ממודלים שהוערכו בעבר, וממערכי נתונים אחרים. בנוסף לאופטימיזציה של היפרפרמטרים, שיטות אחרות מנסות לבחור את המודלים הטובים ביותר מתוך מרחב של חלופות מידול. 

במאמר זה נסקור את LightAutoML, מערכת AutoML שפותחה בעיקר עבור חברה אירופית הפועלת במגזר הפיננסי יחד עם האקוסיסטם שלה. המסגרת של LightAutoML נפרסת על פני יישומים שונים, והתוצאות הוכיחו ביצועים מעולים, בהשוואה לרמה של מדעני נתונים, גם תוך כדי בניית מודלים של למידת מכונה באיכות גבוהה. מסגרת LightAutoML מנסה לתרום את התרומות הבאות. ראשית, מסגרת LightAutoML פותחה בעיקר עבור המערכת האקולוגית של מוסד פיננסי ובנקאי אירופאי גדול. הודות למסגרת והארכיטקטורה שלה, המסגרת של LightAutoML מסוגלת להתעלות על מסגרות AutoML מתקדמות בכמה מדדים פתוחים כמו גם יישומי מערכת אקולוגית. הביצועים של מסגרת LightAutoML מושווים גם מול דגמים המכוונים באופן ידני על ידי מדעני נתונים, והתוצאות הצביעו על ביצועים חזקים יותר על ידי מסגרת LightAutoML. 

מאמר זה נועד לכסות את המסגרת של LightAutoML לעומק, ואנו חוקרים את המנגנון, המתודולוגיה, הארכיטקטורה של המסגרת יחד עם ההשוואה שלה למסגרות מתקדמות. אז בואו נתחיל. 

LightAutoML: מסגרת AutoML לשירותים פיננסיים

למרות שחוקרים החלו לעבוד על AutoML לראשונה באמצע שנות ה-90 ובתחילת שנות ה-20, AutoML משך נתח גדול מתשומת הלב במהלך השנים האחרונות, כאשר כמה מהפתרונות התעשייתיים הבולטים המטמיעים מודלים של Machine Learning בבנייה אוטומטית הם AutoGluon של אמזון, DarwinAI, HXNUMX.ai , IBM Watson AI, Microsoft AzureML ועוד הרבה יותר. רוב המסגרות הללו מיישמות פתרון AutoML למטרות כלליות המפתח מודלים מבוססי ML באופן אוטומטי על פני סוגים שונים של יישומים בשירותים פיננסיים, שירותי בריאות, חינוך ועוד. ההנחה המרכזית מאחורי גישה גנרית אופקית זו היא שתהליך פיתוח מודלים אוטומטיים נשאר זהה בכל היישומים. עם זאת, מסגרת LightAutoML מיישמת גישה אנכית לפיתוח פתרון AutoML שאינו גנרי, אלא נותן מענה לצרכים של יישומים בודדים, במקרה זה מוסד פיננסי גדול. מסגרת LightAutoML היא פתרון AutoML אנכי המתמקד בדרישות של המערכת האקולוגית המורכבת יחד עם המאפיינים שלה. ראשית, מסגרת LightAutoML מספקת חיפוש היפרפרמטרים מהיר וכמעט אופטימלי. למרות שהמודל אינו מייעל את ההיפרפרמטרים הללו באופן ישיר, הוא מצליח לספק תוצאות משביעות רצון. יתר על כן, המודל שומר על האיזון בין מהירות ואופטימיזציה של היפרפרמטרים דינמיים, כדי להבטיח שהמודל אופטימלי בבעיות קטנות, ומהיר מספיק בבעיות גדולות יותר. שנית, מסגרת LightAutoML מגבילה את מגוון המודלים של למידת מכונה בכוונה לשני סוגים בלבד: מודלים ליניאריים, ו-GBMs או עצי החלטה עם חיזוק שיפוע, במקום ליישם אנסמבלים גדולים של אלגוריתמים שונים. הסיבה העיקרית מאחורי הגבלת טווח המודלים של למידת מכונה היא להאיץ את זמן הביצוע של מסגרת LightAutoML מבלי להשפיע לרעה על הביצועים עבור סוג הבעיה והנתונים הנתונים. שלישית, מסגרת LightAutoML מציגה שיטה ייחודית לבחירת סכימות עיבוד מקדים עבור תכונות שונות המשמשות במודלים על בסיס כללי בחירה וסטטיסטיקות מסוימות. מסגרת LightAutoML מוערכת על מגוון רחב של מקורות נתונים פתוחים במגוון רחב של יישומים. 

LightAutoML: מתודולוגיה וארכיטקטורה

מסגרת LightAutoML מורכבת ממודולים המכונים Presets המיועדים לפיתוח מודל מקצה לקצה עבור משימות למידת מכונה טיפוסיות. נכון לעכשיו, מסגרת LightAutoML תומכת במודולים מוגדרים מראש. ראשית, ההגדרה הקדומה של TabularAutoML מתמקדת בפתרון בעיות למידת מכונה קלאסיות המוגדרות על מערכי נתונים טבלאיים. שנית, ה-White-Box Preset מיישמת אלגוריתמים פשוטים הניתנים לפירוש כגון רגרסיה לוגיסטית במקום קידוד WoE או Weight of Evidence ותכונות דיסקרטיות כדי לפתור משימות סיווג בינארי על נתונים טבלאיים. יישום אלגוריתמים פשוטים הניתנים לפירוש הוא נוהג נפוץ למודל של ההסתברות של יישום בשל אילוצי הפרשנות שמציבים גורמים שונים. שלישית, ה-NLP Preset מסוגל לשלב נתונים טבלאיים עם NLP או עיבוד שפה טבעית כלים הכוללים מודלים של למידה עמוקה שהוכשרו מראש ומחלצי תכונות ספציפיות. לבסוף, ה-CV Preset עובד עם נתוני תמונה בעזרת כמה כלים בסיסיים. חשוב לציין שלמרות שדגם LightAutoML תומך בכל ארבעת הקביעות המוקדמות, המסגרת משתמשת רק ב- TabularAutoML במערכת ברמת הייצור. 

הצינור הטיפוסי של מסגרת LightAutoML כלול בתמונה הבאה. 

כל צינור מכיל שלושה מרכיבים. ראשית, Reader, אובייקט שמקבל סוג משימה ונתונים גולמיים כקלט, מבצע חישובי מטא נתונים חיוניים, מנקה את הנתונים הראשוניים ומבין את מניפולציות הנתונים שיש לבצע לפני התאמת מודלים שונים. לאחר מכן, מערכי הנתונים הפנימיים של LightAutoML מכילים איטרטורים של קורות חיים ומטא נתונים המיישמים סכימות אימות עבור מערכי הנתונים. הרכיב השלישי הם צינורות למידת מכונה מרובים המוערמים ו/או משולבים כדי לקבל תחזית יחידה. צינור למידת מכונה בתוך הארכיטקטורה של מסגרת LightAutoML הוא אחד מדגמי למידת מכונה מרובים החולקים סכמת אימות נתונים ועיבוד מקדים אחד. שלב העיבוד המקדים עשוי לכלול עד שני שלבי בחירת תכונה, שלב הנדסת תכונה או עשוי להיות ריק אם אין צורך בעיבוד מקדים. ניתן לחשב את צינורות ה-ML באופן עצמאי על אותם מערכי נתונים ולאחר מכן למזג יחד באמצעות מיצוע (או מיצוע משוקלל). לחלופין, ניתן להשתמש בסכמת אנסמבל הערימה לבניית ארכיטקטורות אנסמבל רב-רמות. 

LightAutoML טבלאי מוגדר מראש

במסגרת LightAutoML, TabularAutoML הוא צינור ברירת המחדל, והוא מיושם במודל כדי לפתור שלושה סוגים של משימות על נתונים טבלאיים: סיווג בינארי, רגרסיה וסיווג רב-מעמדי עבור מגוון רחב של מדדי ביצועים ופונקציות אובדן. טבלה עם ארבע העמודות הבאות: מאפיינים קטגוריים, מאפיינים מספריים, חותמות זמן ועמודת יעד בודדת עם תוויות מחלקות או ערך רציף מוזנת לרכיב TabularAutoML כקלט. אחת המטרות העיקריות מאחורי התכנון של מסגרת LightAutoML הייתה לתכנן כלי לבדיקת השערות מהירה, סיבה מרכזית לכך שהמסגרת נמנעת משימוש בשיטות כוח גס לאופטימיזציה של צינורות, ומתמקדת רק בטכניקות ובמודלים של יעילות הפועלים על פני מגוון רחב של מערכי נתונים. 

הקלדה אוטומטית ועיבוד נתונים מראש

כדי לטפל בסוגים שונים של תכונות בדרכים שונות, המודל צריך להכיר כל סוג פיצ'ר. במצב שבו יש משימה בודדת עם מערך נתונים קטן, המשתמש יכול לציין ידנית כל סוג תכונה. עם זאת, ציון כל סוג תכונה באופן ידני אינו עוד אפשרות מעשית במצבים הכוללים מאות משימות עם מערכי נתונים המכילים אלפי תכונות. עבור ההגדרה המוקדמת של TabularAutoML, מסגרת LightAutoML צריכה למפות תכונות לשלוש מחלקות: מספרי, קטגוריה ותאריך תאריך. פתרון פשוט וברור אחד הוא להשתמש בסוגי נתונים של מערך עמודות כסוגי תכונה בפועל, כלומר, למפות עמודות float/int לתכונות מספריות, חותמת זמן או מחרוזת, שניתן לנתח כחותמת זמן - לתאריך ושעה ואחרות לקטגוריה. עם זאת, מיפוי זה אינו הטוב ביותר בגלל המופע התכוף של סוגי נתונים מספריים בעמודות הקטגוריות. 

ערכות אימות

סכימות אימות הן מרכיב חיוני במסגרות AutoML מאחר שהנתונים בתעשייה נתונים לשינוי לאורך זמן, ואלמנט זה של שינוי הופך את ההנחות IID או Independent Identically Distributed ללא רלוונטיות בעת פיתוח המודל. מודלים של AutoML משתמשים בתכניות אימות כדי להעריך את הביצועים שלהם, חיפוש אחר פרמטרים ויצירת חיזוי מחוץ לקפל. הצינור של TabularAutoML מיישם שלוש תוכניות אימות:

  • אימות צולב של KFold: KFold Cross Validation היא ערכת האימות המוגדרת כברירת מחדל עבור צינור TabularAutoML, כולל GroupKFold עבור מודלים התנהגותיים, ו-KFold מרובד עבור משימות סיווג. 
  • אימות Holdout: ערכת האימות של Holdout מיושמת אם צוין ערכת ה-holdout. 
  • ערכות אימות מותאמות אישית: משתמשים יכולים ליצור סכימות אימות מותאמות אישית בהתאם לדרישות האישיות שלהם. סכימות אימות מותאמות אישית כוללות אימות צולב וסכימות פיצול של סדרות זמן. 

בחירת תכונה

למרות שבחירת תכונות היא היבט מכריע בפיתוח מודלים לפי תקני התעשייה מכיוון שהיא מקלה על הפחתת עלויות ההסקה והטמעת הדגמים, רוב פתרונות AutoML אינם מתמקדים הרבה בבעיה זו. להיפך, צנרת TabularAutoML מיישמת שלוש אסטרטגיות לבחירת תכונות: ללא בחירה, בחירה מנותקת חשיבות ובחירה קדימה מבוססת חשיבות. מתוך השלושה, אסטרטגיית בחירת התכונה של בחירת תכונה לחתוך חשיבות היא ברירת המחדל. יתר על כן, ישנן שתי דרכים עיקריות להעריך את חשיבות התכונה: חשיבות עץ מבוסס פיצול, וחשיבות התמורה של מודל GBM או שיפוע מוגבר עצי החלטה. המטרה העיקרית של בחירת חתך חשיבות היא לדחות תכונות שאינן מועילות למודל, מה שמאפשר למודל להפחית את מספר התכונות מבלי להשפיע לרעה על הביצועים, גישה שעשויה לזרז מסקנות והדרכה של המודל. 

התמונה לעיל משווה אסטרטגיות בחירה שונות על מערכי נתונים של בנקים בינאריים. 

כוונון היפר-פרמטר

צינור TabularAutoML מיישם גישות שונות לכוונון היפרפרמטרים על בסיס מה שמכוון. 

  • כוונון היפרפרמטרים לעצירה מוקדמת בוחר את מספר האיטרציות עבור כל הדגמים במהלך שלב ההדרכה. 
  • כוונון היפרפרמטרים של מערכת מומחה היא דרך פשוטה להגדיר היפרפרמטרים עבור דגמים בצורה משביעת רצון. זה מונע מהדגם הסופי ירידה גבוהה בניקוד בהשוואה לדגמים מכוונים קשה.
  • אומדן פרזן מובנה בעץ או TPE עבור GBM או מודלים של עץ החלטות עם חיזוק שיפוע. TPE היא אסטרטגיית כוונון מעורבת שהיא ברירת המחדל בצינור LightAutoML. עבור כל מסגרת GMB, מסגרת LightAutoML מכשירה שני דגמים: הראשון מקבל היפרפרמטרים של מומחים, השני מכוון עדין כך שיתאים לתקציב הזמן. 
  • כוונון היפרפרמטרים של חיפוש רשת מיושם בצינור TabularAutoML כדי לכוונן עדין את פרמטרי ההסדרה של מודל ליניארי לצד עצירה מוקדמת והתחלה חמה. 

המודל מכוון את כל הפרמטרים על ידי מיקסום הפונקציה המטרית, המוגדרת על ידי המשתמש או שהיא ברירת המחדל עבור המשימה שנפתרה. 

LightAutoML: ניסוי וביצועים

כדי להעריך את הביצועים, ה-TabularAutoML Preset במסגרת LightAutoML מושווה מול פתרונות קוד פתוח שכבר קיימים במשימות שונות, ומבססת את הביצועים המעולים של מסגרת LightAutoML. ראשית, ההשוואה מתבצעת על מדד OpenML המוערך על 35 מערכי משימות סיווג בינארי ורב-מעמדי. הטבלה הבאה מסכמת את ההשוואה בין מסגרת LightAutoML למערכות AutoML קיימות. 

כפי שניתן לראות, המסגרת של LightAutoML עולה על כל מערכות AutoML האחרות ב-20 מערכי נתונים בתוך המדד. הטבלה הבאה מכילה את ההשוואה המפורטת בהקשר של מערך הנתונים, המציינת שה-LightAutoML מספק ביצועים שונים במחלקות שונות של משימות. עבור משימות סיווג בינארי, ה-LightAutoML נופל בביצועים, בעוד שלמשימות עם כמות נתונים גבוהה, המסגרת של LightAutoML מספקת ביצועים מעולים.

הטבלה הבאה משווה את הביצועים של LightAutoML framework מול מערכות AutoML ב-15 מערכי נתונים של בנקים המכילים קבוצה של משימות סיווג בינארי שונות. כפי שניתן לראות, ה-LightAutoML מתעלה על כל פתרונות ה-AutoML ב-12 מתוך 15 מערכי נתונים, אחוז ניצחון של 80. 

מחשבות סופיות

במאמר זה דיברנו על LightAutoML, מערכת AutoML שפותחה בעיקר עבור חברה אירופאית הפועלת במגזר הפיננסי יחד עם האקוסיסטם שלה. המסגרת של LightAutoML נפרסת על פני יישומים שונים, והתוצאות הוכיחו ביצועים מעולים, בהשוואה לרמה של מדעני נתונים, גם תוך כדי בניית מודלים של למידת מכונה באיכות גבוהה. מסגרת LightAutoML מנסה לתרום את התרומות הבאות. ראשית, מסגרת LightAutoML פותחה בעיקר עבור המערכת האקולוגית של מוסד פיננסי ובנקאי אירופאי גדול. הודות למסגרת והארכיטקטורה שלה, המסגרת של LightAutoML מסוגלת להתעלות על מסגרות AutoML מתקדמות בכמה מדדים פתוחים כמו גם יישומי מערכת אקולוגית. הביצועים של מסגרת LightAutoML מושווים גם מול דגמים המכוונים באופן ידני על ידי מדעני נתונים, והתוצאות הצביעו על ביצועים חזקים יותר על ידי מסגרת LightAutoML. 

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.