Միացեք մեզ

Արհեստական ​​բանականություն

LightAutoML. AutoML լուծում խոշոր ֆինանսական ծառայությունների էկոհամակարգի համար

mm
Թարմացվել է on

Թեև AutoML-ը մեծ ժողովրդականություն է ձեռք բերել մի քանի տարի առաջ, այնուհանդերձ, ամեն ինչ AutoML-ը սկիզբ է առել 90-ականների սկզբից երբ գիտնականները հրապարակեցին հիպերպարամետրային օպտիմալացման մասին առաջին հոդվածները: 2014 թվականին էր, երբ ICML-ը կազմակերպեց առաջին AutoML սեմինարը, որ AutoML-ը գրավեց ML մշակողների ուշադրությունը: AutoML-ի տարիների հիմնական կենտրոնացումներից մեկը հիպերպարամետրային որոնման խնդիրն է, որտեղ մոդելը կիրառում է օպտիմալացման մեթոդների մի շարք՝ որոշելու լավագույն կատարող հիպերպարամետրերը մեծ հիպերպարամետրային տարածքում՝ որոշակի մեքենայական ուսուցման մոդելի համար: Մեկ այլ մեթոդ, որը սովորաբար իրականացվում է AutoML մոդելների կողմից, դա որոշակի հիպերպարամետրի հավանականության գնահատումն է, որը կլինի օպտիմալ հիպերպարամետր տվյալ մեքենայական ուսուցման մոդելի համար: Մոդելը դրան հասնում է բայեսյան մեթոդների կիրառմամբ, որոնք ավանդաբար օգտագործում են նախկինում գնահատված մոդելների պատմական տվյալները և տվյալների այլ հավաքածուներ: Բացի հիպերպարամետրային օպտիմալացումից, այլ մեթոդներ փորձում են ընտրել լավագույն մոդելները մոդելավորման այլընտրանքների տարածությունից: 

Այս հոդվածում մենք կանդրադառնանք LightAutoML-ին՝ AutoML համակարգ, որը մշակվել է հիմնականում ֆինանսական ոլորտում գործող եվրոպական ընկերության համար՝ իր էկոհամակարգի հետ մեկտեղ: LightAutoML շրջանակը տարածված է տարբեր հավելվածներում, և արդյունքները ցույց են տվել բարձր արդյունավետություն՝ համեմատելի տվյալների գիտնականների մակարդակի հետ, նույնիսկ բարձրորակ մեքենայական ուսուցման մոդելներ կառուցելիս: LightAutoML շրջանակը փորձում է կատարել հետևյալ ներդրումները. Նախ, LightAutoML շրջանակը մշակվել է հիմնականում եվրոպական խոշոր ֆինանսական և բանկային հաստատության էկոհամակարգի համար: Շնորհիվ իր շրջանակի և ճարտարապետության՝ LightAutoML շրջանակն ի վիճակի է գերազանցել ժամանակակից AutoML շրջանակները մի քանի բաց հենանիշերի, ինչպես նաև էկոհամակարգի հավելվածների միջև: LightAutoML շրջանակի կատարումը համեմատվում է նաև տվյալների գիտնականների կողմից ձեռքով կարգավորվող մոդելների հետ, և արդյունքները ցույց են տվել LightAutoML շրջանակի ավելի ուժեղ կատարում: 

Այս հոդվածը նպատակ ունի մանրամասնորեն լուսաբանել LightAutoML շրջանակը, և մենք ուսումնասիրում ենք շրջանակի մեխանիզմը, մեթոդաբանությունը, ճարտարապետությունը, ինչպես նաև դրա համեմատությունը ժամանակակից շրջանակների հետ: Այսպիսով, եկեք սկսենք: 

LightAutoML. AutoML շրջանակ ֆինանսական ծառայությունների համար

Թեև հետազոտողները առաջին անգամ սկսեցին աշխատել AutoML-ի վրա 90-ականների կեսերին և սկզբին, AutoML-ը գրավեց ուշադրության մեծ մասը վերջին մի քանի տարիների ընթացքում, քանի որ որոշ հայտնի արդյունաբերական լուծումներ, որոնք կիրառում են ավտոմատ կերպով կառուցված Machine Learning մոդելներն են Amazon-ի AutoGluon, DarwinAI, H20.ai: , IBM Watson AI, Microsoft AzureML և շատ ավելին: Այս շրջանակների մեծամասնությունը իրականացնում է ընդհանուր նշանակության AutoML լուծում, որը ավտոմատ կերպով մշակում է ML-ի վրա հիմնված մոդելներ ֆինանսական ծառայությունների, առողջապահության, կրթության և այլնի ծրագրերի տարբեր դասերի մեջ: Այս հորիզոնական ընդհանուր մոտեցման հիմքում ընկած հիմնական ենթադրությունն այն է, որ ավտոմատ մոդելների մշակման գործընթացը մնում է նույնական բոլոր հավելվածներում: Այնուամենայնիվ, LightAutoML շրջանակն իրականացնում է ուղղահայաց մոտեցում AutoML լուծում մշակելու համար, որը ընդհանուր չէ, այլ ավելի շուտ բավարարում է առանձին հավելվածների, այս դեպքում՝ խոշոր ֆինանսական հաստատության կարիքները: LightAutoML շրջանակը ուղղահայաց AutoML լուծում է, որը կենտրոնանում է բարդ էկոհամակարգի պահանջների վրա՝ իր բնութագրերով հանդերձ: Նախ, LightAutoML շրջանակն ապահովում է արագ և մոտ օպտիմալ հիպերպարամետրային որոնում: Թեև մոդելն ուղղակիորեն չի օպտիմիզացնում այս հիպերպարամետրերը, այն կարողանում է ապահովել բավարար արդյունքներ: Ավելին, մոդելը պահպանում է արագության և հիպերպարամետրերի օպտիմալացման դինամիկ հավասարակշռությունը՝ ապահովելու համար, որ մոդելը օպտիմալ է փոքր խնդիրների դեպքում և բավական արագ՝ ավելի մեծ խնդիրների դեպքում: Երկրորդը, LightAutoML շրջանակը նպատակաուղղված սահմանափակում է մեքենայական ուսուցման մոդելների շրջանակը միայն երկու տեսակի՝ գծային մոդելներ և GBM կամ գրադիենտ ուժեղացված որոշումների ծառեր՝ տարբեր ալգորիթմների մեծ համույթներ իրականացնելու փոխարեն: Մեքենայական ուսուցման մոդելների շրջանակի սահմանափակման հիմնական պատճառը LightAutoML շրջանակի կատարման ժամանակի արագացումն է՝ առանց տվյալ տեսակի խնդրի և տվյալների աշխատանքի վրա բացասաբար ազդելու: Երրորդ, LightAutoML շրջանակը ներկայացնում է մոդելներում օգտագործվող տարբեր հատկանիշների նախնական մշակման սխեմաների ընտրության եզակի մեթոդ՝ որոշ ընտրության կանոնների և մետավիճակագրության հիման վրա: LightAutoML շրջանակը գնահատվում է բաց տվյալների աղբյուրների լայն շրջանակի վրա՝ հավելվածների լայն շրջանակում: 

LightAutoML: Մեթոդաբանություն և ճարտարապետություն

LightAutoML շրջանակը բաղկացած է մոդուլներից, որոնք հայտնի են որպես Presets, որոնք նախատեսված են մեքենայական ուսուցման տիպիկ առաջադրանքների ավարտից մինչև վերջ մոդելի մշակման համար: Ներկայումս LightAutoML շրջանակն աջակցում է Preset մոդուլներին: Նախ, TabularAutoML Preset-ը կենտրոնանում է դասական մեքենայական ուսուցման խնդիրների լուծման վրա, որոնք սահմանված են աղյուսակային տվյալների հավաքածուներում: Երկրորդ, White-Box Preset-ն իրականացնում է պարզ մեկնաբանելի ալգորիթմներ, ինչպիսիք են լոգիստիկ ռեգրեսիան՝ WoE-ի կամ Weight of Evidence-ի կոդավորման և դիսկրետացված հատկանիշների՝ աղյուսակային տվյալների վրա երկուական դասակարգման առաջադրանքները լուծելու համար: Պարզ մեկնաբանելի ալգորիթմների ներդրումը սովորական պրակտիկա է՝ կիրառման հավանականությունը մոդելավորելու համար՝ պայմանավորված տարբեր գործոններով պայմանավորված մեկնաբանելիության սահմանափակումներով: Երրորդ, NLP Preset-ը կարող է համատեղել աղյուսակային տվյալները NLP կամ Բնական լեզուների մշակումը գործիքներ, ներառյալ նախապես պատրաստված խորը ուսուցման մոդելներ և հատուկ առանձնահատկություններ հանող սարքեր: Վերջապես, CV Preset-ը աշխատում է պատկերի տվյալների հետ որոշ հիմնական գործիքների օգնությամբ: Կարևոր է նշել, որ չնայած LightAutoML մոդելն աջակցում է բոլոր չորս Նախադրյալներին, շրջանակն օգտագործում է միայն TabularAutoML-ը արտադրության մակարդակի համակարգում: 

LightAutoML շրջանակի բնորոշ խողովակաշարը ներառված է հետևյալ պատկերում: 

Յուրաքանչյուր խողովակաշար պարունակում է երեք բաղադրիչ. Նախ, Reader-ը, օբյեկտ, որը ստանում է առաջադրանքի տեսակը և չմշակված տվյալները որպես մուտքագրում, կատարում է կարևոր մետատվյալների հաշվարկներ, մաքրում է նախնական տվյալները և պարզում է տվյալների մանիպուլյացիաները, որոնք պետք է իրականացվեն նախքան տարբեր մոդելների տեղադրումը: Հաջորդը, LightAutoML-ի ներքին տվյալների հավաքածուները պարունակում են CV կրկնիչներ և մետատվյալներ, որոնք իրականացնում են տվյալների հավաքածուների վավերացման սխեմաներ: Երրորդ բաղադրիչը բազմակի մեքենայական ուսուցման խողովակաշարերն են, որոնք հավաքվել և/կամ խառնվել են մեկ կանխատեսում ստանալու համար: LightAutoML շրջանակի ճարտարապետության մեջ մեքենայական ուսուցման խողովակաշարը մեքենայական ուսուցման բազմաթիվ մոդելներից մեկն է, որը կիսում է տվյալների վավերացման և նախնական մշակման մեկ սխեմա: Նախամշակման քայլը կարող է ունենալ մինչև երկու հատկանիշի ընտրության փուլ, հատկանիշի ինժեներական քայլ կամ կարող է դատարկ լինել, եթե նախնական մշակման կարիք չկա: ML խողովակաշարերը կարող են ինքնուրույն հաշվարկվել նույն տվյալների շտեմարանների վրա, այնուհետև միաձուլվել՝ օգտագործելով միջինացում (կամ կշռված միջինացում): Որպես այլընտրանք, անսամբլների բազմաշերտ սխեման կարող է օգտագործվել բազմաստիճան անսամբլային ճարտարապետություն կառուցելու համար: 

LightAutoML Աղյուսակային Նախադրված

LightAutoML շրջանակում TabularAutoML-ը լռելյայն խողովակաշարն է, և այն ներդրվում է մոդելում՝ աղյուսակային տվյալների վրա երեք տեսակի առաջադրանք լուծելու համար. երկուական դասակարգում, ռեգրեսիա և բազմակարգ դասակարգում կատարողականի չափումների և կորստի ֆունկցիաների լայն զանգվածի համար։ Աղյուսակ հետևյալ չորս սյունակներով՝ դասակարգային հատկանիշներ, թվային առանձնահատկություններ, ժամանակի դրոշմակնիքներ և մեկ թիրախային սյունակ՝ դասի պիտակներով կամ շարունակական արժեքով, որպես մուտքագրվում է TabularAutoML բաղադրիչը: LightAutoML շրջանակի նախագծման հիմնական նպատակներից մեկը եղել է արագ հիպոթեզների փորձարկման գործիքի նախագծումը, որի հիմնական պատճառն այն է, որ շրջանակը խուսափում է խողովակաշարի օպտիմալացման համար կոպիտ ուժի մեթոդներից և կենտրոնանում է միայն արդյունավետության տեխնիկայի և մոդելների վրա, որոնք աշխատում են ամբողջ տարածքում: տվյալների հավաքածուների լայն տեսականի: 

Ավտոմատ մուտքագրում և տվյալների նախնական մշակում

Տարբեր տեսակի հատկանիշները տարբեր կերպ վարելու համար մոդելը պետք է իմանա յուրաքանչյուր հատկանիշի տեսակը: Այն իրավիճակում, երբ կա մեկ առաջադրանք փոքր տվյալների բազայով, օգտվողը կարող է ձեռքով նշել յուրաքանչյուր հատկանիշի տեսակը: Այնուամենայնիվ, յուրաքանչյուր հատկանիշի տեսակի ձեռքով նշելն այլևս կենսունակ տարբերակ չէ այն իրավիճակներում, որոնք ներառում են հարյուրավոր առաջադրանքներ՝ հազարավոր առանձնահատկություններ պարունակող տվյալների հավաքածուներով: TabularAutoML Preset-ի համար LightAutoML շրջանակը պետք է գծագրի առանձնահատկությունները երեք դասերի՝ թվային, կատեգորիայի և ամսաթվի: Պարզ և ակնհայտ լուծումներից մեկը սյունակային զանգվածի տվյալների տիպերն օգտագործելն է որպես փաստացի հատկանիշի տեսակներ, այսինքն՝ float/int սյունակները թվային հատկանիշների, ժամանակի դրոշմակնիքի կամ տողի քարտեզագրումը, որոնք կարող են վերլուծվել որպես ժամանակի դրոշմակնիք՝ ամսաթվով, իսկ մյուսները՝ կատեգորիայի: Այնուամենայնիվ, այս քարտեզագրումը լավագույնը չէ կատեգորիաների սյունակներում թվային տվյալների տեսակների հաճախակի հայտնվելու պատճառով: 

Վավերացման սխեմաներ

Վավերացման սխեմաները AutoML շրջանակների կենսական բաղադրիչն են, քանի որ արդյունաբերության տվյալները ենթակա են փոփոխման ժամանակի ընթացքում, և փոփոխության այս տարրը մոդելը մշակելիս անտեղի է դարձնում IID-ը կամ Անկախ նույնականորեն բաշխված ենթադրությունները: AutoML մոդելներն օգտագործում են վավերացման սխեմաներ՝ գնահատելու դրանց կատարումը, հիպերպարամետրեր որոնելու և կանխատեսումների առաջացման համար: TabularAutoML խողովակաշարն իրականացնում է վավերացման երեք սխեման.

  • KFold Խաչի վավերացումKFold Cross Validation-ը TabularAutoML խողովակաշարի լռելյայն վավերացման սխեման է, ներառյալ GroupKFold-ը վարքագծային մոդելների համար և շերտավորված KFold-ը՝ դասակարգման առաջադրանքների համար: 
  • Holdout վավերացում. Holdout-ի վավերացման սխեման իրականացվում է, եթե սահմանված է պահման հավաքածու: 
  • Պատվերով վավերացման սխեմաներ. Պատվերով վավերացման սխեմաներ կարող են ստեղծվել օգտվողների կողմից՝ կախված նրանց անհատական ​​պահանջներից: Պատվերով վավերացման սխեմաները ներառում են խաչաձև վավերացում և ժամանակային շարքի բաժանման սխեմաներ: 

Առանձնահատկությունների ընտրություն

Թեև առանձնահատկությունների ընտրությունը արդյունաբերության ստանդարտների համաձայն մոդելների մշակման կարևոր կողմն է, քանի որ այն հեշտացնում է եզրակացության և մոդելի ներդրման ծախսերի կրճատումը, AutoML լուծումների մեծամասնությունը շատ չի կենտրոնանում այս խնդրի վրա: Ընդհակառակը, TabularAutoML խողովակաշարն իրականացնում է առանձնահատկությունների ընտրության երեք ռազմավարություն՝ Առանց ընտրություն, Կարևորության կտրված ընտրություն և Կարևորության վրա հիմնված առաջ ընտրություն: Երեքից Կարևորության կտրված ընտրության առանձնահատկությունների ընտրության ռազմավարությունը լռելյայն է: Ավելին, հատկանիշի կարևորությունը գնահատելու երկու հիմնական եղանակ կա՝ պառակտման վրա հիմնված ծառի կարևորությունը և GBM մոդելի կամ գրադիենտի ուժեղացված փոխակերպման կարևորությունը: որոշել ծառերը. Կարևորության կտրվածքի ընտրության հիմնական նպատակը մոդելի համար ոչ օգտակար հատկությունների մերժումն է, ինչը թույլ է տալիս մոդելին նվազեցնել գործառույթների քանակը՝ առանց կատարողականի վրա բացասական ազդելու, մի մոտեցում, որը կարող է արագացնել մոդելի եզրակացությունը և ուսուցումը: 

Վերոնշյալ պատկերը համեմատում է ընտրության տարբեր ռազմավարություններ երկուական բանկերի տվյալների հավաքածուների վրա: 

Hyperparameter Tuning

TabularAutoML խողովակաշարն իրականացնում է հիպերպարամետրերը կարգավորելու տարբեր մոտեցումներ՝ լարվածի հիման վրա: 

  • Վաղ դադարեցման հիպերպարամետրի կարգավորում ընտրում է կրկնությունների քանակը բոլոր մոդելների համար վերապատրաստման փուլում: 
  • Փորձագիտական ​​համակարգի Հիպերպարամետրի թյունինգ մոդելների համար հիպերպարամետրերը բավարար ձևով սահմանելու պարզ միջոց է: Այն կանխում է վերջնական մոդելի գնահատականի բարձր նվազումը, համեմատած կոշտ կարգավորվող մոդելների հետ:
  • Tree Structured Parzen Estimation կամ TPE GBM կամ գրադիենտ ուժեղացված որոշումների ծառի մոդելների համար: TPE-ն խառը թյունինգ ռազմավարություն է, որը լռելյայն ընտրությունն է LightAutoML խողովակաշարում: Յուրաքանչյուր GMB շրջանակի համար LightAutoML շրջանակը վարժեցնում է երկու մոդել. առաջինը ստանում է փորձագիտական ​​հիպերպարամետրեր, երկրորդը ճշգրտվում է ժամանակային բյուջեին համապատասխանելու համար: 
  • Grid Search Hyperparameter Tuning իրականացվում է TabularAutoML խողովակաշարում՝ գծային մոդելի կանոնավորացման պարամետրերը ճշգրտելու համար՝ վաղ կանգառին և ջերմ մեկնարկին զուգահեռ: 

Մոդելը կարգավորում է բոլոր պարամետրերը՝ առավելագույնի հասցնելով մետրային ֆունկցիան, որը կա՛մ սահմանված է օգտագործողի կողմից, կա՛մ լռելյայն է լուծված առաջադրանքի համար: 

LightAutoML: Փորձ և կատարում

Արդյունավետությունը գնահատելու համար LightAutoML շրջանակում TabularAutoML Preset-ը համեմատվում է արդեն գոյություն ունեցող բաց կոդով լուծումների հետ տարբեր առաջադրանքների համար և ամրացնում LightAutoML շրջանակի բարձր արդյունավետությունը: Նախ, համեմատությունն իրականացվում է OpenML հենանիշի վրա, որը գնահատվում է 35 երկուական և բազմադասային դասակարգման առաջադրանքների տվյալների հավաքածուների վրա: Հետևյալ աղյուսակը ամփոփում է LightAutoML շրջանակի համեմատությունը գոյություն ունեցող AutoML համակարգերի հետ: 

Ինչպես երևում է, LightAutoML շրջանակը գերազանցում է բոլոր մյուս AutoML համակարգերին հենանիշի 20 տվյալների հավաքածուների վրա: Հետևյալ աղյուսակը պարունակում է մանրամասն համեմատություն տվյալների բազայի համատեքստում, որը ցույց է տալիս, որ LightAutoML-ն ապահովում է տարբեր կատարումներ տարբեր դասերի առաջադրանքների համար: Երկուական դասակարգման առաջադրանքների դեպքում LightAutoML-ը թերանում է կատարողականով, մինչդեռ տվյալների մեծ քանակով առաջադրանքների դեպքում LightAutoML շրջանակն ապահովում է գերազանց կատարողականություն:

Հետևյալ աղյուսակը համեմատում է LightAutoML շրջանակի կատարումը AutoML համակարգերի նկատմամբ 15 բանկային տվյալների հավաքածուների վրա, որոնք պարունակում են տարբեր երկուական դասակարգման առաջադրանքներ: Ինչպես երևում է, LightAutoML-ը գերազանցում է AutoML-ի բոլոր լուծումները 12 տվյալների հավաքածուներից 15-ի վրա՝ շահումների տոկոսը 80: 

Վերջնական Մտքեր

Այս հոդվածում մենք խոսեցինք LightAutoML-ի մասին՝ AutoML համակարգ, որը մշակվել է հիմնականում եվրոպական ընկերության համար, որն իր էկոհամակարգի հետ մեկտեղ գործում է ֆինանսական ոլորտում: LightAutoML շրջանակը տարածված է տարբեր հավելվածներում, և արդյունքները ցույց են տվել բարձր արդյունավետություն՝ համեմատելի տվյալների գիտնականների մակարդակի հետ, նույնիսկ բարձրորակ մեքենայական ուսուցման մոդելներ կառուցելիս: LightAutoML շրջանակը փորձում է կատարել հետևյալ ներդրումները. Նախ, LightAutoML շրջանակը մշակվել է հիմնականում եվրոպական խոշոր ֆինանսական և բանկային հաստատության էկոհամակարգի համար: Շնորհիվ իր շրջանակի և ճարտարապետության՝ LightAutoML շրջանակն ի վիճակի է գերազանցել ժամանակակից AutoML շրջանակները մի քանի բաց հենանիշերի, ինչպես նաև էկոհամակարգի հավելվածների միջև: LightAutoML շրջանակի կատարումը համեմատվում է նաև տվյալների գիտնականների կողմից ձեռքով կարգավորվող մոդելների հետ, և արդյունքները ցույց են տվել LightAutoML շրջանակի ավելի ուժեղ կատարում: 

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով: