Artificial Intelligence
LightAutoML: AutoML lausn fyrir stórt vistkerfi fjármálaþjónustu
Þrátt fyrir að AutoML hafi náð vinsældum fyrir nokkrum árum, þá er það auðvelt að vinna áfram AutoML er frá upphafi tíunda áratugarins þegar vísindamenn gáfu út fyrstu greinarnar um fínstillingu ofraparametera. Það var árið 2014 þegar ICML skipulagði fyrsta AutoML verkstæðið sem AutoML vakti athygli ML þróunaraðila. Ein helsta áherslan í gegnum árin með AutoML er leitarvandamálið með ofurfæribreytum, þar sem líkanið útfærir fjölda hagræðingaraðferða til að ákvarða þær ofurfæribreytur sem skila bestum árangri í stóru ofstikurými fyrir tiltekið vélnámslíkan. Önnur aðferð sem almennt er útfærð af AutoML módelum er að áætla líkurnar á því að tiltekinn hyperparameter sé ákjósanlegur hyperparameter fyrir tiltekið vélnámslíkan. Líkanið nær þessu með því að innleiða Bayesískar aðferðir sem venjulega nota söguleg gögn úr áður áætluðum líkönum og öðrum gagnasöfnum. Til viðbótar við fínstillingu ofþátta, reyna aðrar aðferðir að velja bestu módelin úr rými módelvalkosta.
Í þessari grein munum við fjalla um LightAutoML, AutoML kerfi þróað fyrst og fremst fyrir evrópsk fyrirtæki sem starfar í fjármálageiranum ásamt vistkerfi þess. LightAutoML ramminn er notaður í ýmsum forritum og niðurstöðurnar sýndu yfirburða frammistöðu, sambærileg við stig gagnafræðinga, jafnvel á meðan verið er að byggja hágæða vélanámslíkön. LightAutoML ramminn reynir að koma með eftirfarandi framlög. Í fyrsta lagi var LightAutoML ramminn þróaður fyrst og fremst fyrir vistkerfi stórrar evrópskrar fjármála- og bankastofnunar. Vegna ramma sinnar og arkitektúrs er LightAutoML ramminn fær um að standa sig betur en nýjustu AutoML ramma yfir nokkur opin viðmið sem og vistkerfisforrit. Frammistaða LightAutoML ramma er einnig borin saman við gerðir sem eru stilltar handvirkt af gagnafræðingum og niðurstöðurnar gáfu til kynna sterkari frammistöðu LightAutoML ramma.
Þessi grein miðar að því að fjalla ítarlega um LightAutoML rammann og við kannum vélbúnaðinn, aðferðafræðina, arkitektúr rammans ásamt samanburði við nýjustu ramma. Svo skulum við byrja.
LightAutoML: AutoML ramma fyrir fjármálaþjónustu
Þrátt fyrir að vísindamenn hafi fyrst byrjað að vinna að AutoML um miðjan og snemma á tíunda áratugnum, vakti AutoML stóran hluta athygli síðustu árin, þar sem nokkrar af áberandi iðnaðarlausnum sem innleiða sjálfvirkt smíðuð vélnámslíkön eru Amazon AutoGluon, DarwinAI, H90.ai , IBM Watson AI, Microsoft AzureML og margt fleira. Meirihluti þessara ramma útfærir almenna AutoML lausn sem þróar ML-undirstaða líkön sjálfkrafa yfir mismunandi flokka forrita í fjármálaþjónustu, heilsugæslu, menntun og fleira. Lykilforsendan á bak við þessa láréttu almennu nálgun er að ferlið við að þróa sjálfvirkar gerðir haldist eins í öllum forritum. Hins vegar innleiðir LightAutoML rammann lóðrétta nálgun til að þróa AutoML lausn sem er ekki almenn, heldur kemur til móts við þarfir einstakra forrita, í þessu tilviki stórrar fjármálastofnunar. LightAutoML ramminn er lóðrétt AutoML lausn sem einbeitir sér að kröfum hins flókna vistkerfis ásamt eiginleikum þess. Í fyrsta lagi veitir LightAutoML ramminn hraðvirka og næstum ákjósanlegasta ofurfæribreytuleit. Þó að líkanið fínstilli þessar ofurfæribreytur ekki beint, tekst það að skila viðunandi árangri. Jafnframt heldur líkanið jafnvæginu milli hraða og fínstillingar ofbreytu, til að tryggja að líkanið sé ákjósanlegt fyrir lítil vandamál og nógu hratt á þeim stærri. Í öðru lagi takmarkar LightAutoML ramminn úrval vélanámslíkana markvisst við aðeins tvær gerðir: línuleg líkön og GBM eða hallastyrkt ákvörðunartré, í stað þess að innleiða stórar samstæður mismunandi reiknirit. Aðalástæðan fyrir því að takmarka úrval vélanámslíkana er að flýta fyrir framkvæmdartíma LightAutoML ramma án þess að hafa neikvæð áhrif á frammistöðu fyrir tiltekna tegund vandamála og gagna. Í þriðja lagi kynnir LightAutoML rammakerfið einstaka aðferð til að velja forvinnslukerfi fyrir mismunandi eiginleika sem notaðir eru í líkönunum á grundvelli ákveðinna valreglna og meta-tölfræði. LightAutoML ramminn er metinn á fjölmörgum opnum gagnaveitum í fjölmörgum forritum.
LightAutoML: Aðferðafræði og arkitektúr
LightAutoML ramminn samanstendur af einingum þekktar sem forstillingar sem eru tileinkaðar fyrir þróun líkana frá enda til enda fyrir dæmigerð vélnámsverkefni. Sem stendur styður LightAutoML ramminn Forstilltar einingar. Í fyrsta lagi einbeitir TabularAutoML forstillingin að því að leysa klassísk vélnámsvandamál sem eru skilgreind á gagnasettum í töfluformi. Í öðru lagi útfærir White-Box forstillingin einföld túlkanleg reiknirit eins og Logistic Regression í stað WoE eða Weight of Evidence kóðun og sérgreinda eiginleika til að leysa tvöfaldar flokkunarverkefni á töflugögnum. Innleiðing á einföldum túlkanlegum reikniritum er algeng venja til að móta líkur á umsókn vegna túlkunartakmarkana sem mismunandi þættir valda. Í þriðja lagi er NLP forstillingin fær um að sameina töflugögn með NLP eða Natural Language Processing verkfæri þar á meðal fyrirfram þjálfuð djúpnámslíkön og sértæka eiginleikaútdráttarvélar. Að lokum vinnur CV Forstillingin með myndgögnum með hjálp nokkurra grunnverkfæra. Það er mikilvægt að hafa í huga að þó að LightAutoML líkanið styðji allar fjórar forstillingar, notar ramminn aðeins TabularAutoML í framleiðslustigi kerfisins.
Dæmigerð leiðsla LightAutoML ramma er innifalin í eftirfarandi mynd.
Hver leiðsla inniheldur þrjá þætti. Í fyrsta lagi framkvæmir Reader, hlutur sem fær verkefnisgerð og hrá gögn sem inntak, mikilvæga útreikninga á lýsigögnum, hreinsar upphafsgögnin og reiknar út hvaða gagnabreytingar á að framkvæma áður en mismunandi líkön eru sett í lag. Næst innihalda LightAutoML innri gagnasöfnin CV endurtekningar og lýsigögn sem innleiða staðfestingarkerfi fyrir gagnasöfnin. Þriðji þátturinn eru margar vélanámsleiðslur sem eru staflaðar og/eða blandaðar til að fá eina spá. Vélnámsleiðsla innan arkitektúrs LightAutoML rammans er eitt af mörgum vélanámslíkönum sem deila einu gagnaprófunar- og forvinnslukerfi. Forvinnsluþrepið getur verið með allt að tveimur eiginleikumvalsþrepum, eiginleikaverkfræðiþrepi eða getur verið tómt ef ekki er þörf á forvinnslu. Hægt er að reikna ML leiðslur sjálfstætt á sömu gagnasöfnum og blanda síðan saman með því að nota meðaltal (eða vegið meðaltal). Að öðrum kosti er hægt að nota stöflun ensemble kerfi til að byggja upp fjölþrepa ensemble arkitektúr.
LightAutoML töfluforstilling
Innan LightAutoML rammans er TabularAutoML sjálfgefin leiðsla og hún er útfærð í líkaninu til að leysa þrenns konar verkefni á töflugögnum: tvöfaldur flokkun, aðhvarf og fjölflokkaflokkun fyrir fjölbreytt úrval af frammistöðumælingum og tapaðgerðum. Tafla með eftirfarandi fjórum dálkum: flokkaeiginleikum, tölulegum eiginleikum, tímastimplum og einum markdálki með flokksmerkjum eða samfelldu gildi er færð í TabularAutoML íhlutinn sem inntak. Eitt af meginmarkmiðunum á bak við hönnun LightAutoML rammans var að hanna tól fyrir hraðvirkar tilgátuprófanir, aðalástæðan fyrir því að ramminn forðast að nota brute-force aðferðir til að fínstilla leiðslur, og einbeitir sér aðeins að skilvirknitækni og líkönum sem virka þvert á a breitt úrval gagnasetta.
Sjálfvirk vélritun og forvinnsla gagna
Til að meðhöndla mismunandi gerðir eiginleika á mismunandi hátt þarf líkanið að þekkja hverja eiginleikategund. Í þeim aðstæðum þar sem eitt verkefni er með lítið gagnasafn getur notandinn tilgreint hverja eiginleikagerð handvirkt. Hins vegar er ekki lengur raunhæfur kostur að tilgreina hverja eiginleikategund handvirkt í aðstæðum sem innihalda hundruð verkefna með gagnasöfnum sem innihalda þúsundir eiginleika. Fyrir TabularAutoML forstillinguna þarf LightAutoML ramma að kortleggja eiginleika í þrjá flokka: tölustafi, flokk og dagsetningu. Ein einföld og augljós lausn er að nota dálkafylkisgagnategundir sem raunverulegar eiginleikagerðir, það er að kortleggja float/int dálka yfir á tölulega eiginleika, tímastimpil eða streng, sem hægt væri að flokka sem tímastimpil - til dagsetningartíma og annarra í flokk. Hins vegar er þessi kortlagning ekki sú besta vegna þess að tölulegar gagnategundir koma oft fyrir í flokkadálkum.
Löggildingarkerfi
Löggildingarkerfi eru mikilvægur þáttur í AutoML ramma þar sem gögn í greininni geta breyst með tímanum og þessi þáttur breytinga gerir IID eða Independent Identically Distributed forsendur óviðkomandi við þróun líkansins. AutoML líkön nota löggildingarkerfi til að meta frammistöðu þeirra, leita að ofbreytum og búa til út-of-fold spá. TabularAutoML leiðslan útfærir þrjú staðfestingarkerfi:
- KFold krosslöggilding: KFold Cross Validation er sjálfgefið staðfestingarkerfi fyrir TabularAutoML leiðsluna þar á meðal GroupKFold fyrir atferlislíkön og lagskipt KFold fyrir flokkunarverkefni.
- Holdout staðfesting: Holdout löggildingarkerfið er útfært ef holdout settið er tilgreint.
- Sérsniðin staðfestingarkerfi: Notendur geta búið til sérsniðnar staðfestingarkerfi, allt eftir þörfum hvers og eins. Sérsniðin staðfestingarkerfi innihalda krossfullgildingu og skiptingarkerfi í tímaröð.
Eiginleikaval
Þó að val á eiginleikum sé afgerandi þáttur í þróun módela í samræmi við iðnaðarstaðla þar sem það auðveldar lækkun á ályktunum og útfærslukostnaði líkana, einblína meirihluti AutoML lausna ekki mikið á þetta vandamál. Þvert á móti, TabularAutoML leiðslan útfærir þrjár aðferðir við val á eiginleikum: Ekkert val, Mikilvægi skert val og framvirkt val byggt á mikilvægi. Af þessum þremur er mikilvægi skorið úr vali á vali eiginleikum sjálfgefið. Ennfremur eru tvær meginleiðir til að meta mikilvægi eiginleika: skipting byggt tré mikilvægi, og umbreytingar mikilvægi GBM líkans eða halla aukið. ákvörðunar tré. Meginmarkmiðið með vali á mikilvægu skerðingarstigi er að hafna eiginleikum sem eru ekki gagnlegir fyrir líkanið, sem gerir líkaninu kleift að fækka eiginleikum án þess að hafa neikvæð áhrif á frammistöðu, nálgun sem gæti flýtt fyrir ályktun og þjálfun líkansins.
Myndin hér að ofan ber saman mismunandi valaðferðir á gagnasettum fyrir tvöfalda banka.
Hyperparameter Tuning
TabularAutoML leiðslan útfærir mismunandi aðferðir til að stilla ofurfæribreytur á grundvelli þess sem er stillt.
- Early Stopping Hyperparameter Tuning velur fjölda endurtekningar fyrir allar gerðir á þjálfunarstigi.
- Expert System Hyperparameter Tuning er einföld leið til að stilla ofurfæribreytur fyrir gerðir á fullnægjandi hátt. Það kemur í veg fyrir að lokagerðin fái mikla lækkun á stigum samanborið við harðstilltar gerðir.
- Tree Structured Parzen Estimation eða TPE fyrir GBM eða hallastyrkt ákvörðunartré líkan. TPE er blönduð stillingaraðferð sem er sjálfgefið val í LightAutoML leiðslunni. Fyrir hverja GMB ramma þjálfar LightAutoML ramma tvær gerðir: sú fyrri fær sérfræðistærðir, sú seinni er fínstillt til að passa inn í tímaáætlunina.
- Grid Search Hyperparameter Tuning er innleitt í TabularAutoML leiðslunni til að fínstilla reglusetningarfæribreytur línulegs líkans ásamt snemmtækri stöðvun og heitri byrjun.
Líkanið stillir allar færibreytur með því að hámarka mæligildið, annað hvort skilgreint af notanda eða er sjálfgefið fyrir leyst verkefni.
LightAutoML: Tilraun og árangur
Til að meta frammistöðuna er TabularAutoML forstillingin innan LightAutoML rammans borin saman við þegar fyrirliggjandi opinn uppspretta lausnir í ýmsum verkefnum og setur yfirburða árangur LightAutoML rammans. Í fyrsta lagi er samanburðurinn gerður á OpenML viðmiðinu sem er metið á 35 tvöfalda og fjölflokka flokkunarverkefnagagnasettum. Eftirfarandi tafla dregur saman samanburð á LightAutoML ramma við núverandi AutoML kerfi.
Eins og sést er LightAutoML ramminn betri en öll önnur AutoML kerfi á 20 gagnasettum innan viðmiðsins. Eftirfarandi tafla inniheldur ítarlegan samanburð á gagnasafnssamhenginu sem gefur til kynna að LightAutoML skilar mismunandi frammistöðu í mismunandi flokkum verkefna. Fyrir tvöfalda flokkunarverkefni er LightAutoML skortur á frammistöðu, en fyrir verkefni með mikið magn af gögnum skilar LightAutoML ramma yfirburða afköstum.
Eftirfarandi tafla ber saman frammistöðu LightAutoML ramma á móti AutoML kerfum á 15 bankagagnasöfnum sem innihalda safn ýmissa tvöfaldra flokkunarverkefna. Eins og sést er LightAutoML betri en allar AutoML lausnir á 12 af 15 gagnapakka, vinningshlutfall upp á 80.
Final Thoughts
Í þessari grein höfum við talað um LightAutoML, AutoML kerfi þróað fyrst og fremst fyrir evrópsk fyrirtæki sem starfar í fjármálageiranum ásamt vistkerfi þess. LightAutoML ramminn er notaður í ýmsum forritum og niðurstöðurnar sýndu yfirburða frammistöðu, sambærileg við stig gagnafræðinga, jafnvel á meðan verið er að byggja hágæða vélanámslíkön. LightAutoML ramminn reynir að koma með eftirfarandi framlög. Í fyrsta lagi var LightAutoML ramminn þróaður fyrst og fremst fyrir vistkerfi stórrar evrópskrar fjármála- og bankastofnunar. Vegna ramma sinnar og arkitektúrs er LightAutoML ramminn fær um að standa sig betur en nýjustu AutoML ramma yfir nokkur opin viðmið sem og vistkerfisforrit. Frammistaða LightAutoML ramma er einnig borin saman við gerðir sem eru stilltar handvirkt af gagnafræðingum og niðurstöðurnar gáfu til kynna sterkari frammistöðu LightAutoML ramma.