Ühenda meile

Tehisintellekt

LightAutoML: AutoML-i lahendus suurele finantsteenuste ökosüsteemile

mm
Ajakohastatud on

Kuigi AutoML saavutas populaarsuse paar aastat tagasi, töötas see alguses AutoML pärineb 90ndate algusest kui teadlased avaldasid esimesed dokumendid hüperparameetrite optimeerimise kohta. 2014. aastal, kui ICML korraldas esimese AutoML-i töötoa, pälvis AutoML ML-i arendajate tähelepanu. AutoML-i aastate jooksul on üheks peamiseks fookuseks hüperparameetrite otsimise probleem, kus mudel rakendab optimeerimismeetodite massiivi, et määrata konkreetse masinõppemudeli jaoks kõige paremini toimivad hüperparameetrid suures hüperparameetriruumis. Teine meetod, mida AutoML-i mudelid tavaliselt kasutavad, on hinnata tõenäosust, et konkreetne hüperparameeter on antud masinõppemudeli jaoks optimaalne hüperparameeter. Mudel saavutab selle, rakendades Bayesi meetodeid, mis traditsiooniliselt kasutavad varem hinnatud mudelite ajaloolisi andmeid ja muid andmekogumeid. Lisaks hüperparameetrite optimeerimisele püüavad teised meetodid modelleerimisalternatiivide ruumist parimaid mudeleid välja valida. 

Käesolevas artiklis käsitleme LightAutoML-i, AutoML-süsteemi, mis on välja töötatud peamiselt Euroopa finantssektoris tegutsevale ettevõttele koos ökosüsteemiga. LightAutoML-i raamistikku kasutatakse erinevates rakendustes ja tulemused näitasid suurepärast jõudlust, mis on võrreldav andmeteadlaste tasemega isegi kvaliteetsete masinõppemudelite loomisel. LightAutoML-i raamistik püüab anda järgmised panused. Esiteks töötati LightAutoML raamistik välja eelkõige suure Euroopa finants- ja pangandusasutuse ökosüsteemi jaoks. Tänu oma raamistikule ja arhitektuurile on LightAutoML-i raamistik võimeline ületama nüüdisaegseid AutoML-i raamistikke nii paljudes avatud etalonides kui ka ökosüsteemirakendustes. LightAutoML-i raamistiku jõudlust võrreldakse ka andmeteadlaste käsitsi häälestatud mudelitega ja tulemused näitasid LightAutoML-i raamistiku tugevamat jõudlust. 

Selle artikli eesmärk on käsitleda LightAutoML-i raamistikku põhjalikult ning me uurime raamistiku mehhanismi, metoodikat, arhitektuuri ja selle võrdlust nüüdisaegsete raamistikega. Nii et alustame. 

LightAutoML: finantsteenuste AutoML-i raamistik

Kuigi teadlased alustasid esimest korda AutoML-i kallal tööd 90ndate keskel ja alguses, on AutoML äratanud viimastel aastatel suure osa tähelepanust, kusjuures mõned silmapaistvad tööstuslahendused, mis rakendavad automaatselt koostatud masinõppe mudeleid, on Amazoni AutoGluon, DarwinAI, H20.ai , IBM Watson AI, Microsoft AzureML ja palju muud. Enamik neist raamistikest rakendab üldotstarbelist AutoML-i lahendust, mis arendab ML-põhiseid mudeleid automaatselt erinevatesse finantsteenuste, tervishoiu, hariduse ja muude rakenduste klassidesse. Selle horisontaalse üldise lähenemisviisi peamine eeldus on, et automaatsete mudelite väljatöötamise protsess jääb kõigis rakendustes identseks. LightAutoML-i raamistik rakendab aga vertikaalset lähenemist AutoML-i lahenduse väljatöötamiseks, mis ei ole üldine, vaid vastab pigem üksikute rakenduste, antud juhul suure finantsasutuse vajadustele. LightAutoML-i raamistik on vertikaalne AutoML-i lahendus, mis keskendub keeruka ökosüsteemi nõuetele ja selle omadustele. Esiteks pakub LightAutoML raamistik kiiret ja peaaegu optimaalset hüperparameetrite otsingut. Kuigi mudel neid hüperparameetreid otseselt ei optimeeri, suudab see siiski rahuldavaid tulemusi anda. Lisaks säilitab mudel tasakaalu kiiruse ja hüperparameetrite optimeerimise dünaamiliselt, et mudel oleks optimaalne väikeste probleemide korral ja piisavalt kiire suuremate probleemide korral. Teiseks piirab LightAutoML-i raamistik masinõppemudelite valikut sihipäraselt ainult kahe tüübiga: lineaarsed mudelid ja GBM-id või gradientvõimendatud otsustuspuud, selle asemel, et rakendada erinevate algoritmide suuri ansambleid. Masinõppemudelite ulatuse piiramise peamine põhjus on LightAutoML-i raamistiku täitmisaja kiirendamine, ilma et see mõjutaks negatiivselt antud tüüpi probleemi ja andmete toimivust. Kolmandaks esitleb LightAutoML raamistik unikaalset meetodit mudelites kasutatavate erinevate funktsioonide eeltöötlusskeemide valimiseks teatud valikureeglite ja metastatistika alusel. LightAutoML-i raamistikku hinnatakse paljudes avatud andmeallikates paljudes rakendustes. 

LightAutoML: metoodika ja arhitektuur

LightAutoML-i raamistik koosneb moodulitest, mida nimetatakse eelseadeteks ja mis on mõeldud tüüpiliste masinõppeülesannete jaoks mõeldud mudelite täielikuks arendamiseks. Praegu toetab LightAutoML-i raamistik eelseadistatud mooduleid. Esiteks keskendub TabularAutoML-i eelseadistus klassikaliste masinõppeprobleemide lahendamisele, mis on määratletud tabeliandmetes. Teiseks rakendab White-Boxi eelseadistus lihtsaid tõlgendatavaid algoritme, nagu WoE asemel logistiline regressioon või tõendite kaalukuse kodeering, ja diskretiseeritud funktsioone, et lahendada tabeliandmete binaarseid klassifitseerimisülesandeid. Lihtsate tõlgendatavate algoritmide rakendamine on levinud praktika rakenduse tõenäosuse modelleerimiseks erinevate tegurite põhjustatud tõlgendatavuse piirangute tõttu. Kolmandaks on NLP eelseadistus võimeline kombineerima tabeliandmeid NLP-ga või Natural Language Processing tööriistad, sealhulgas eelkoolitatud süvaõppe mudelid ja spetsiifiliste funktsioonide ekstraktorid. Lõpuks töötab CV Preset pildiandmetega mõne põhitööriista abil. Oluline on märkida, et kuigi LightAutoML-i mudel toetab kõiki nelja eelseadistust, kasutab raamistik TabularAutoML-i ainult tootmistaseme süsteemis. 

LightAutoML-i raamistiku tüüpiline konveier on toodud järgmisel pildil. 

Iga torujuhe sisaldab kolme komponenti. Esiteks, Reader, objekt, mis saab sisendiks ülesande tüübi ja algandmeid, teostab olulised metaandmete arvutused, puhastab algandmed ja selgitab välja andmetega manipuleerimised, mis tuleb enne erinevate mudelite sobitamist teha. Järgmisena sisaldavad LightAutoML-i siseandmed CV iteraatoreid ja metaandmeid, mis rakendavad andmekogumite valideerimisskeeme. Kolmas komponent on mitu masinõppekonveieri, mis on virnastatud ja/või segatud ühe ennustuse saamiseks. LightAutoML-i raamistiku arhitektuuri masinõppe torujuhe on üks paljudest masinõppemudelitest, millel on üks andmete valideerimise ja eeltöötluse skeem. Eeltöötlusetapil võib olla kuni kaks funktsiooni valimise etappi, funktsiooni kavandamise etapp või see võib olla tühi, kui eeltöötlust pole vaja. ML torujuhtmeid saab arvutada sõltumatult samade andmekogumite põhjal ja seejärel keskmistamise (või kaalutud keskmistamise) abil kokku segada. Teise võimalusena saab mitmetasandiliste ansambliarhitektuuride koostamiseks kasutada virnastamisansambli skeemi. 

LightAutoML-i tabeli eelseade

LightAutoML-i raamistikus on TabularAutoML vaikekonveier ja see on mudelis rakendatud kolme tüüpi ülesannete lahendamiseks tabeliandmetel: binaarne klassifikatsioon, regressioon ja mitme klassi klassifikatsioon paljude jõudlusmõõdikute ja kahjumifunktsioonide jaoks. TabularAutoML-i komponendile sisestatakse sisendina nelja järgmise veeruga tabel: kategoorilised tunnused, numbrilised funktsioonid, ajatemplid ja üks sihtveerg koos klassisiltide või pideva väärtusega. Üks LightAutoML-i raamistiku disaini põhieesmärke oli luua tööriist hüpoteeside kiireks testimiseks, mis on peamine põhjus, miks raamistik väldib jõhkra jõu meetodite kasutamist torujuhtme optimeerimiseks ja keskendub ainult tõhususe tehnikatele ja mudelitele, mis töötavad kogu lai valik andmekogumeid. 

Automaatne tippimine ja andmete eeltöötlus

Erinevat tüüpi funktsioonide erineval viisil käsitlemiseks peab mudel teadma iga funktsioonitüüpi. Olukorras, kus väikese andmestikuga on üks ülesanne, saab kasutaja iga funktsioonitüübi käsitsi määrata. Iga funktsioonitüübi käsitsi määramine ei ole aga enam mõistlik valik olukordades, mis hõlmavad sadu ülesandeid koos tuhandeid funktsioone sisaldavate andmekogumitega. TabularAutoML-i eelseadistuse jaoks peab LightAutoML-i raamistik kaardistama funktsioonid kolme klassi: numbriline, kategooria ja kuupäeva-aeg. Üks lihtne ja ilmselge lahendus on kasutada veergude massiivi andmetüüpe tegelike funktsioonitüüpidena, st ujuk/int veergude vastendamiseks numbriliste funktsioonide, ajatempli või stringi järgi, mida saab sõeluda ajatemplina – datetime ja teised kategooriaga. See vastendus pole aga parim, kuna kategooriaveergudes esineb sageli arvandmetüüpe. 

Valideerimisskeemid

Valideerimisskeemid on AutoML-i raamistike oluline komponent, kuna tööstuse andmed võivad aja jooksul muutuda ja see muutus muudab IID või sõltumatu identselt jaotatud eeldused mudeli väljatöötamisel ebaoluliseks. AutoML-i mudelid kasutavad nende toimivuse hindamiseks, hüperparameetrite otsimiseks ja ennustuste genereerimiseks volitusvälise ennustuse loomiseks valideerimisskeeme. TabularAutoML-i konveier rakendab kolme valideerimisskeemi:

  • KFoldi ristvalideerimine: KFoldi ristvalideerimine on vaikevalideerimisskeem TabularAutoML-i konveieri jaoks, sealhulgas GroupKFold käitumismudelite jaoks ja kihiline KFold klassifitseerimisülesannete jaoks. 
  • Holdouti kinnitamine: Holdouti valideerimisskeemi rakendatakse juhul, kui hoidmise komplekt on määratud. 
  • Kohandatud valideerimisskeemid: Kasutajad saavad luua kohandatud valideerimisskeeme sõltuvalt nende individuaalsetest vajadustest. Kohandatud valideerimisskeemid hõlmavad ristvalideerimist ja aegridade jagatud skeeme. 

Funktsiooni valik

Kuigi funktsioonide valik on tööstusstandarditele vastavate mudelite väljatöötamisel ülioluline aspekt, kuna see hõlbustab järelduste ja mudeli juurutamise kulude vähendamist, ei keskendu enamik AutoML-i lahendusi sellele probleemile kuigi palju. Vastupidi, TabularAutoML-i konveier rakendab kolme funktsioonide valimise strateegiat: valiku puudumine, tähtsuse äralõigatud valik ja tähtsusepõhine edasivalik. Kolmest kolmest on vaikimisi valitud funktsioonide valiku strateegia tähtsus. Lisaks on funktsioonide tähtsuse hindamiseks kaks peamist viisi: poolitatud puu tähtsus ja GBM-mudeli permutatsiooni tähtsus või võimendatud gradient otsustuspuud. Tähtsuse piiri valiku esmane eesmärk on tagasi lükata funktsioonid, mis ei ole mudeli jaoks kasulikud, võimaldades mudelil funktsioonide arvu vähendada, ilma et see mõjutaks jõudlust negatiivselt. See lähenemisviis võib kiirendada mudeli järeldusi ja väljaõpet. 

Ülaltoodud pilt võrdleb erinevaid valikustrateegiaid binaarsetes pangaandmetes. 

Hüperparameetrite häälestamine

TabularAutoML-i konveier rakendab erinevaid lähenemisviise hüperparameetrite häälestamiseks häälestatu põhjal. 

  • Hüperparameetrite häälestamise varajane peatamine valib treeningfaasis kõikide mudelite iteratsioonide arvu. 
  • Ekspertsüsteemi hüperparameetrite häälestamine on lihtne viis mudelite hüperparameetrite rahuldavaks määramiseks. See hoiab ära lõpliku mudeli hinde suure vähenemise võrreldes raskesti häälestatud mudelitega.
  • Tree Structured Parzen Estimation ehk TPE GBM-i või gradiendiga võimendatud otsustuspuu mudelite jaoks. TPE on segahäälestusstrateegia, mis on LightAutoML-i konveieri vaikevalik. Iga GMB raamistiku jaoks koolitab LightAutoML raamistik kahte mudelit: esimene saab ekspertide hüperparameetrid, teine ​​on peenhäälestatud, et see mahuks ajaeelarvesse. 
  • Võrgustikuotsingu hüperparameetrite häälestamine on rakendatud TabularAutoML-i konveierisse, et täpsustada lineaarse mudeli reguleerimisparameetreid koos varajase peatamise ja sooja käivitamisega. 

Mudel häälestab kõiki parameetreid, maksimeerides meetrika funktsiooni, mis on kas kasutaja määratletud või lahendatud ülesande jaoks vaikimisi. 

LightAutoML: katse ja jõudlus

Toimivuse hindamiseks võrreldakse LightAutoML-i raamistikus olevat TabularAutoML-i eelseadistust juba olemasolevate avatud lähtekoodiga lahendustega erinevates ülesannetes ja see kinnitab LightAutoML-i raamistiku paremat jõudlust. Esiteks viiakse võrdlus läbi OpenML-i etalonil, mida hinnatakse 35 kahend- ja mitmeklassilise klassifitseerimisülesannete andmekogumil. Järgmine tabel võtab kokku LightAutoML-i raamistiku võrdluse olemasolevate AutoML-süsteemidega. 

Nagu näha, ületab LightAutoML-i raamistik kõiki teisi AutoML-i süsteeme 20 võrdlusaluse andmestiku osas. Järgmine tabel sisaldab üksikasjalikku võrdlust andmestiku kontekstis, mis näitab, et LightAutoML pakub erinevate ülesannete klasside puhul erinevat jõudlust. Binaarse klassifitseerimisülesannete puhul jääb LightAutoML jõudlusest alla, samas kui suure andmemahuga ülesannete puhul tagab LightAutoML raamistik suurepärase jõudluse.

Järgmises tabelis võrreldakse LightAutoML-i raamistiku toimivust AutoML-süsteemidega 15 pangaandmestikul, mis sisaldavad erinevaid binaarseid klassifitseerimisülesandeid. Nagu võib täheldada, ületab LightAutoML kõiki AutoML-i lahendusi 12 andmestiku puhul 15-st, võiduprotsent on 80. 

Final Thoughts

Selles artiklis oleme rääkinud LightAutoML-ist, AutoML-süsteemist, mis on välja töötatud eelkõige Euroopa finantssektoris tegutsevale ettevõttele koos selle ökosüsteemiga. LightAutoML-i raamistikku kasutatakse erinevates rakendustes ja tulemused näitasid suurepärast jõudlust, mis on võrreldav andmeteadlaste tasemega isegi kvaliteetsete masinõppemudelite loomisel. LightAutoML-i raamistik püüab anda järgmised panused. Esiteks töötati LightAutoML raamistik välja eelkõige suure Euroopa finants- ja pangandusasutuse ökosüsteemi jaoks. Tänu oma raamistikule ja arhitektuurile on LightAutoML-i raamistik võimeline ületama nüüdisaegseid AutoML-i raamistikke nii paljudes avatud etalonides kui ka ökosüsteemirakendustes. LightAutoML-i raamistiku jõudlust võrreldakse ka andmeteadlaste käsitsi häälestatud mudelitega ja tulemused näitasid LightAutoML-i raamistiku tugevamat jõudlust. 

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.