Mākslīgais intelekts
LightAutoML: AutoML risinājums lielai finanšu pakalpojumu ekosistēmai
Lai gan AutoML kļuva populārs pirms dažiem gadiem, sākumā tika strādāts pie AutoML aizsākumi meklējami 90. gadu sākumā kad zinātnieki publicēja pirmos dokumentus par hiperparametru optimizāciju. 2014. gadā, kad ICML organizēja pirmo AutoML darbnīcu, AutoML ieguva ML izstrādātāju uzmanību. Viens no galvenajiem fokusiem AutoML gados ir hiperparametru meklēšanas problēma, kur modelis ievieš optimizācijas metožu masīvu, lai noteiktu vislabākos veiktspējas hiperparametrus lielā hiperparametru telpā konkrētam mašīnmācīšanās modelim. Vēl viena metode, ko parasti izmanto AutoML modeļos, ir novērtēt varbūtību, ka konkrēts hiperparametrs ir optimālais hiperparametrs konkrētajam mašīnmācīšanās modelim. Modelis to panāk, ieviešot Beijesa metodes, kas tradicionāli izmanto vēsturiskos datus no iepriekš novērtētiem modeļiem un citas datu kopas. Papildus hiperparametru optimizācijai ar citām metodēm tiek mēģināts atlasīt labākos modeļus no modelēšanas alternatīvu telpas.
Šajā rakstā mēs apskatīsim LightAutoML — AutoML sistēmu, kas izstrādāta galvenokārt Eiropas uzņēmumam, kas darbojas finanšu sektorā, kā arī tā ekosistēmu. LightAutoML sistēma ir izvietota dažādās lietojumprogrammās, un rezultāti parādīja izcilu veiktspēju, kas ir salīdzināma ar datu zinātnieku līmeni, pat veidojot augstas kvalitātes mašīnmācīšanās modeļus. LightAutoML ietvars mēģina sniegt šādus ieguldījumus. Pirmkārt, LightAutoML ietvars tika izstrādāts galvenokārt lielas Eiropas finanšu un banku iestādes ekosistēmai. Pateicoties tā ietvaram un arhitektūrai, LightAutoML ietvars spēj pārspēt jaunākos AutoML ietvarus vairākos atvērtos etalonos, kā arī ekosistēmu lietojumprogrammās. LightAutoML ietvara veiktspēja tiek salīdzināta arī ar modeļiem, kurus datu zinātnieki noregulē manuāli, un rezultāti liecina par LightAutoML ietvara labāku veiktspēju.
Šī raksta mērķis ir padziļināti aptvert LightAutoML ietvaru, un mēs izpētām mehānismu, metodoloģiju, ietvara arhitektūru, kā arī tās salīdzinājumu ar jaunākajām ietvariem. Tātad sāksim.
LightAutoML: AutoML ietvars finanšu pakalpojumiem
Lai gan pētnieki pirmo reizi sāka strādāt pie AutoML 90. gadu vidū un sākumā, pēdējos gados AutoML ir piesaistījis lielu uzmanību, jo daži no ievērojamiem rūpnieciskajiem risinājumiem, kas ievieš automātiski veidotus mašīnmācības modeļus, ir Amazon AutoGluon, DarwinAI, H20.ai. , IBM Watson AI, Microsoft AzureML un daudz ko citu. Lielākajā daļā šo ietvaru tiek ieviests vispārējas nozīmes AutoML risinājums, kas automātiski izstrādā uz ML balstītus modeļus dažādām lietojumprogrammu klasēm finanšu pakalpojumos, veselības aprūpē, izglītībā un citur. Šīs horizontālās vispārīgās pieejas galvenais pieņēmums ir tāds, ka automātisko modeļu izstrādes process paliek identisks visās lietojumprogrammās. Tomēr LightAutoML ietvars ievieš vertikālu pieeju, lai izstrādātu AutoML risinājumu, kas nav vispārīgs, bet gan atbilst atsevišķu lietojumprogrammu, šajā gadījumā lielas finanšu iestādes, vajadzībām. LightAutoML ietvars ir vertikāls AutoML risinājums, kas koncentrējas uz sarežģītās ekosistēmas prasībām un tās īpašībām. Pirmkārt, LightAutoML sistēma nodrošina ātru un gandrīz optimālu hiperparametru meklēšanu. Lai gan modelis tieši neoptimizē šos hiperparametrus, tas spēj nodrošināt apmierinošus rezultātus. Turklāt modelis saglabā līdzsvaru starp ātrumu un hiperparametru optimizācijas dinamiku, lai nodrošinātu, ka modelis ir optimāls mazām problēmām un pietiekami ātrs lielākām problēmām. Otrkārt, LightAutoML ietvars mērķtiecīgi ierobežo mašīnmācīšanās modeļu klāstu tikai ar diviem veidiem: lineāriem modeļiem un GBM vai gradientu pastiprinātiem lēmumu kokiem, tā vietā, lai ieviestu lielus dažādu algoritmu ansambļus. Galvenais mašīnmācīšanās modeļu diapazona ierobežošanas iemesls ir LightAutoML ietvara izpildes laika paātrināšana, negatīvi neietekmējot veiktspēju konkrētā veida problēmas un datu gadījumā. Treškārt, LightAutoML ietvars piedāvā unikālu metodi priekšapstrādes shēmu izvēlei dažādām modeļos izmantotajām funkcijām, pamatojoties uz noteiktiem atlases noteikumiem un metastatistiku. LightAutoML ietvars tiek novērtēts plašā atvērto datu avotu klāstā dažādās lietojumprogrammās.
LightAutoML: metodoloģija un arhitektūra
LightAutoML ietvars sastāv no moduļiem, kas pazīstami kā iepriekšējie iestatījumi, kas paredzēti modeļu izstrādei līdz galam tipiskiem mašīnmācīšanās uzdevumiem. Pašlaik LightAutoML ietvars atbalsta iepriekš iestatītus moduļus. Pirmkārt, TabularAutoML priekšiestatījums koncentrējas uz klasisko mašīnmācīšanās problēmu risināšanu, kas definētas tabulu datu kopās. Otrkārt, White-Box Preset ievieš vienkāršus interpretējamus algoritmus, piemēram, loģistisko regresiju, nevis WoE vai Weight of Evidence kodējumu, un diskretizētas funkcijas, lai atrisinātu tabulas datu binārās klasifikācijas uzdevumus. Vienkāršu interpretējamu algoritmu ieviešana ir izplatīta prakse, lai modelētu lietojumprogrammas iespējamību dažādu faktoru radīto interpretējamības ierobežojumu dēļ. Treškārt, NLP priekšiestatījums spēj apvienot tabulas datus ar NLP vai Dabas valodas apstrāde rīkus, tostarp iepriekš apmācītus dziļās mācīšanās modeļus un īpašu funkciju ekstraktorus. Visbeidzot, CV Preset darbojas ar attēla datiem, izmantojot dažus pamata rīkus. Ir svarīgi atzīmēt, ka, lai gan LightAutoML modelis atbalsta visus četrus sākotnējos iestatījumus, ietvars izmanto tikai TabularAutoML ražošanas līmeņa sistēmā.
Tipiskais LightAutoML ietvara cauruļvads ir iekļauts nākamajā attēlā.
Katrs cauruļvads satur trīs sastāvdaļas. Pirmkārt, Reader, objekts, kas saņem uzdevuma veidu un neapstrādātus datus kā ievadi, veic būtiskus metadatu aprēķinus, attīra sākotnējos datus un izdomā datu manipulācijas, kas jāveic pirms dažādu modeļu uzstādīšanas. Pēc tam LightAutoML iekšējās datu kopās ir CV iteratori un metadati, kas ievieš datu kopu validācijas shēmas. Trešais komponents ir vairāki mašīnmācīšanās cauruļvadi, kas ir sakrauti un/vai sajaukti, lai iegūtu vienu prognozi. Mašīnmācīšanās cauruļvads LightAutoML ietvara arhitektūrā ir viens no vairākiem mašīnmācīšanās modeļiem, kam ir viena datu validācijas un priekšapstrādes shēma. Priekšapstrādes solim var būt ne vairāk kā divas līdzekļa atlases darbības, līdzekļa izstrādes solis vai arī tas var būt tukšs, ja priekšapstrāde nav nepieciešama. ML konveijerus var aprēķināt neatkarīgi no tām pašām datu kopām un pēc tam sajaukt kopā, izmantojot vidējo (vai svērto vidējo). Kā alternatīvu var izmantot sakraušanas ansambļa shēmu, lai izveidotu vairāku līmeņu ansambļu arhitektūras.
LightAutoML tabulas priekšiestatījums
LightAutoML ietvaros TabularAutoML ir noklusējuma konveijers, un tas ir ieviests modelī, lai atrisinātu trīs veidu uzdevumus tabulas datos: binārā klasifikācija, regresija un vairāku klašu klasifikācija plašam veiktspējas metrikas un zaudējumu funkciju klāstam. Tabula ar šādām četrām kolonnām: kategoriskas pazīmes, skaitliskas pazīmes, laikspiedoli un viena mērķa kolonna ar klases etiķetēm vai nepārtrauktu vērtību tiek ievadīta komponentā TabularAutoML kā ievade. Viens no galvenajiem LightAutoML ietvara izstrādes mērķiem bija izstrādāt rīku ātrai hipotēžu pārbaudei, kas ir galvenais iemesls, kāpēc sistēma izvairās izmantot brutāla spēka metodes konveijera optimizācijai un koncentrējas tikai uz efektivitātes paņēmieniem un modeļiem, kas darbojas visā plašs datu kopu klāsts.
Automātiskā rakstīšana un datu pirmapstrāde
Lai dažādos veidos apstrādātu dažādu veidu līdzekļus, modelim ir jāzina katrs funkcijas veids. Situācijā, kad ir viens uzdevums ar nelielu datu kopu, lietotājs var manuāli norādīt katru līdzekļa veidu. Tomēr katra līdzekļa veida manuāla norādīšana vairs nav reāla iespēja situācijās, kas ietver simtiem uzdevumu ar datu kopām, kas satur tūkstošiem līdzekļu. TabularAutoML priekšiestatījumam LightAutoML ietvaram ir jāsakārto līdzekļi trīs klasēs: ciparu, kategorijas un datuma un laika. Viens vienkāršs un acīmredzams risinājums ir izmantot kolonnu masīvu datu tipus kā faktiskos objektu tipus, tas ir, lai saistītu pludinātās/investās kolonnas ar skaitliskām iezīmēm, laikspiedolu vai virkni, ko varētu parsēt kā laikspiedolu — uz datetime un citus ar kategoriju. Tomēr šī kartēšana nav vislabākā, jo kategoriju kolonnās bieži parādās skaitlisku datu tipi.
Validācijas shēmas
Validācijas shēmas ir būtiska AutoML ietvaru sastāvdaļa, jo nozares dati laika gaitā var mainīties, un šis izmaiņu elements padara IID vai neatkarīgu identiski sadalītu pieņēmumus nebūtiskus, izstrādājot modeli. AutoML modeļos tiek izmantotas validācijas shēmas, lai novērtētu to veiktspēju, meklētu hiperparametrus un ģenerētu ārpuskārtas prognozes. TabularAutoML cauruļvads ievieš trīs validācijas shēmas:
- KFold krusta validācija: KFold Cross Validation ir noklusējuma validācijas shēma TabularAutoML konveijeram, tostarp GroupKFold uzvedības modeļiem un stratificēta KFold klasifikācijas uzdevumiem.
- Holdout validācija: Holdout validācijas shēma tiek ieviesta, ja ir norādīta aizturēšanas kopa.
- Pielāgotas validācijas shēmas: Lietotāji var izveidot pielāgotas validācijas shēmas atkarībā no savām individuālajām prasībām. Pielāgotās validācijas shēmas ietver savstarpēju validāciju un laika rindu sadalīšanas shēmas.
Funkciju izvēle
Lai gan funkciju izvēle ir būtisks modeļu izstrādes aspekts atbilstoši nozares standartiem, jo tas atvieglo secinājumu izdarīšanas un modeļa ieviešanas izmaksu samazināšanu, lielākā daļa AutoML risinājumu nav īpaši vērsta uz šo problēmu. Gluži pretēji, TabularAutoML konveijerā tiek ieviestas trīs funkciju atlases stratēģijas: bez atlases, svarīguma nogriešanas atlase un uz svarīgumu balstīta uz priekšu atlase. No trim noklusējuma nozīmes izvēles funkciju atlases stratēģija ir noklusējuma vērtība. Turklāt ir divi galvenie veidi, kā novērtēt elementu svarīgumu: sadalītā koka nozīmīgumu un GBM modeļa vai gradienta palielinātā permutācijas nozīmīgumu. lēmumu koki. Svarīguma robežvērtības atlases galvenais mērķis ir noraidīt funkcijas, kas modelim nav noderīgas, ļaujot modelim samazināt funkciju skaitu, negatīvi neietekmējot veiktspēju. Šī pieeja var paātrināt modeļa secinājumus un apmācību.
Iepriekš redzamajā attēlā ir salīdzinātas dažādas atlases stratēģijas bināro banku datu kopās.
Hiperparametru regulēšana
TabularAutoML konveijerā tiek ieviestas dažādas pieejas hiperparametru regulēšanai, pamatojoties uz noregulēto.
- Hiperparametru iestatīšana agrīnā apturēšanā atlasa iterāciju skaitu visiem modeļiem apmācības posmā.
- Ekspertu sistēmas hiperparametru regulēšana ir vienkāršs veids, kā apmierinoši iestatīt modeļu hiperparametrus. Tas neļauj galīgajam modelim ievērojami samazināt punktu skaitu salīdzinājumā ar stingri pielāgotiem modeļiem.
- Tree Structured Parzen Estimation jeb TPE GBM vai gradientu palielinātiem lēmumu koka modeļiem. TPE ir jaukta regulēšanas stratēģija, kas ir LightAutoML konveijera noklusējuma izvēle. Katrai GMB sistēmai LightAutoML ietvars apmāca divus modeļus: pirmais iegūst ekspertu hiperparametrus, otrais tiek precīzi noregulēts, lai iekļautos laika budžetā.
- Režģa meklēšanas hiperparametru regulēšana ir ieviests TabularAutoML konveijerā, lai precīzi noregulētu lineārā modeļa regularizācijas parametrus līdzās agrīnai apturēšanai un siltai palaišanai.
Modelis noregulē visus parametrus, maksimāli palielinot metrisko funkciju, ko definējis lietotājs vai kas ir noklusējuma uzdevums atrisinātajam uzdevumam.
LightAutoML: eksperimentēšana un veiktspēja
Lai novērtētu veiktspēju, TabularAutoML priekšiestatījums LightAutoML ietvarā tiek salīdzināts ar jau esošajiem atvērtā pirmkoda risinājumiem dažādos uzdevumos, un tas nostiprina LightAutoML ietvara izcilo veiktspēju. Pirmkārt, salīdzinājums tiek veikts ar OpenML etalonu, kas tiek novērtēts uz 35 binārās un daudzklases klasifikācijas uzdevumu datu kopām. Šajā tabulā ir apkopots LightAutoML ietvara salīdzinājums ar esošajām AutoML sistēmām.
Kā redzams, LightAutoML ietvars pārspēj visas pārējās AutoML sistēmas 20 etalona datu kopās. Šajā tabulā ir detalizēts salīdzinājums datu kopas kontekstā, norādot, ka LightAutoML nodrošina atšķirīgu veiktspēju dažādām uzdevumu klasēm. Binārās klasifikācijas uzdevumiem LightAutoML ir mazāk veiktspējas, turpretim uzdevumiem ar lielu datu apjomu LightAutoML sistēma nodrošina izcilu veiktspēju.
Šajā tabulā ir salīdzināta LightAutoML ietvara veiktspēja ar AutoML sistēmām 15 banku datu kopās, kas satur dažādu bināro klasifikācijas uzdevumu kopu. Kā redzams, LightAutoML pārspēj visus AutoML risinājumus 12 no 15 datu kopām, uzvaras procents ir 80.
Final Domas
Šajā rakstā mēs runājām par LightAutoML — AutoML sistēmu, kas galvenokārt izstrādāta Eiropas uzņēmumam, kas darbojas finanšu sektorā un tā ekosistēmā. LightAutoML sistēma ir izvietota dažādās lietojumprogrammās, un rezultāti parādīja izcilu veiktspēju, kas ir salīdzināma ar datu zinātnieku līmeni, pat veidojot augstas kvalitātes mašīnmācīšanās modeļus. LightAutoML ietvars mēģina sniegt šādus ieguldījumus. Pirmkārt, LightAutoML ietvars tika izstrādāts galvenokārt lielas Eiropas finanšu un banku iestādes ekosistēmai. Pateicoties tā ietvaram un arhitektūrai, LightAutoML ietvars spēj pārspēt jaunākos AutoML ietvarus vairākos atvērtos etalonos, kā arī ekosistēmu lietojumprogrammās. LightAutoML ietvara veiktspēja tiek salīdzināta arī ar modeļiem, kurus datu zinātnieki noregulē manuāli, un rezultāti liecina par LightAutoML ietvara labāku veiktspēju.