Umjetna inteligencija
LightAutoML: AutoML rješenje za veliki ekosustav financijskih usluga
Iako je AutoML postao popularan prije nekoliko godina, ealy radi dalje AutoML datira iz ranih 90-ih kada su znanstvenici objavili prve radove o optimizaciji hiperparametara. Godine 2014., kada je ICML organizirao prvu AutoML radionicu, AutoML je privukao pozornost ML programera. Jedan od glavnih fokusa tijekom godina AutoML-a je problem pretraživanja hiperparametara, gdje model implementira niz optimizacijskih metoda za određivanje hiperparametara s najboljom izvedbom u velikom prostoru hiperparametara za određeni model strojnog učenja. Druga metoda koja se obično primjenjuje u AutoML modelima je procjena vjerojatnosti da će određeni hiperparametar biti optimalan hiperparametar za dati model strojnog učenja. Model to postiže implementacijom Bayesovih metoda koje tradicionalno koriste povijesne podatke iz prethodno procijenjenih modela i drugih skupova podataka. Osim hiperparametarske optimizacije, druge metode pokušavaju odabrati najbolje modele iz prostora alternativa modeliranja.
U ovom ćemo članku pokriti LightAutoML, AutoML sustav prvenstveno razvijen za europsku tvrtku koja posluje u financijskom sektoru zajedno s njezinim ekosustavom. Okvir LightAutoML raspoređen je u različitim aplikacijama, a rezultati su pokazali vrhunsku izvedbu, usporedivu s razinom podatkovnih znanstvenika, čak i tijekom izgradnje visokokvalitetnih modela strojnog učenja. Okvir LightAutoML pokušava dati sljedeće doprinose. Prvo, okvir LightAutoML prvenstveno je razvijen za ekosustav velike europske financijske i bankarske institucije. Zahvaljujući svom okviru i arhitekturi, okvir LightAutoML može nadmašiti najsuvremenije okvire AutoML u nekoliko otvorenih referentnih vrijednosti kao i aplikacija ekosustava. Performanse okvira LightAutoML također se uspoređuju s modelima koje su ručno podesili znanstvenici za podatke, a rezultati ukazuju na jače performanse okvira LightAutoML.
Ovaj članak ima za cilj detaljno pokriti okvir LightAutoML, a mi istražujemo mehanizam, metodologiju, arhitekturu okvira zajedno s njegovom usporedbom s najsuvremenijim okvirima. Pa počnimo.
LightAutoML: AutoML okvir za financijske usluge
Iako su istraživači prvi put počeli raditi na AutoML-u sredinom i početkom 90-ih, AutoML je privukao veliki dio pozornosti u posljednjih nekoliko godina, a neka od istaknutih industrijskih rješenja koja implementiraju modele automatske izgradnje strojnog učenja su Amazonov AutoGluon, DarwinAI, H20.ai , IBM Watson AI, Microsoft AzureML i još mnogo toga. Većina ovih okvira implementira AutoML rješenje opće namjene koje automatski razvija modele temeljene na ML-u u različitim klasama aplikacija u financijskim uslugama, zdravstvu, obrazovanju itd. Ključna pretpostavka iza ovog horizontalnog generičkog pristupa je da proces razvoja automatskih modela ostaje identičan u svim aplikacijama. Međutim, okvir LightAutoML implementira vertikalni pristup razvoju AutoML rješenja koje nije generičko, već zadovoljava potrebe pojedinačnih aplikacija, u ovom slučaju velike financijske institucije. Okvir LightAutoML vertikalno je AutoML rješenje koje se usredotočuje na zahtjeve složenog ekosustava zajedno s njegovim karakteristikama. Prvo, okvir LightAutoML pruža brzo i gotovo optimalno pretraživanje hiperparametara. Iako model ne optimizira izravno te hiperparametre, uspijeva dati zadovoljavajuće rezultate. Nadalje, model održava ravnotežu između brzine i dinamičke optimizacije hiperparametara, kako bi se osiguralo da je model optimalan za male probleme i dovoljno brz za veće. Drugo, okvir LightAutoML namjerno ograničava raspon modela strojnog učenja na samo dvije vrste: linearne modele i GBM-ove ili gradijentno pojačana stabla odlučivanja, umjesto implementacije velikih skupova različitih algoritama. Primarni razlog za ograničavanje raspona modela strojnog učenja je ubrzanje vremena izvršenja okvira LightAutoML bez negativnog utjecaja na izvedbu za danu vrstu problema i podataka. Treće, okvir LightAutoML predstavlja jedinstvenu metodu odabira shema predprocesiranja za različite značajke koje se koriste u modelima na temelju određenih pravila odabira i meta-statistike. Okvir LightAutoML procjenjuje se na širokom rasponu otvorenih izvora podataka u širokom rasponu aplikacija.
LightAutoML : Metodologija i arhitektura
Okvir LightAutoML sastoji se od modula poznatih kao Presets koji su namijenjeni razvoju modela od kraja do kraja za tipične zadatke strojnog učenja. Trenutačno okvir LightAutoML podržava unaprijed postavljene module. Prvo, TabularAutoML Preset usmjeren je na rješavanje klasičnih problema strojnog učenja definiranih na tabelarnim skupovima podataka. Drugo, White-Box Preset implementira jednostavne interpretabilne algoritme kao što je Logistička regresija umjesto kodiranja WoE ili Weight of Evidence i diskretizirane značajke za rješavanje zadataka binarne klasifikacije na tabličnim podacima. Implementacija jednostavnih interpretabilnih algoritama uobičajena je praksa za modeliranje vjerojatnosti primjene zbog ograničenja interpretabilnosti koja postavljaju različiti čimbenici. Treće, NLP Preset je sposoban kombinirati tablične podatke s NLP ili Obrada prirodnog jezika alate uključujući unaprijed obučene modele dubokog učenja i ekstraktore specifičnih značajki. Konačno, CV Preset radi sa slikovnim podacima uz pomoć nekih osnovnih alata. Važno je napomenuti da iako model LightAutoML podržava sve četiri unaprijed postavljene postavke, okvir koristi samo TabularAutoML u sustavu na razini proizvodnje.
Tipični cjevovod okvira LightAutoML uključen je u sljedeću sliku.
Svaki cjevovod sadrži tri komponente. Prvo, Reader, objekt koji prima vrstu zadatka i neobrađene podatke kao ulaz, izvodi ključne izračune metapodataka, čisti početne podatke i utvrđuje manipulacije podacima koje treba izvršiti prije uklapanja različitih modela. Zatim, LightAutoML interni skupovi podataka sadrže CV iteratore i metapodatke koji implementiraju sheme provjere valjanosti za skupove podataka. Treća komponenta su višestruki cjevovodi strojnog učenja naslagani i/ili pomiješani kako bi se dobilo jedno predviđanje. Cjevovod strojnog učenja unutar arhitekture okvira LightAutoML jedan je od više modela strojnog učenja koji dijele jednu shemu provjere valjanosti i predobrade podataka. Korak pretprocesiranja može imati do dva koraka odabira značajki, korak inženjeringa značajki ili može biti prazan ako pretprocesiranje nije potrebno. Cjevovodi ML-a mogu se izračunati neovisno o istim skupovima podataka, a zatim se pomiješati pomoću usrednjavanja (ili ponderiranog usrednjavanja). Alternativno, shema slaganja ansambla može se koristiti za izgradnju višerazinskih ansambl arhitektura.
LightAutoML tabularna unaprijed postavljena
Unutar okvira LightAutoML, TabularAutoML je zadani cjevovod, a implementiran je u model za rješavanje tri vrste zadataka na tabličnim podacima: binarna klasifikacija, regresija i višeklasna klasifikacija za široku lepezu metrike performansi i funkcija gubitka. Tablica sa sljedeća četiri stupca: kategoričke značajke, numeričke značajke, vremenske oznake i jedan ciljni stupac s oznakama klasa ili kontinuiranom vrijednošću unosi se u komponentu TabularAutoML kao ulaz. Jedan od primarnih ciljeva iza dizajna okvira LightAutoML bio je dizajnirati alat za brzo testiranje hipoteza, što je glavni razlog zašto okvir izbjegava korištenje brute-force metoda za optimizaciju cjevovoda i fokusira se samo na tehnike učinkovitosti i modele koji rade u cijelom širok raspon skupova podataka.
Automatsko upisivanje i pretprocesiranje podataka
Za rukovanje različitim vrstama značajki na različite načine, model treba poznavati svaku vrstu značajki. U situaciji kada postoji jedan zadatak s malim skupom podataka, korisnik može ručno odrediti svaku vrstu značajke. Međutim, ručno određivanje svake vrste značajke više nije održiva opcija u situacijama koje uključuju stotine zadataka sa skupovima podataka koji sadrže tisuće značajki. Za TabularAutoML Preset, okvir LightAutoML treba mapirati značajke u tri klase: numeričku, kategoriju i datum i vrijeme. Jedno jednostavno i očito rješenje je korištenje tipova podataka niza stupaca kao stvarnih tipova značajki, to jest mapiranje float/int stupaca u numeričke značajke, vremensku oznaku ili niz, koji bi se mogli analizirati kao vremenska oznaka — u datum i vrijeme, a ostali u kategoriju. Međutim, ovo mapiranje nije najbolje zbog česte pojave numeričkih tipova podataka u stupcima kategorija.
Sheme provjere valjanosti
Sheme provjere vitalna su komponenta AutoML okvira budući da su podaci u industriji podložni promjenama tijekom vremena, a ovaj element promjene čini IID ili pretpostavke o neovisnoj identičnoj distribuciji irelevantnima pri razvoju modela. AutoML modeli koriste sheme provjere valjanosti za procjenu svoje izvedbe, traženje hiperparametara i generiranje predviđanja izvan preklopa. Cjevovod TabularAutoML implementira tri sheme provjere valjanosti:
- KFold unakrsna provjera valjanosti: KFold Cross Validation zadana je shema provjere valjanosti za TabularAutoML cjevovod uključujući GroupKFold za modele ponašanja i stratificirani KFold za zadatke klasifikacije.
- Provjera čekanja: Shema provjere valjanosti zadržavanja implementirana je ako je naveden skup zadržavanja.
- Prilagođene sheme provjere valjanosti: Korisnici mogu izraditi prilagođene sheme provjere valjanosti ovisno o svojim individualnim zahtjevima. Prilagođene sheme provjere valjanosti uključuju unakrsnu provjeru valjanosti i sheme dijeljenja vremenskih serija.
Odabir značajke
Iako je odabir značajki ključni aspekt razvoja modela prema industrijskim standardima budući da olakšava smanjenje troškova zaključivanja i implementacije modela, većina AutoML rješenja ne fokusira se mnogo na ovaj problem. Naprotiv, TabularAutoML cjevovod implementira tri strategije odabira značajki: Bez odabira, Odsječeni odabir po važnosti i Odabir prema naprijed temeljen na važnosti. Od ove tri, zadana je strategija odabira značajke odabira isključenja važnosti. Nadalje, postoje dva primarna načina za procjenu važnosti značajke: važnost podijeljenog stabla i važnost permutacije GBM modela ili pojačanog gradijenta stabla odlučivanja. Primarni cilj odabira ograničenja važnosti je odbacivanje značajki koje nisu od pomoći modelu, dopuštajući modelu da smanji broj značajki bez negativnog utjecaja na izvedbu, pristup koji bi mogao ubrzati zaključivanje modela i obuku.
Gornja slika uspoređuje različite strategije odabira na skupovima podataka binarne banke.
Podešavanje hiperparametara
Cjevovod TabularAutoML implementira različite pristupe za podešavanje hiperparametara na temelju onoga što je podešeno.
- Rano zaustavljanje hiperparametarskog podešavanja odabire broj ponavljanja za sve modele tijekom faze obuke.
- Podešavanje hiperparametara ekspertnog sustava je jednostavan način za postavljanje hiperparametara za modele na zadovoljavajući način. Sprječava veliki pad rezultata kod konačnog modela u usporedbi s teško podešenim modelima.
- Stablasto strukturirana Parzenova procjena ili TPE za GBM ili gradijentno pojačane modele stabla odlučivanja. TPE je mješovita strategija podešavanja koja je zadani izbor u LightAutoML cjevovodu. Za svaki GMB okvir, LightAutoML okvir obučava dva modela: prvi dobiva stručne hiperparametre, drugi je fino podešen kako bi se uklopio u vremenski proračun.
- Podešavanje hiperparametara pretraživanja mreže implementiran je u cjevovodu TabularAutoML za fino podešavanje parametara regulacije linearnog modela uz rano zaustavljanje i toplo pokretanje.
Model podešava sve parametre maksimiziranjem metričke funkcije, definirane od strane korisnika ili je zadana za riješeni zadatak.
LightAutoML : Eksperiment i izvedba
Kako bi se procijenila izvedba, TabularAutoML Preset unutar okvira LightAutoML uspoređuje se s već postojećim rješenjima otvorenog koda u raznim zadacima i učvršćuje superiorne performanse okvira LightAutoML. Prvo, usporedba se provodi na OpenML benchmarku koji se procjenjuje na 35 skupova podataka zadataka binarne i višeklasne klasifikacije. Sljedeća tablica sažima usporedbu okvira LightAutoML s postojećim sustavima AutoML.
Kao što se može vidjeti, okvir LightAutoML nadmašuje sve ostale AutoML sustave na 20 skupova podataka unutar referentne vrijednosti. Sljedeća tablica sadrži detaljnu usporedbu u kontekstu skupa podataka koja pokazuje da LightAutoML pruža različite performanse na različitim klasama zadataka. Za zadatke binarne klasifikacije, LightAutoML zaostaje u izvedbi, dok za zadatke s velikom količinom podataka LightAutoML okvir pruža vrhunske performanse.
Sljedeća tablica uspoređuje izvedbu LightAutoML okvira u odnosu na AutoML sustave na 15 bankovnih skupova podataka koji sadrže skup različitih zadataka binarne klasifikacije. Kao što se može primijetiti, LightAutoML nadmašuje sva AutoML rješenja na 12 od 15 skupova podataka, s postotkom pobjede od 80.
Final Misli
U ovom smo članku govorili o LightAutoML-u, AutoML sustavu prvenstveno razvijenom za europsku tvrtku koja posluje u financijskom sektoru zajedno s njezinim ekosustavom. Okvir LightAutoML raspoređen je u različitim aplikacijama, a rezultati su pokazali vrhunsku izvedbu, usporedivu s razinom podatkovnih znanstvenika, čak i tijekom izgradnje visokokvalitetnih modela strojnog učenja. Okvir LightAutoML pokušava dati sljedeće doprinose. Prvo, okvir LightAutoML prvenstveno je razvijen za ekosustav velike europske financijske i bankarske institucije. Zahvaljujući svom okviru i arhitekturi, okvir LightAutoML može nadmašiti najsuvremenije okvire AutoML u nekoliko otvorenih referentnih vrijednosti kao i aplikacija ekosustava. Performanse okvira LightAutoML također se uspoređuju s modelima koje su ručno podesili znanstvenici za podatke, a rezultati ukazuju na jače performanse okvira LightAutoML.