Liity verkostomme!

Tekoäly

LightAutoML: AutoML-ratkaisu suurelle rahoituspalveluekosysteemille

mm
Päivitetty on

Vaikka AutoML nousi suosioon muutama vuosi sitten, varhainen työ jatkui AutoML juontaa juurensa 90-luvun alkupuolelle kun tutkijat julkaisivat ensimmäiset paperit hyperparametrien optimoinnista. Vuonna 2014 ICML järjesti ensimmäisen AutoML-työpajan, jolloin AutoML sai ML-kehittäjien huomion. Yksi AutoML:n vuosien tärkeimmistä painopisteistä on hyperparametrihakuongelma, jossa malli toteuttaa joukon optimointimenetelmiä määrittääkseen parhaiten suoriutuvat hyperparametrit suuressa hyperparametritilassa tietylle koneoppimismallille. Toinen AutoML-malleissa yleisesti käytetty menetelmä on arvioida todennäköisyys, että tietty hyperparametri on optimaalinen hyperparametri tietylle koneoppimismallille. Malli saavuttaa tämän toteuttamalla Bayesin menetelmiä, jotka perinteisesti käyttävät historiallisia tietoja aiemmin arvioiduista malleista ja muista tietojoukoista. Hyperparametrioptimoinnin lisäksi muilla menetelmillä pyritään valitsemaan parhaat mallit mallinnusvaihtoehtojen tilasta. 

Tässä artikkelissa käsittelemme LightAutoML-järjestelmää, AutoML-järjestelmää, joka on kehitetty ensisijaisesti finanssialalla toimivalle eurooppalaiselle yritykselle sen ekosysteemin kanssa. LightAutoML-kehystä käytetään useissa sovelluksissa, ja tulokset osoittivat ylivertaista suorituskykyä, joka on verrattavissa datatieteilijöiden tasoon, jopa laadukkaita koneoppimismalleja rakennettaessa. LightAutoML-kehys yrittää tehdä seuraavat panokset. Ensinnäkin LightAutoML-kehys kehitettiin ensisijaisesti suuren eurooppalaisen rahoitus- ja pankkilaitoksen ekosysteemiä varten. Kehyksensä ja arkkitehtuurinsa ansiosta LightAutoML-kehys pystyy ylittämään uusimmat AutoML-kehykset useissa avoimissa vertailuissa sekä ekosysteemisovelluksissa. LightAutoML-kehyksen suorituskykyä verrataan myös datatieteilijöiden manuaalisesti virittämiin malleihin, ja tulokset osoittivat LightAutoML-kehyksen tehokkaamman suorituskyvyn. 

Tämän artikkelin tarkoituksena on kattaa LightAutoML-kehys perusteellisesti, ja tutkimme mekanismia, metodologiaa, kehyksen arkkitehtuuria sekä sen vertailua uusimpien kehysten kanssa. Joten aloitetaan. 

LightAutoML: AutoML-kehys rahoituspalveluille

Vaikka tutkijat aloittivat työskentelyn AutoML:n parissa ensimmäisen kerran 90-luvun puolivälissä ja alussa, AutoML on herättänyt suuren osan huomiosta viime vuosien aikana. Eräitä automaattisesti rakennettavia koneoppimismalleja toteuttavia merkittäviä teollisia ratkaisuja ovat Amazonin AutoGluon, DarwinAI, H20.ai. , IBM Watson AI, Microsoft AzureML ja paljon muuta. Suurin osa näistä viitekehyksestä toteuttaa yleiskäyttöisen AutoML-ratkaisun, joka kehittää ML-pohjaisia ​​malleja automaattisesti eri sovelluksissa rahoituspalveluissa, terveydenhuollossa, koulutuksessa ja muissa sovelluksissa. Tämän horisontaalisen yleisen lähestymistavan taustalla oleva keskeinen oletus on, että automaattisten mallien kehitysprosessi pysyy samana kaikissa sovelluksissa. LightAutoML-kehys kuitenkin toteuttaa vertikaalisen lähestymistavan kehittääkseen AutoML-ratkaisua, joka ei ole yleinen, vaan vastaa yksittäisten sovellusten, tässä tapauksessa suuren rahoituslaitoksen, tarpeita. LightAutoML-kehys on vertikaalinen AutoML-ratkaisu, joka keskittyy monimutkaisen ekosysteemin vaatimuksiin sen ominaisuuksineen. Ensinnäkin LightAutoML-kehys tarjoaa nopean ja lähes optimaalisen hyperparametrihaun. Vaikka malli ei optimoi näitä hyperparametreja suoraan, se onnistuu tuottamaan tyydyttäviä tuloksia. Lisäksi malli säilyttää tasapainon nopeuden ja hyperparametrien optimoinnin välillä dynaamisena varmistaakseen, että malli on optimaalinen pienissä ongelmissa ja riittävän nopea isommissa ongelmissa. Toiseksi LightAutoML-kehys rajoittaa koneoppimismallien valikoiman tarkoituksenmukaisesti vain kahteen tyyppiin: lineaarisiin malleihin ja GBM:ihin tai gradienttitehostettuihin päätöspuihin sen sijaan, että se toteuttaisi suuria eri algoritmien ryhmiä. Ensisijainen syy koneoppimismallien valikoiman rajoittamiseen on nopeuttaa LightAutoML-kehyksen suoritusaikaa vaikuttamatta negatiivisesti tietyntyyppisen ongelman ja datan suorituskykyyn. Kolmanneksi LightAutoML-kehys esittelee ainutlaatuisen menetelmän valita esikäsittelymallit malleissa käytetyille eri ominaisuuksille tiettyjen valintasääntöjen ja metatilastojen perusteella. LightAutoML-kehystä arvioidaan laajalla valikoimalla avoimia tietolähteitä monenlaisissa sovelluksissa. 

LightAutoML: Metodologia ja arkkitehtuuri

LightAutoML-kehys koostuu esiasetuksista tunnetuista moduuleista, jotka on omistettu tyypillisten koneoppimistehtävien mallinkehitykseen. Tällä hetkellä LightAutoML-kehys tukee Preset-moduuleja. Ensinnäkin TabularAutoML-esiasetus keskittyy klassisten koneoppimisongelmien ratkaisemiseen, jotka on määritelty taulukkotietojoukoissa. Toiseksi White-Box Preset toteuttaa yksinkertaisia ​​tulkittavia algoritmeja, kuten Logistic Regression WoE- tai Weight of Evidence-koodauksen sijaan, ja diskretisoidut ominaisuudet ratkaisemaan taulukkotiedon binääriluokittelutehtäviä. Yksinkertaisten tulkittavien algoritmien toteuttaminen on yleinen käytäntö mallintaa sovelluksen todennäköisyyttä eri tekijöiden aiheuttamien tulkintarajoitusten vuoksi. Kolmanneksi NLP-esiasetus pystyy yhdistämään taulukkomuotoiset tiedot NLP- tai NLP:n kanssa Luonnollinen kielen käsittely työkaluja, mukaan lukien valmiiksi koulutetut syväoppimismallit ja erityisten ominaisuuksien poimijat. Lopuksi CV Preset toimii kuvatietojen kanssa joidenkin perustyökalujen avulla. On tärkeää huomata, että vaikka LightAutoML-malli tukee kaikkia neljää esiasetusta, kehys käyttää vain TabularAutoML:ää tuotantotason järjestelmässä. 

LightAutoML-kehyksen tyypillinen liukuhihna sisältyy seuraavaan kuvaan. 

Jokainen putki sisältää kolme komponenttia. Ensinnäkin Reader, objekti, joka vastaanottaa tehtävätyypin ja raakadataa syötteenä, suorittaa tärkeitä metatietolaskelmia, puhdistaa alkutiedot ja selvittää suoritettavat tietojen käsittelyt ennen eri mallien sovittamista. Seuraavaksi LightAutoML:n sisäiset tietojoukot sisältävät CV-iteraattoreita ja metatietoja, jotka toteuttavat tietojoukkojen validointimalleja. Kolmas komponentti ovat useita koneoppimisputkia, jotka on pinottu ja/tai sekoitettu yhden ennusteen saamiseksi. LightAutoML-kehyksen arkkitehtuurin koneoppimisputki on yksi useista koneoppimismalleista, jotka jakavat yhden datan validointi- ja esikäsittelymenetelmän. Esikäsittelyvaiheessa voi olla enintään kaksi ominaisuuden valintavaihetta, ominaisuuden suunnitteluvaihe tai se voi olla tyhjä, jos esikäsittelyä ei tarvita. ML-liukuhihnat voidaan laskea itsenäisesti samoista tietojoukoista ja sitten sekoittaa yhteen käyttämällä keskiarvoista (tai painotettua keskiarvoa). Vaihtoehtoisesti voidaan käyttää pinoamiskokonaisuuskaaviota monitasoisten kokonaisuusarkkitehtuurien rakentamiseen. 

LightAutoML-taulukko-esiasetus

LightAutoML-kehyksessä TabularAutoML on oletusliukuhihna, ja se on toteutettu mallissa ratkaisemaan kolmen tyyppisiä tehtäviä taulukkotiedoilla: binääriluokitus, regressio ja moniluokkainen luokittelu laajalle valikoimalle suorituskykymittareita ja häviöfunktioita. Taulukko, jossa on seuraavat neljä saraketta: kategorialliset ominaisuudet, numeeriset ominaisuudet, aikaleimat ja yksi kohdesarake, jossa on luokkatunnisteet tai jatkuva arvo, syötetään TabularAutoML-komponenttiin syötteenä. Yksi LightAutoML-kehyksen suunnittelun tärkeimmistä tavoitteista oli suunnitella työkalu nopeaan hypoteesien testaamiseen, mikä on tärkeä syy siihen, miksi viitekehyksessä vältetään raakavoimamenetelmien käyttöä putkilinjan optimointiin ja keskitytään vain tehokkuustekniikoihin ja malleihin, jotka toimivat kaikissa laaja valikoima tietojoukkoja. 

Automaattinen kirjoittaminen ja tietojen esikäsittely

Jotta erityyppisiä ominaisuuksia voidaan käsitellä eri tavoin, mallin on tunnettava jokainen ominaisuustyyppi. Tilanteessa, jossa on yksi tehtävä pienellä tietojoukolla, käyttäjä voi määrittää manuaalisesti jokaisen ominaisuustyypin. Kunkin ominaisuustyypin määrittäminen manuaalisesti ei kuitenkaan ole enää käyttökelpoinen vaihtoehto tilanteissa, joissa on satoja tehtäviä, joiden tietojoukot sisältävät tuhansia ominaisuuksia. TabularAutoML-esiasetusta varten LightAutoML-kehyksen on määritettävä ominaisuudet kolmeen luokkaan: numeerinen, luokka ja päivämäärä-aika. Yksi yksinkertainen ja ilmeinen ratkaisu on käyttää saraketaulukon tietotyyppejä varsinaisina ominaisuustyypeinä, eli kartoittaa float/int-sarakkeet numeerisiin ominaisuuksiin, aikaleimaan tai merkkijonoon, jotka voidaan jäsentää aikaleimaksi - päivämäärä-aikaan ja muut luokkaan. Tämä kartoitus ei kuitenkaan ole paras, koska luokkasarakkeissa esiintyy usein numeerisia tietotyyppejä. 

Validointijärjestelmät

Validointijärjestelmät ovat olennainen osa AutoML-kehystä, koska alan tiedot voivat muuttua ajan myötä, ja tämä muutoselementti tekee IID:stä tai itsenäisestä identtisesti jakautuneesta olettamuksesta merkityksettömiä mallia kehitettäessä. AutoML-malleissa käytetään validointimenetelmiä niiden suorituskyvyn arvioimiseen, hyperparametrien etsimiseen ja ennusteiden luomiseen. TabularAutoML-liukuhihna toteuttaa kolme validointimallia:

  • KFold Cross Validation: KFold Cross Validation on oletustarkistusmalli TabularAutoML-liukuhihnalle, mukaan lukien GroupKFold käyttäytymismalleille ja kerrostettu KFold luokitustehtäville. 
  • Holdoutin validointi: Holdout-validointimalli otetaan käyttöön, jos holdout-joukko on määritetty. 
  • Mukautetut vahvistusjärjestelmät: Käyttäjät voivat luoda mukautettuja validointijärjestelmiä yksilöllisten vaatimustensa mukaan. Mukautetut vahvistusjärjestelmät sisältävät ristiinvahvistuksen ja aikasarjan jakamisen järjestelmät. 

Ominaisuuksien valinta

Vaikka ominaisuuksien valinta on olennainen osa mallien kehittämistä alan standardien mukaisesti, koska se helpottaa päättely- ja mallin käyttöönottokustannusten alentamista, suurin osa AutoML-ratkaisuista ei kiinnitä paljon huomiota tähän ongelmaan. Päinvastoin, TabularAutoML-liukuhihna toteuttaa kolme ominaisuuden valintastrategiaa: Ei valintaa, Tärkeysrajauksen valinta ja Tärkeyspohjainen eteenpäinvalinta. Näistä kolmesta tärkeysrajauksen valinnan ominaisuuden valintastrategia on oletusarvoinen. Lisäksi on kaksi ensisijaista tapaa arvioida ominaisuuden tärkeyttä: split-pohjainen puun tärkeys ja GBM-mallin tai gradientin tehostetun permutoinnin tärkeys päätöksentekopuut. Tärkeysrajauksen valinnan ensisijainen tavoite on hylätä ominaisuuksia, jotka eivät ole hyödyllisiä mallille, jolloin malli voi vähentää ominaisuuksien määrää vaikuttamatta suorituskykyyn negatiivisesti, mikä saattaa nopeuttaa mallin päättelyä ja harjoittelua. 

Yllä oleva kuva vertailee erilaisia ​​valintastrategioita binääripankkitietojoukoissa. 

Hyperparametrien viritys

TabularAutoML-liukuhihna toteuttaa erilaisia ​​lähestymistapoja hyperparametrien virittämiseen viritettävän perusteella. 

  • Hyperparametrien varhainen pysäytys valitsee iteraatioiden määrän kaikille malleille koulutusvaiheen aikana. 
  • Asiantunteva järjestelmän hyperparametrien viritys on yksinkertainen tapa asettaa hyperparametrit malleille tyydyttävällä tavalla. Se estää lopullisen mallin pistemäärän suuren laskun kovaviritetyihin malleihin verrattuna.
  • Tree Structured Parzen Estimation tai TPE GBM- tai gradienttitehostetuille päätöspuumalleille. TPE on sekoitettu viritysstrategia, joka on LightAutoML-liukuhihnan oletusvalinta. LightAutoML-kehys kouluttaa jokaista GMB-kehystä varten kaksi mallia: ensimmäinen saa asiantuntevat hyperparametrit, toinen hienosäädetään sopivaksi aikabudjettiin. 
  • Ruudukkohaun hyperparametrien viritys on toteutettu TabularAutoML-liukuhihnassa hienosäätämään lineaarisen mallin regularisointiparametreja aikaisen pysäytyksen ja lämpimän käynnistyksen ohella. 

Malli virittää kaikki parametrit maksimoimalla metriikkafunktion, joko käyttäjän määrittelemän tai oletusarvona ratkaistulle tehtävälle. 

LightAutoML: Kokeilu ja suorituskyky

Suorituskyvyn arvioimiseksi LightAutoML-kehyksen TabularAutoML-esiasetusta verrataan jo olemassa oleviin avoimen lähdekoodin ratkaisuihin useissa eri tehtävissä, ja se vahvistaa LightAutoML-kehyksen ylivertaista suorituskykyä. Ensin vertailu suoritetaan OpenML-benchmarkilla, joka arvioidaan 35 binääri- ja moniluokkaisen luokittelutehtävätietojoukon perusteella. Seuraavassa taulukossa on yhteenveto LightAutoML-kehyksen vertailusta olemassa oleviin AutoML-järjestelmiin. 

Kuten voidaan nähdä, LightAutoML-kehys ylittää kaikki muut AutoML-järjestelmät vertailun 20 tietojoukossa. Seuraava taulukko sisältää yksityiskohtaisen vertailun tietojoukkokontekstissa, mikä osoittaa, että LightAutoML tarjoaa eri suorituskyvyn eri tehtäväluokissa. Binääriluokittelutehtävissä LightAutoML on suorituskyvyltään heikko, kun taas tehtävissä, joissa on paljon dataa, LightAutoML-kehys tarjoaa erinomaisen suorituskyvyn.

Seuraavassa taulukossa verrataan LightAutoML-kehyksen suorituskykyä AutoML-järjestelmiin 15 pankkitietojoukossa, jotka sisältävät joukon erilaisia ​​binääriluokittelutehtäviä. Kuten voidaan havaita, LightAutoML ylittää kaikki AutoML-ratkaisut 12:ssa 15:stä tietojoukosta, voittoprosentti on 80. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet LightAutoML:stä, AutoML-järjestelmästä, joka on kehitetty ensisijaisesti finanssisektorilla toimivalle eurooppalaiselle yritykselle ekosysteemin ohella. LightAutoML-kehystä käytetään useissa sovelluksissa, ja tulokset osoittivat ylivertaista suorituskykyä, joka on verrattavissa datatieteilijöiden tasoon, jopa laadukkaita koneoppimismalleja rakennettaessa. LightAutoML-kehys yrittää tehdä seuraavat panokset. Ensinnäkin LightAutoML-kehys kehitettiin ensisijaisesti suuren eurooppalaisen rahoitus- ja pankkilaitoksen ekosysteemiä varten. Kehyksensä ja arkkitehtuurinsa ansiosta LightAutoML-kehys pystyy ylittämään uusimmat AutoML-kehykset useissa avoimissa vertailuissa sekä ekosysteemisovelluksissa. LightAutoML-kehyksen suorituskykyä verrataan myös datatieteilijöiden manuaalisesti virittämiin malleihin, ja tulokset osoittivat LightAutoML-kehyksen tehokkaamman suorituskyvyn. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.