Mesterséges Intelligencia
LightAutoML: AutoML megoldás egy nagy pénzügyi szolgáltatási ökoszisztémához
Bár az AutoML néhány évvel ezelőtt népszerűvé vált, a kezdeti munka tovább folytatódott Az AutoML a 90-es évek elejére nyúlik vissza amikor a tudósok közzétették az első tanulmányokat a hiperparaméter-optimalizálásról. 2014-ben, amikor az ICML megszervezte az első AutoML workshopot, az AutoML felkeltette az ML fejlesztők figyelmét. Az AutoML évei alatt az egyik fő hangsúly a hiperparaméteres keresési probléma, ahol a modell optimalizálási módszerek tömbjét valósítja meg, hogy meghatározza a legjobban teljesítő hiperparamétereket egy nagy hiperparaméter-térben egy adott gépi tanulási modellhez. Egy másik, az AutoML-modellek által általánosan alkalmazott módszer annak a valószínűsége, hogy egy adott hiperparaméter az adott gépi tanulási modell optimális hiperparamétere legyen. A modell ezt úgy éri el, hogy olyan Bayes-módszereket valósít meg, amelyek hagyományosan a korábban becsült modellekből származó történelmi adatokat és más adatkészleteket használnak. A hiperparaméter-optimalizálás mellett más módszerekkel próbálják kiválasztani a legjobb modelleket a modellezési alternatívák teréből.
Ebben a cikkben a LightAutoML-ről, egy olyan AutoML rendszerről lesz szó, amelyet elsősorban a pénzügyi szektorban tevékenykedő európai vállalat számára fejlesztettek ki ökoszisztémájával együtt. A LightAutoML keretrendszert különféle alkalmazásokban alkalmazzák, és az eredmények kiváló teljesítményt mutattak, amely összehasonlítható az adattudósok szintjével, még kiváló minőségű gépi tanulási modellek készítése közben is. A LightAutoML keretrendszer a következő hozzájárulásokat kísérli meg. Először is, a LightAutoML keretrendszert elsősorban egy nagy európai pénzügyi és bankintézet ökoszisztémája számára fejlesztették ki. Keretrendszerének és architektúrájának köszönhetően a LightAutoML keretrendszer képes felülmúlni a legkorszerűbb AutoML-keretrendszereket számos nyílt benchmark és ökoszisztéma-alkalmazás tekintetében. A LightAutoML keretrendszer teljesítményét az adattudósok által manuálisan hangolt modellekkel is összehasonlítják, és az eredmények a LightAutoML keretrendszer erősebb teljesítményét jelezték.
Ennek a cikknek a célja a LightAutoML keretrendszer részletes bemutatása, és megvizsgáljuk a keretrendszer mechanizmusát, módszertanát, architektúráját, valamint összehasonlítását a legkorszerűbb keretrendszerekkel. Tehát kezdjük.
LightAutoML: Egy AutoML-keretrendszer pénzügyi szolgáltatásokhoz
Bár a kutatók először a 90-es évek közepén és elején kezdtek dolgozni az AutoML-en, az AutoML felkeltette a figyelem nagy részét az elmúlt néhány évben, és az automatikusan épülő gépi tanulási modelleket megvalósító kiemelkedő ipari megoldások közül néhány az Amazon AutoGluon, DarwinAI, H20.ai. , IBM Watson AI, Microsoft AzureML és még sok más. E keretrendszerek többsége általános célú AutoML-megoldást valósít meg, amely automatikusan fejleszt ML-alapú modelleket az alkalmazások különböző osztályaiban a pénzügyi szolgáltatások, az egészségügy, az oktatás és egyebek területén. A horizontális általános megközelítés mögött meghúzódó fő feltételezés az, hogy az automatikus modellek fejlesztési folyamata minden alkalmazásban azonos marad. A LightAutoML keretrendszer azonban vertikális megközelítést valósít meg egy olyan AutoML-megoldás kifejlesztésében, amely nem általános, hanem inkább az egyes alkalmazások, jelen esetben egy nagy pénzintézet igényeit elégíti ki. A LightAutoML keretrendszer egy vertikális AutoML megoldás, amely a komplex ökoszisztéma követelményeire és jellemzőire összpontosít. Először is, a LightAutoML keretrendszer gyors és közel optimális hiperparaméter-keresést biztosít. Bár a modell nem optimalizálja közvetlenül ezeket a hiperparamétereket, kielégítő eredményeket hoz. Ezenkívül a modell megőrzi az egyensúlyt a sebesség és a hiperparaméter-optimalizálás dinamikája között, hogy a modell optimális legyen kisebb problémák esetén, és elég gyors legyen nagyobb problémák esetén. Másodszor, a LightAutoML keretrendszer szándékosan csak két típusra korlátozza a gépi tanulási modellek körét: a lineáris modellekre és a GBM-ekre vagy a gradiens-növelt döntési fákra, ahelyett, hogy különböző algoritmusok nagy csoportjait implementálná. A gépi tanulási modellek tartományának korlátozásának elsődleges oka a LightAutoML keretrendszer végrehajtási idejének felgyorsítása anélkül, hogy negatívan befolyásolná az adott típusú probléma és adat teljesítményét. Harmadszor, a LightAutoML keretrendszer egyedülálló módszert kínál a modellekben használt különböző jellemzők előfeldolgozási sémáinak kiválasztására bizonyos kiválasztási szabályok és metastatisztikák alapján. A LightAutoML keretrendszert a nyílt adatforrások széles skáláján értékelik az alkalmazások széles körében.
LightAutoML: Módszertan és architektúra
A LightAutoML keretrendszer előbeállítások néven ismert modulokból áll, amelyek a tipikus gépi tanulási feladatok végpontok közötti modellfejlesztésére szolgálnak. Jelenleg a LightAutoML keretrendszer támogatja az előre beállított modulokat. Először is, a TabularAutoML Preset a táblázatos adatkészletekben meghatározott klasszikus gépi tanulási problémák megoldására összpontosít. Másodszor, a White-Box Preset olyan egyszerű értelmezhető algoritmusokat valósít meg, mint például a logisztikai regresszió a WoE vagy a Weight of Evidence kódolás helyett, valamint diszkretizált szolgáltatásokat a táblázatos adatok bináris osztályozási feladatainak megoldására. Az egyszerű értelmezhető algoritmusok megvalósítása általános gyakorlat az alkalmazás valószínűségének modellezésére a különböző tényezők által támasztott értelmezhetőségi korlátok miatt. Harmadszor, az NLP Preset képes a táblázatos adatokat NLP-vel ill Természetes nyelvi feldolgozás eszközök, beleértve az előre betanított mély tanulási modelleket és a speciális funkciók kivonóit. Végül a CV Preset néhány alapvető eszköz segítségével képadatokkal dolgozik. Fontos megjegyezni, hogy bár a LightAutoML modell mind a négy előre beállított értéket támogatja, a keretrendszer csak a TabularAutoML-t használja az éles szintű rendszerben.
A LightAutoML keretrendszer tipikus folyamatát a következő kép tartalmazza.
Minden csővezeték három összetevőt tartalmaz. Először is, a Reader, egy objektum, amely a feladattípusokat és a nyers adatokat fogadja bemenetként, döntő fontosságú metaadat-számításokat hajt végre, megtisztítja a kezdeti adatokat, és kitalálja a különböző modellek illesztése előtt végrehajtandó adatmanipulációkat. Ezután a LightAutoML belső adatkészletei CV-iterátorokat és metaadatokat tartalmaznak, amelyek érvényesítési sémákat valósítanak meg az adatkészletekhez. A harmadik összetevő a több gépi tanulási folyamat, amelyek egymásra halmozva és/vagy összekeverve egyetlen előrejelzést kapnak. A LightAutoML keretrendszer architektúráján belüli gépi tanulási folyamat egyike azon több gépi tanulási modellnek, amelyek egyetlen adatellenőrzési és előfeldolgozási sémán osztoznak. Az előfeldolgozási lépés legfeljebb két jellemző kiválasztási lépésből állhat, egy jellemző tervezési lépésből, vagy üres is lehet, ha nincs szükség előfeldolgozásra. Az ML-folyamatokat egymástól függetlenül lehet kiszámítani ugyanazon adatkészleteken, majd átlagolás (vagy súlyozott átlagolás) használatával összekeverhetők. Alternatív megoldásként egy halmozási együttes séma használható többszintű együttes architektúrák felépítésére.
LightAutoML táblázatos előre beállított
A LightAutoML keretrendszeren belül a TabularAutoML az alapértelmezett folyamat, és a modellben háromféle feladat megoldására van megvalósítva táblázatos adatokon: bináris osztályozás, regresszió és többosztályos osztályozás a teljesítménymutatók és veszteségfüggvények széles skálájához. A következő négy oszlopot tartalmazó táblázat: kategorikus jellemzők, numerikus jellemzők, időbélyegek és egyetlen céloszlop osztálycímkékkel vagy folytonos értékkel kerül a TabularAutoML összetevőbe bemenetként. A LightAutoML keretrendszer tervezésének egyik elsődleges célja egy gyors hipotézis-tesztelési eszköz megtervezése volt, ami fő oka annak, hogy a keretrendszer elkerüli a nyers erő módszerek használatát a folyamatok optimalizálásához, és csak azokra a hatékonysági technikákra és modellekre összpontosít adatkészletek széles választéka.
Automatikus gépelés és adat-előfeldolgozás
A különböző típusú jellemzők különböző módon történő kezeléséhez a modellnek ismernie kell az egyes jellemzőtípusokat. Abban az esetben, ha egyetlen feladat van kis adatkészlettel, a felhasználó manuálisan megadhatja az egyes jellemzőtípusokat. Az egyes szolgáltatástípusok kézi megadása azonban már nem járható út olyan helyzetekben, amelyek több száz feladatot tartalmaznak több ezer szolgáltatást tartalmazó adatkészlettel. A TabularAutoML előbeállításhoz a LightAutoML keretrendszernek három osztályba kell leképeznie a funkciókat: numerikus, kategória és dátumidő. Az egyik egyszerű és kézenfekvő megoldás az oszloptömb adattípusok tényleges jellemzőtípusként való használata, azaz a float/int oszlopok leképezése numerikus jellemzőkre, időbélyegzőre vagy karakterláncra, amelyek időbélyegként értelmezhetők – dátumidőre, mások pedig kategóriákra. Ez a leképezés azonban nem a legjobb, mert a kategóriaoszlopokban gyakran előfordulnak numerikus adattípusok.
Érvényesítési sémák
Az érvényesítési sémák az AutoML-keretrendszerek létfontosságú összetevői, mivel az iparágban lévő adatok idővel változhatnak, és ez a változáselem az IID vagy a független azonos elosztású feltételezéseket irrelevánssá teszi a modell fejlesztése során. Az AutoML-modellek érvényesítési sémákat alkalmaznak teljesítményük becslésére, hiperparaméterek keresésére és a hajtáson kívüli előrejelzések generálására. A TabularAutoML folyamat három érvényesítési sémát valósít meg:
- KFold keresztellenőrzés: A KFold Cross Validation az alapértelmezett érvényesítési séma a TabularAutoML folyamathoz, beleértve a GroupKFoldot a viselkedési modellekhez és a rétegzett KFoldot az osztályozási feladatokhoz.
- Holdout érvényesítése: A Holdout érvényesítési séma akkor valósul meg, ha a Holdout halmaz meg van adva.
- Egyéni érvényesítési sémák: Egyéni érvényesítési sémákat a felhasználók egyéni igényeiktől függően hozhatnak létre. Az egyéni érvényesítési sémák keresztellenőrzést és idősoros felosztási sémákat tartalmaznak.
Funkció kiválasztása
Bár a jellemzők kiválasztása az iparági szabványok szerint kulcsfontosságú szempont a modellek fejlesztésében, mivel elősegíti a következtetések és a modell megvalósítási költségeinek csökkentését, az AutoML-megoldások többsége nem összpontosít erre a problémára. Éppen ellenkezőleg, a TabularAutoML folyamat három jellemzőkiválasztási stratégiát valósít meg: Nincs kijelölés, A fontosság szerinti kijelölés és a fontosság alapú előre kijelölés. A három közül a fontosság levágott kijelölési jellemző kiválasztási stratégia az alapértelmezett. Ezen túlmenően a jellemzők fontosságának becslésének két elsődleges módja van: a felosztás alapú fa fontossága és a GBM-modell permutációjának fontossága vagy a gradiens növelése. döntési fák. A fontossági határok kiválasztásának elsődleges célja a modell számára nem hasznos tulajdonságok elutasítása, lehetővé téve a modell számára, hogy csökkentse a jellemzők számát anélkül, hogy negatívan befolyásolná a teljesítményt, ami felgyorsíthatja a modell következtetését és betanítását.
A fenti kép a bináris banki adatkészletek különböző kiválasztási stratégiáit hasonlítja össze.
Hiperparaméter hangolás
A TabularAutoML folyamat különböző megközelítéseket valósít meg a hiperparaméterek hangolására a hangolás alapján.
- Hiperparaméterek korai leállítása kiválasztja az iterációk számát az összes modellhez a betanítási szakaszban.
- Szakértői rendszerhiperparaméter-hangolás egy egyszerű módja a modellek hiperparamétereinek megfelelő beállításának. Megakadályozza, hogy a végső modell jelentősen csökkenjen a pontszámban a keményen hangolt modellekhez képest.
- Fa strukturált Parzen becslés vagy TPE GBM vagy gradiens-növelt döntési fa modellekhez. A TPE egy vegyes hangolási stratégia, amely az alapértelmezett választás a LightAutoML folyamatban. A LightAutoML keretrendszer minden GMB-keretrendszerhez két modellt képez: az első szakértői hiperparamétereket kap, a második pedig finomhangolásra kerül, hogy beleférjen az időkeretbe.
- Grid Search hiperparaméter hangolás A TabularAutoML folyamatban van megvalósítva, hogy finomhangolja a lineáris modell szabályzási paramétereit a korai leállítás és melegindítás mellett.
A modell a metrikus függvény maximalizálásával hangolja az összes paramétert, akár a felhasználó által definiált, akár az alapértelmezett feladat a megoldott feladathoz.
LightAutoML: Kísérlet és teljesítmény
A teljesítmény értékeléséhez a LightAutoML keretrendszeren belüli TabularAutoML Preset-et összehasonlítják a már meglévő nyílt forráskódú megoldásokkal a különböző feladatok során, és megerősítik a LightAutoML keretrendszer kiváló teljesítményét. Először is, az összehasonlítást az OpenML benchmarkon végezzük, amelyet 35 bináris és többosztályos osztályozási feladatadatkészleten értékelnek ki. Az alábbi táblázat összefoglalja a LightAutoML keretrendszer összehasonlítását a meglévő AutoML rendszerekkel.
Amint látható, a LightAutoML keretrendszer a benchmarkon belüli 20 adatkészleten felülmúlja az összes többi AutoML rendszert. A következő táblázat részletes összehasonlítást tartalmaz az adatkészlet-környezetben, jelezve, hogy a LightAutoML eltérő teljesítményt nyújt a különböző feladatosztályokon. A bináris osztályozási feladatoknál a LightAutoML teljesítménye elmarad, míg a nagy mennyiségű adatot tartalmazó feladatokhoz a LightAutoML keretrendszer kiváló teljesítményt nyújt.
Az alábbi táblázat összehasonlítja a LightAutoML keretrendszer teljesítményét az AutoML rendszerekkel 15 banki adatkészleten, amelyek különféle bináris osztályozási feladatokat tartalmaznak. Mint látható, a LightAutoML minden AutoML-megoldást felülmúl a 12 adatkészletből 15-nél, ami 80-as győzelmi százalékot jelent.
Záró gondolatok
Ebben a cikkben szót ejtettünk a LightAutoML-ről, egy AutoML rendszerről, amelyet elsősorban a pénzügyi szektorban tevékenykedő európai vállalat számára fejlesztettek ki annak ökoszisztémájával együtt. A LightAutoML keretrendszert különféle alkalmazásokban alkalmazzák, és az eredmények kiváló teljesítményt mutattak, amely összehasonlítható az adattudósok szintjével, még kiváló minőségű gépi tanulási modellek készítése közben is. A LightAutoML keretrendszer a következő hozzájárulásokat kísérli meg. Először is, a LightAutoML keretrendszert elsősorban egy nagy európai pénzügyi és bankintézet ökoszisztémája számára fejlesztették ki. Keretrendszerének és architektúrájának köszönhetően a LightAutoML keretrendszer képes felülmúlni a legkorszerűbb AutoML-keretrendszereket számos nyílt benchmark és ökoszisztéma-alkalmazás tekintetében. A LightAutoML keretrendszer teljesítményét az adattudósok által manuálisan hangolt modellekkel is összehasonlítják, és az eredmények a LightAutoML keretrendszer erősebb teljesítményét jelezték.