Verbind je met ons

Artificial Intelligence

LightAutoML: AutoML-oplossing voor een groot ecosysteem voor financiële diensten

mm
Bijgewerkt on

Hoewel AutoML een paar jaar geleden populair werd, werken de ealy door AutoML dateert uit het begin van de jaren 90 toen wetenschappers de eerste artikelen over hyperparameteroptimalisatie publiceerden. Toen ICML in 2014 de eerste AutoML-workshop organiseerde, trok AutoML de aandacht van ML-ontwikkelaars. Een van de belangrijkste aandachtspunten door de jaren heen van AutoML is het hyperparameter-zoekprobleem, waarbij het model een reeks optimalisatiemethoden implementeert om de best presterende hyperparameters in een grote hyperparameterruimte voor een bepaald machine learning-model te bepalen. Een andere methode die gewoonlijk door AutoML-modellen wordt geïmplementeerd, is het schatten van de waarschijnlijkheid dat een bepaalde hyperparameter de optimale hyperparameter is voor een bepaald machine learning-model. Het model bereikt dit door Bayesiaanse methoden te implementeren die traditioneel gebruik maken van historische gegevens uit eerder geschatte modellen en andere datasets. Naast hyperparameteroptimalisatie proberen andere methoden de beste modellen te selecteren uit een ruimte van modelleringsalternatieven. 

In dit artikel bespreken we LightAutoML, een AutoML-systeem dat voornamelijk is ontwikkeld voor een Europees bedrijf dat samen met zijn ecosysteem actief is in de financiële sector. Het LightAutoML-framework wordt in verschillende applicaties ingezet en de resultaten laten superieure prestaties zien, vergelijkbaar met het niveau van datawetenschappers, zelfs bij het bouwen van hoogwaardige machine learning-modellen. Het LightAutoML-framework probeert de volgende bijdragen te leveren. Ten eerste werd het LightAutoML-framework primair ontwikkeld voor het ecosysteem van een grote Europese financiële en bancaire instelling. Dankzij zijn raamwerk en architectuur kan het LightAutoML-framework beter presteren dan de modernste AutoML-frameworks in verschillende open benchmarks en ecosysteemtoepassingen. De prestaties van het LightAutoML-framework worden ook vergeleken met modellen die handmatig zijn afgestemd door datawetenschappers, en de resultaten wezen op sterkere prestaties van het LightAutoML-framework. 

Dit artikel heeft tot doel het LightAutoML-framework diepgaand te behandelen, en we onderzoeken het mechanisme, de methodologie en de architectuur van het framework, samen met de vergelijking ervan met de modernste frameworks. Dus laten we beginnen. 

LightAutoML: een AutoML-framework voor financiële diensten

Hoewel onderzoekers halverwege en begin jaren negentig voor het eerst aan AutoML begonnen te werken, trok AutoML de afgelopen jaren een groot deel van de aandacht, waarbij enkele van de prominente industriële oplossingen die automatisch gebouwde Machine Learning-modellen implementeren, Amazon's AutoGluon, DarwinAI, H90.ai zijn. , IBM Watson AI, Microsoft AzureML en nog veel meer. Het merendeel van deze raamwerken implementeert een AutoML-oplossing voor algemene doeleinden die automatisch op ML gebaseerde modellen ontwikkelt voor verschillende klassen van toepassingen in de financiële dienstverlening, de gezondheidszorg, het onderwijs en meer. De belangrijkste aanname achter deze horizontale generieke benadering is dat het proces van het ontwikkelen van automatische modellen voor alle toepassingen identiek blijft. Het LightAutoML-framework implementeert echter een verticale aanpak om een ​​AutoML-oplossing te ontwikkelen die niet generiek is, maar eerder tegemoetkomt aan de behoeften van individuele applicaties, in dit geval een grote financiële instelling. Het LightAutoML-framework is een verticale AutoML-oplossing die zich richt op de vereisten van het complexe ecosysteem en de kenmerken ervan. Ten eerste biedt het LightAutoML-framework een snelle en vrijwel optimale zoekopdracht naar hyperparameters. Hoewel het model deze hyperparameters niet rechtstreeks optimaliseert, slaagt het er wel in bevredigende resultaten op te leveren. Bovendien houdt het model de balans tussen snelheid en hyperparameteroptimalisatie dynamisch, om ervoor te zorgen dat het model optimaal is voor kleine problemen, en snel genoeg voor grotere problemen. Ten tweede beperkt het LightAutoML-framework het bereik van machine learning-modellen doelbewust tot slechts twee typen: lineaire modellen en GBM's of gradiënt-versterkte beslissingsbomen, in plaats van grote ensembles van verschillende algoritmen te implementeren. De belangrijkste reden achter het beperken van het bereik van machine learning-modellen is het versnellen van de uitvoeringstijd van het LightAutoML-framework zonder de prestaties negatief te beïnvloeden voor het gegeven type probleem en gegevens. Ten derde presenteert het LightAutoML-framework een unieke methode voor het kiezen van voorverwerkingsschema's voor verschillende functies die in de modellen worden gebruikt op basis van bepaalde selectieregels en metastatistieken. Het LightAutoML-framework wordt geëvalueerd op een breed scala aan open databronnen in een breed scala aan toepassingen. 

LightAutoML: Methodologie en architectuur

Het LightAutoML-framework bestaat uit modules die bekend staan ​​als Presets en die zijn bedoeld voor end-to-end modelontwikkeling voor typische machine learning-taken. Momenteel ondersteunt het LightAutoML-framework Preset-modules. Ten eerste richt de TabularAutoML Preset zich op het oplossen van klassieke machine learning-problemen die zijn gedefinieerd op tabellarische datasets. Ten tweede implementeert de White-Box Preset eenvoudig interpreteerbare algoritmen zoals logistieke regressie in plaats van WoE of Weight of Evidence-codering en gediscretiseerde functies om binaire classificatietaken op tabelgegevens op te lossen. Het implementeren van eenvoudig interpreteerbare algoritmen is een gebruikelijke praktijk om de waarschijnlijkheid van een toepassing te modelleren vanwege de interpreteerbaarheidsbeperkingen die door verschillende factoren worden veroorzaakt. Ten derde is de NLP Preset in staat tabelgegevens te combineren met NLP of Natural Language Processing tools, waaronder vooraf getrainde deep learning-modellen en specifieke feature-extractors. Ten slotte werkt de CV Preset met beeldgegevens met behulp van enkele basishulpmiddelen. Het is belangrijk op te merken dat hoewel het LightAutoML-model alle vier de voorinstellingen ondersteunt, het raamwerk alleen de TabularAutoML gebruikt in het systeem op productieniveau. 

De typische pijplijn van het LightAutoML-framework is opgenomen in de volgende afbeelding. 

Elke pijpleiding bevat drie componenten. Ten eerste voert Reader, een object dat taaktype en ruwe gegevens als invoer ontvangt, cruciale metadataberekeningen uit, ruimt de initiële gegevens op en berekent de gegevensmanipulaties die moeten worden uitgevoerd voordat verschillende modellen worden aangepast. Vervolgens bevatten de interne datasets van LightAutoML CV-iterators en metadata die validatieschema's voor de datasets implementeren. Het derde onderdeel zijn de meerdere machine learning-pijplijnen die zijn gestapeld en/of gemengd om één enkele voorspelling te krijgen. Een machine learning-pijplijn binnen de architectuur van het LightAutoML-framework is een van de meerdere machine learning-modellen die één enkel gegevensvalidatie- en voorverwerkingsschema delen. De voorverwerkingsstap kan maximaal twee stappen voor kenmerkselectie bevatten, een kenmerkontwerpstap, of kan leeg zijn als er geen voorverwerking nodig is. De ML-pijplijnen kunnen onafhankelijk worden berekend op basis van dezelfde datasets en vervolgens worden samengevoegd met behulp van middeling (of gewogen middeling). Als alternatief kan een stapelingsensemble-schema worden gebruikt om ensemble-architecturen op meerdere niveaus te bouwen. 

Tabelvormige voorinstelling LightAutoML

Binnen het LightAutoML-framework is TabularAutoML de standaardpijplijn en deze wordt in het model geïmplementeerd om drie soorten taken op het gebied van tabelgegevens op te lossen: binaire classificatie, regressie en classificatie met meerdere klassen voor een breed scala aan prestatiestatistieken en verliesfuncties. Een tabel met de volgende vier kolommen: categorische kenmerken, numerieke kenmerken, tijdstempels en een enkele doelkolom met klasselabels of continue waarde wordt als invoer naar de component TabularAutoML gevoerd. Een van de belangrijkste doelstellingen achter het ontwerp van het LightAutoML-framework was het ontwerpen van een tool voor het snel testen van hypothesen, een belangrijke reden waarom het framework het gebruik van brute-force-methoden voor pijplijnoptimalisatie vermijdt, en zich alleen richt op efficiëntietechnieken en -modellen die over een bepaald gebied werken. breed scala aan datasets. 

Automatisch typen en gegevensvoorverwerking

Om verschillende typen features op verschillende manieren te kunnen verwerken, moet het model elk featuretype kennen. In de situatie waarin er één taak is met een kleine dataset, kan de gebruiker elk featuretype handmatig specificeren. Het handmatig specificeren van elk featuretype is echter niet langer een haalbare optie in situaties waarin honderden taken voorkomen met datasets die duizenden features bevatten. Voor de TabularAutoML Preset moet het LightAutoML-framework functies in drie klassen toewijzen: numeriek, categorie en datetime. Een eenvoudige en voor de hand liggende oplossing is om kolomarraygegevenstypen te gebruiken als daadwerkelijke objecttypen, dat wil zeggen om float/int-kolommen toe te wijzen aan numerieke objecten, tijdstempel of string, die kunnen worden geparseerd als een tijdstempel - naar datetime, en andere naar categorie. Deze toewijzing is echter niet de beste vanwege het veelvuldig voorkomen van numerieke gegevenstypen in categoriekolommen. 

Validatieschema's

Validatieschema's zijn een essentieel onderdeel van AutoML-frameworks, omdat gegevens in de branche in de loop van de tijd aan verandering onderhevig zijn, en dit element van verandering maakt IID- of Independent Identical Distributed-aannames irrelevant bij de ontwikkeling van het model. AutoML-modellen maken gebruik van validatieschema's om hun prestaties te schatten, naar hyperparameters te zoeken en ongewone voorspellingen te genereren. De TabularAutoML-pijplijn implementeert drie validatieschema's:

  • KFold-kruisvalidatie: KFold Cross Validation is het standaardvalidatieschema voor de TabularAutoML-pijplijn, inclusief GroupKFold voor gedragsmodellen en gestratificeerde KFold voor classificatietaken. 
  • Holdout-validatie: Het Holdout-validatieschema wordt geïmplementeerd als de holdout-set is opgegeven. 
  • Aangepaste validatieschema's: Aangepaste validatieschema's kunnen door gebruikers worden gemaakt, afhankelijk van hun individuele vereisten. Aangepaste validatieschema's omvatten kruisvalidatie en gesplitste schema's voor tijdreeksen. 

Functieselectie

Hoewel functieselectie een cruciaal aspect is bij het ontwikkelen van modellen volgens industriestandaarden, omdat het de reductie van gevolgtrekkingen en modelimplementatiekosten mogelijk maakt, richt een meerderheid van AutoML-oplossingen zich niet veel op dit probleem. Integendeel, de TabularAutoML-pijplijn implementeert drie strategieën voor functieselectie: geen selectie, op belangrijkheid afgesneden selectie en op belangrijkheid gebaseerde voorwaartse selectie. Van de drie is de selectiestrategie voor het afsnijden van de selectiefunctie standaard. Bovendien zijn er twee primaire manieren om het belang van een kenmerk in te schatten: het belang van de op splitsbasis gebaseerde boom, en het belang van de permutatie van het GBM-model of van een versterkte gradiënt. Beslissingsbomen. Het primaire doel van de selectie van de belangrijkheidsgrens is het afwijzen van kenmerken die niet nuttig zijn voor het model, waardoor het model het aantal kenmerken kan verminderen zonder de prestaties negatief te beïnvloeden, een aanpak die de gevolgtrekking en training van modellen zou kunnen versnellen. 

De bovenstaande afbeelding vergelijkt verschillende selectiestrategieën op binaire bankdatasets. 

Hyperparameter afstemmen

De TabularAutoML-pijplijn implementeert verschillende benaderingen om hyperparameters af te stemmen op basis van wat is afgestemd. 

  • Vroegtijdig stoppen van hyperparameterafstemming selecteert het aantal iteraties voor alle modellen tijdens de trainingsfase. 
  • Expertsysteem-hyperparameterafstemming is een eenvoudige manier om hyperparameters voor modellen op een bevredigende manier in te stellen. Het voorkomt dat het uiteindelijke model een hoge scoredaling vertoont in vergelijking met nauwkeurig afgestemde modellen.
  • Boomgestructureerde Parzen-schatting of TPE voor GBM- of gradiëntversterkte beslissingsboommodellen. TPE is een gemengde afstemmingsstrategie die de standaardkeuze is in de LightAutoML-pijplijn. Voor elk GMB-framework traint het LightAutoML-framework twee modellen: het eerste krijgt deskundige hyperparameters, het tweede wordt verfijnd om binnen het tijdsbudget te passen. 
  • Raster zoeken Hyperparameter afstemmen is geïmplementeerd in de TabularAutoML-pijplijn om de regularisatieparameters van een lineair model te verfijnen, naast vroeg stoppen en warme start. 

Het model stemt alle parameters af door de metrische functie te maximaliseren, hetzij gedefinieerd door de gebruiker, hetzij standaard voor de opgeloste taak. 

LightAutoML: experiment en prestaties

Om de prestaties te evalueren, wordt de TabularAutoML Preset binnen het LightAutoML-framework vergeleken met reeds bestaande open source-oplossingen voor verschillende taken, en wordt de superieure prestatie van het LightAutoML-framework bevestigd. Eerst wordt de vergelijking uitgevoerd op de OpenML-benchmark die wordt geëvalueerd op basis van 35 binaire en multiclass classificatietaakdatasets. De volgende tabel vat de vergelijking samen van het LightAutoML-framework met bestaande AutoML-systemen. 

Zoals u kunt zien, presteert het LightAutoML-framework beter dan alle andere AutoML-systemen op 20 datasets binnen de benchmark. De volgende tabel bevat de gedetailleerde vergelijking in de context van de dataset, wat aangeeft dat de LightAutoML verschillende prestaties levert bij verschillende taakklassen. Voor binaire classificatietaken schiet de LightAutoML tekort in prestaties, terwijl voor taken met een grote hoeveelheid gegevens het LightAutoML-framework superieure prestaties levert.

De volgende tabel vergelijkt de prestaties van het LightAutoML-framework met AutoML-systemen op 15 bankgegevenssets die een reeks verschillende binaire classificatietaken bevatten. Zoals u kunt zien, presteert LightAutoML beter dan alle AutoML-oplossingen op 12 van de 15 datasets, een winstpercentage van 80. 

Conclusie

In dit artikel hebben we gesproken over LightAutoML, een AutoML-systeem dat voornamelijk is ontwikkeld voor een Europees bedrijf dat samen met zijn ecosysteem actief is in de financiële sector. Het LightAutoML-framework wordt in verschillende applicaties ingezet en de resultaten laten superieure prestaties zien, vergelijkbaar met het niveau van datawetenschappers, zelfs bij het bouwen van hoogwaardige machine learning-modellen. Het LightAutoML-framework probeert de volgende bijdragen te leveren. Ten eerste werd het LightAutoML-framework primair ontwikkeld voor het ecosysteem van een grote Europese financiële en bancaire instelling. Dankzij zijn raamwerk en architectuur kan het LightAutoML-framework beter presteren dan de modernste AutoML-frameworks in verschillende open benchmarks en ecosysteemtoepassingen. De prestaties van het LightAutoML-framework worden ook vergeleken met modellen die handmatig zijn afgestemd door datawetenschappers, en de resultaten wezen op sterkere prestaties van het LightAutoML-framework. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.