Connect mat eis

Kënschtlech Intelligenz

LightAutoML: AutoML Léisung fir e grousse Finanzservicer Ecosystem

mm
aktualiséiert on

Och wann AutoML virun e puer Joer op d'Popularitéit geklommen ass, ass d'Ealy weider AutoML staamt aus de fréien 90er wann d'Wëssenschaftler déi éischt Aarbechten iwwer Hyperparameteroptimiséierung publizéiert hunn. Et war am 2014 wéi ICML den éischten AutoML Workshop organiséiert huet datt AutoML d'Opmierksamkeet vun ML Entwéckler gewonnen huet. Ee vun de grousse Fokusser iwwer d'Jore vum AutoML ass den Hyperparameter Sichproblem, wou de Modell eng ganz Rëtsch vun Optimisatiounsmethoden implementéiert fir déi bescht performant Hyperparameter an engem groussen Hyperparameterraum fir e bestëmmte Maschinnléiermodell ze bestëmmen. Eng aner Method déi allgemeng vun AutoML Modeller implementéiert gëtt ass d'Wahrscheinlechkeet ze schätzen datt e bestëmmten Hyperparameter den optimalen Hyperparameter fir e bestëmmte Maschinnléiermodell ass. De Modell erreecht dëst duerch Bayesian Methoden ëmzesetzen déi traditionell historesch Daten aus virdru geschätzte Modeller an aner Datesätz benotzen. Zousätzlech zu Hyperparameteroptiméierung probéieren aner Methoden déi bescht Modeller aus engem Raum vu Modelleralternativen ze wielen. 

An dësem Artikel wäerte mir LightAutoML ofdecken, en AutoML System entwéckelt haaptsächlech fir eng europäesch Firma déi am Finanzsektor zesumme mat sengem Ökosystem operéiert. De LightAutoML Framework gëtt iwwer verschidden Uwendungen ofgesat, an d'Resultater hunn eng super Leeschtung bewisen, vergläichbar mam Niveau vun den Datewëssenschaftler, och beim Bau vun qualitativ héichwäerteg Maschinnléiere Modeller. De LightAutoML Kader probéiert déi folgend Contributiounen ze maachen. Als éischt gouf de LightAutoML Kader haaptsächlech fir den Ökosystem vun enger grousser europäescher Finanz- a Bankinstitutioun entwéckelt. Wéinst sengem Kader an Architektur ass de LightAutoML Framework fäeg de modernste AutoML Frameworks iwwer verschidden oppe Benchmarks wéi och Ökosystem Uwendungen ze iwwerwannen. D'Performance vum LightAutoML Framework gëtt och verglach mat Modeller déi manuell vun Datewëssenschaftler ofgestëmmt ginn, an d'Resultater hunn méi staark Leeschtung vum LightAutoML Framework uginn. 

Dësen Artikel zielt fir de LightAutoML Kader an Déift ze decken, a mir entdecken de Mechanismus, d'Methodologie, d'Architektur vum Kader zesumme mat sengem Verglach mat modernste Kaderen. Also loosst eis ufänken. 

LightAutoML: En AutoML Framework fir Finanzservicer

Och wann d'Fuerscher fir d'éischt an der Mëtt an de fréien 90er ugefaang hunn un AutoML ze schaffen, AutoML huet e groussen Deel vun der Opmierksamkeet an de leschte Joeren ugezunn, mat e puer vun de prominenten industrielle Léisungen, déi automatesch Build Machine Learning Modeller implementéieren, sinn Amazon AutoGluon, DarwinAI, H20.ai , IBM Watson AI, Microsoft AzureML, a vill méi. Eng Majoritéit vun dëse Kaderen implementéieren eng allgemeng Zweck AutoML Léisung déi ML-baséiert Modeller automatesch iwwer verschidde Klassen vun Uwendungen iwwer Finanzservicer, Gesondheetsariichtung, Educatioun a méi entwéckelt. D'Schlësselvirnam hannert dëser horizontaler generescher Approche ass datt de Prozess vun der Entwécklung vun automatesche Modeller identesch bleift iwwer all Uwendungen. Wéi och ëmmer, de LightAutoML-Framework implementéiert eng vertikal Approche fir eng AutoML-Léisung z'entwéckelen déi net generesch ass, mä éischter op d'Bedierfnesser vun eenzelne Applikatiounen entsprécht, an dësem Fall eng grouss Finanzinstitut. De LightAutoML Kader ass eng vertikal AutoML Léisung déi sech op d'Ufuerderunge vum komplexe Ökosystem zesumme mat senge Charakteristiken konzentréiert. Als éischt bitt de LightAutoML Framework séier a bal optimal Hyperparameter Sich. Och wann de Modell dës Hyperparameter net direkt optiméiert, geléngt et zefriddestellend Resultater ze liwweren. Ausserdeem hält de Modell d'Gläichgewiicht tëscht Geschwindegkeet an Hyperparameteroptimiséierung dynamesch, fir sécherzestellen datt de Modell op kleng Probleemer optimal ass, a séier genuch op méi grouss. Zweetens, limitéiert de LightAutoML Framework d'Gamme vu Maschinnléiere Modeller geziilt op nëmmen zwou Zorte: linear Modeller, a GBMs oder Gradient gestäerkt Entscheedungsbeem, anstatt grouss Ensemblen vu verschiddenen Algorithmen ëmzesetzen. De primäre Grond hannert der Limitatioun vun der Palette vu Maschinnléiermodeller ass d'Ausféierungszäit vum LightAutoML Kader ze beschleunegen ouni d'Performance negativ fir déi bestëmmten Zort vu Problem an Daten ze beaflossen. Drëttens stellt de LightAutoML Kader eng eenzegaarteg Method fir d'Auswiel vu Virveraarbechtungsschemaen fir verschidde Funktiounen, déi an de Modeller benotzt ginn, op Basis vu bestëmmte Selektiounsregelen a Meta-Statistiken. De LightAutoML Kader gëtt op eng breet Palette vun oppenen Datequellen iwwer eng breet Palette vun Uwendungen evaluéiert. 

LightAutoML: Methodologie an Architektur

De LightAutoML Kader besteet aus Moduler bekannt als Presets déi gewidmet sinn fir Enn bis Enn Modellentwécklung fir typesch Maschinn Léieren Aufgaben. Am Moment ënnerstëtzt de LightAutoML Kader Preset Moduler. Als éischt konzentréiert de TabularAutoML Preset sech op d'Léisung vun klassesche Maschinnléiereprobleemer, definéiert op tabulären Datesets. Zweetens, implementéiert d'White-Box Preset einfach interpretéierbar Algorithmen wéi Logistesch Regressioun anstatt WoE oder Weight of Evidence Kodéierung an diskretiséierter Feature fir binär Klassifikatiounsaufgaben op Tabulardaten ze léisen. Einfach interpretéierbar Algorithmen ëmsetzen ass eng allgemeng Praxis fir d'Wahrscheinlechkeet vun enger Applikatioun ze modelléieren wéinst den Interpretabilitéitsbeschränkunge vu verschiddene Faktoren. Drëttens ass den NLP Preset fäeg Tabulardaten mat NLP oder Natural Sprooch Processing Tools abegraff pre-trainéiert Deep Learning Modeller a spezifesch Feature Extractoren. Schlussendlech funktionnéiert de CV Preset mat Bilddaten mat der Hëllef vun e puer Basisinstrumenter. Et ass wichteg ze bemierken datt obwuel de LightAutoML Modell all véier Presets ënnerstëtzt, benotzt de Kader nëmmen den TabularAutoML am Produktiounsniveau System. 

Déi typesch Pipeline vum LightAutoML Kader ass am folgende Bild abegraff. 

All Pipeline enthält dräi Komponenten. Als éischt, Reader, en Objet deen Tasktyp a réi Daten als Input kritt, mécht entscheedend Metadatenberechnungen, botzt déi initial Donnéeën, a stellt d'Datemanipulatiounen eraus, déi ausgefouert ginn, ier se verschidde Modeller passen. Als nächst enthalen d'LightAutoML banneschten Datesätz CV Iteratoren a Metadaten, déi Validatiounsschemae fir d'Datesätz implementéieren. Déi drëtt Komponent sinn déi verschidde Maschinnléiere Pipelines gestapelt an / oder gemëscht fir eng eenzeg Prognose ze kréien. Eng Maschinnléierpipeline an der Architektur vum LightAutoML Kader ass ee vu ville Maschinnléiere Modeller déi eng eenzeg Datevalidatioun a Virveraarbechtungsschema deelen. De Virveraarbechtungsschrëtt ka bis zu zwee Feature Selektiounsschrëtt hunn, e Feature Engineering Schrëtt oder kann eidel sinn wann keng Virveraarbechtung néideg ass. D'ML Pipelines kënnen onofhängeg op déiselwecht Datesätz berechent ginn an dann zesumme mat der Moyenne (oder gewiichter Moyenne) gemëscht ginn. Alternativ kann e Stacking Ensemble Schema benotzt ginn fir Multi-Level Ensembelarchitekturen ze bauen. 

LightAutoML Tabular Preset

Am LightAutoML Kader ass TabularAutoML d'Standard Pipeline, an et gëtt am Modell implementéiert fir dräi Aarte vun Aufgaben op Tabulardaten ze léisen: binär Klassifikatioun, Regressioun, a Multi-Klass Klassifikatioun fir eng breet Palette vun Performance Metriken a Verloscht Funktiounen. En Dësch mat de folgende véier Kolonnen: kategoresch Fonctiounen, numeresch Fonctiounen, Zäitstempel, an eng eenzeg Zilkolonne mat Klasseetiketten oder kontinuéierleche Wäert gëtt un den TabularAutoML Komponent als Input gefüttert. Ee vun de primären Ziler hannert dem Design vum LightAutoML Framework war en Tool fir séier Hypothesen Testen ze designen, e wesentleche Grond firwat de Kader vermeit d'Benotzung vu Brute-Force Methoden fir Pipeline Optimiséierung, a konzentréiert sech nëmmen op Effizienz Techniken a Modeller déi iwwer eng breet Palette vun Datesätz. 

Auto-Typing an Datevirveraarbechtung

Fir verschidden Aarte vu Featuren op verschidde Manéieren ze handhaben, muss de Modell all Featuretyp kennen. An der Situatioun wou et eng eenzeg Aufgab mat engem klenge Datesaz gëtt, kann de Benotzer all Featuretyp manuell spezifizéieren. Wéi och ëmmer, all Featuretyp manuell ze spezifizéieren ass net méi eng viabel Optioun a Situatiounen déi Honnerte vun Aufgaben mat Datesätz enthalen déi Dausende vu Featuren enthalen. Fir den TabularAutoML Preset muss de LightAutoML Framework Features an dräi Klassen mapen: numeresch, Kategorie an Datumzäit. Eng einfach an offensichtlech Léisung ass d'Spaltenarray-Datentypen als aktuell Feature-Typen ze benotzen, dat heescht fir Float / Int Kolonnen op numeresch Featuren, Zäitstempel oder String ze mapen, déi als Zäitstempel parséiert kënne ginn - bis Datumzäit, an anerer an Kategorie. Wéi och ëmmer, dës Mapping ass net déi bescht wéinst der heefeg Optriede vun numereschen Datentypen an Kategorie Kolonnen. 

Validatioun Scheme

Validatiounsschemaen sinn e wesentleche Bestanddeel vun AutoML Kaderen well Daten an der Industrie ënnerleien mat der Zäit ze änneren, an dëst Ännerungselement mécht IID oder Independent Identically Distributed Viraussetzungen irrelevant wann Dir de Modell entwéckelt. AutoML Modeller benotze Validatiounsschemaen fir hir Leeschtung ze schätzen, no Hyperparameter ze sichen, an aussergewéinlech Prognosegeneratioun. D'TabularAutoML Pipeline implementéiert dräi Validatiounsschemaen:

  • KFold Kräiz Validatioun: KFold Cross Validation ass de Standard Validatiounsschema fir d'TabularAutoML Pipeline abegraff GroupKFold fir Verhalensmodeller, a stratifizéiert KFold fir Klassifikatiounsaufgaben. 
  • Holdout Validatioun: Den Holdout Validatiounsschema gëtt implementéiert wann de Holdout Set spezifizéiert ass. 
  • Benotzerdefinéiert Validatioun Schemaen: Benotzerdefinéiert Validatiounsschemae kënne vu Benotzer erstallt ginn ofhängeg vun hiren individuellen Ufuerderungen. Benotzerdefinéiert Validatioun Schemaen enthalen Kräiz-Validatioun, an Zäit-Serie Split Schemaen. 

Feature Selektioun

Och wann d'Featurewahl e entscheedende Aspekt ass fir Modeller z'entwéckelen wéi pro Industrienormen, well et d'Reduktioun vun den Inferenz- a Modellimplementatiounskäschte erliichtert, konzentréiere sech eng Majoritéit vun AutoML-Léisungen net vill op dëse Problem. Am Géigendeel, d'TabularAutoML Pipeline implementéiert dräi Feature Selektiounsstrategien: Keng Selektioun, Wichtegkeet ofgeschnidden Selektioun, a Wichtegkeet-baséiert Forward Selektioun. Vun den dräi, Wichtegkeet ofgeschnidden Auswiel Feature Auswiel Strategie ass Standard. Ausserdeem ginn et zwee primär Weeër fir Feature Wichtegkeet ze schätzen: Split-baséiert Bam Wichtegkeet, a Permutatiounswichtegkeet vum GBM Modell oder Gradient Boost Entscheedung Beem. D'Haaptziel vun der Wichtegkeet vun der Ausschnëttsauswiel ass d'Features ze refuséieren déi net hëllefräich sinn fir de Modell, wat de Modell erlaabt d'Zuel vun de Featuren ze reduzéieren ouni d'Performance negativ ze beaflossen, eng Approche déi d'Modellinferenz an d'Ausbildung beschleunegt. 

Dat uewe Bild vergläicht verschidde Selektiounsstrategien op binäre Bank Datesets. 

Hyperparameter Tuning

D'TabularAutoML Pipeline implementéiert verschidde Approche fir Hyperparameter ofzestëmmen op Basis vun deem wat ofgestëmmt gëtt. 

  • Fréi Stoppen Hyperparameter Tuning wielt d'Zuel vun Iteratiounen fir all Modeller während der Trainingsphase. 
  • Expert System Hyperparameter Tuning ass en einfache Wee fir Hyperparameter fir Modeller op eng zefriddestellend Manéier ze setzen. Et verhënnert de finalen Modell vun enger héijer Ofsenkung vum Score am Verglach mat haart ofgestëmmte Modeller.
  • Tree Strukturéiert Parzen Estimatioun oder TPE fir GBM oder Gradient gestäerkt Decisioun Bam Modeller. TPE ass eng gemëschte Tuningstrategie déi d'Standardwahl an der LightAutoML Pipeline ass. Fir all GMB Framework trainéiert de LightAutoML Framework zwee Modeller: deen Éischte kritt Expert Hyperparameter, deen zweeten ass ofgestëmmt fir an den Zäitbudget ze passen. 
  • Gitter Sich Hyperparameter Tuning ass an der TabularAutoML Pipeline implementéiert fir d'Regulariséierungsparameter vun engem linearem Modell niewent dem fréien Stoppen a waarme Start ze feinjustéieren. 

De Modell tunt all Parameteren un andeems d'metresch Funktioun maximéiert, entweder vum Benotzer definéiert oder ass Standard fir déi geléist Aufgab. 

LightAutoML: Experiment a Leeschtung

Fir d'Performance ze evaluéieren, gëtt den TabularAutoML Preset am LightAutoML Framework géint scho existent Open Source Léisungen iwwer verschidden Aufgaben verglach, a cementéiert déi super Leeschtung vum LightAutoML Framework. Als éischt gëtt de Verglach op den OpenML Benchmark duerchgefouert, deen op 35 binären a multiclass Klassifikatioun Task Datesets evaluéiert gëtt. Déi folgend Tabell resüméiert de Verglach vum LightAutoML Kader géint existent AutoML Systemer. 

Wéi et ka gesi ginn, iwwerhëlt de LightAutoML Kader all aner AutoML Systemer op 20 Datesätz am Benchmark. Déi folgend Tabell enthält den detailléierte Verglach am Datesaz Kontext wat beweist datt de LightAutoML verschidde Leeschtung op verschiddene Klassen vun Aufgaben liwwert. Fir binär Klassifikatiounsaufgaben fällt de LightAutoML kuerz an der Leeschtung, wärend fir Aufgaben mat enger héijer Quantitéit un Daten de LightAutoML Framework super Leeschtung liwwert.

Déi folgend Tabell vergläicht d'Performance vum LightAutoML Framework géint AutoML Systemer op 15 Bank Datesets mat enger Rei vu verschiddene binäre Klassifikatiounsaufgaben. Wéi et ka beobachtet ginn, iwwerhëlt d'LightAutoML all AutoML Léisungen op 12 vun 15 Datesätz, e Gewënn Prozentsaz vun 80. 

Finale Schied

An dësem Artikel hu mir iwwer LightAutoML geschwat, en AutoML System entwéckelt haaptsächlech fir eng europäesch Firma déi am Finanzsektor zesumme mat sengem Ökosystem operéiert. De LightAutoML Framework gëtt iwwer verschidden Uwendungen ofgesat, an d'Resultater hunn eng super Leeschtung bewisen, vergläichbar mam Niveau vun den Datewëssenschaftler, och beim Bau vun qualitativ héichwäerteg Maschinnléiere Modeller. De LightAutoML Kader probéiert déi folgend Contributiounen ze maachen. Als éischt gouf de LightAutoML Framework haaptsächlech fir den Ökosystem vun enger grousser europäescher Finanz- a Bankinstitutioun entwéckelt. Wéinst sengem Kader an Architektur ass de LightAutoML Framework fäeg de modernste AutoML Frameworks iwwer verschidden oppe Benchmarks wéi och Ökosystem Uwendungen ze iwwerwannen. D'Performance vum LightAutoML Framework gëtt och verglach mat Modeller déi manuell vun Datenwëssenschaftler ofgestëmmt ginn, an d'Resultater hunn méi staark Leeschtung vum LightAutoML Framework uginn. 

"En Ingenieur vu Beruff, e Schrëftsteller aus Häerz". Kunal ass en technesche Schrëftsteller mat enger déiwer Léift a Verständnis vun AI an ML, gewidmet fir komplex Konzepter an dëse Felder ze vereinfachen duerch seng engagéiert an informativ Dokumentatioun.