Connecteu-vos amb nosaltres

Intel·ligència Artificial

LightAutoML: Solució AutoML per a un gran ecosistema de serveis financers

mm
actualitzat on

Tot i que AutoML es va popularitzar fa uns anys, el primer treball AutoML es remunta a principis dels anys 90 quan els científics van publicar els primers articles sobre l'optimització d'hiperparàmetres. Va ser l'any 2014 quan ICML va organitzar el primer taller d'AutoML que AutoML va cridar l'atenció dels desenvolupadors de ML. Un dels principals focus al llarg dels anys d'AutoML és el problema de cerca d'hiperparàmetres, on el model implementa una sèrie de mètodes d'optimització per determinar els hiperparàmetres de millor rendiment en un gran espai d'hiperparàmetres per a un model d'aprenentatge automàtic concret. Un altre mètode que solen implementar els models AutoML és estimar la probabilitat que un hiperparàmetre concret sigui l'hiperparàmetre òptim per a un model d'aprenentatge automàtic determinat. El model ho aconsegueix mitjançant la implementació de mètodes bayesians que tradicionalment utilitzen dades històriques de models estimats anteriorment i altres conjunts de dades. A més de l'optimització d'hiperparàmetres, altres mètodes intenten seleccionar els millors models d'un espai d'alternatives de modelatge. 

En aquest article, tractarem LightAutoML, un sistema AutoML desenvolupat principalment per a una empresa europea que opera en el sector financer juntament amb el seu ecosistema. El marc LightAutoML es desplega en diverses aplicacions i els resultats van demostrar un rendiment superior, comparable al nivell dels científics de dades, fins i tot mentre es construeixen models d'aprenentatge automàtic d'alta qualitat. El marc LightAutoML intenta fer les contribucions següents. En primer lloc, el marc LightAutoML es va desenvolupar principalment per a l'ecosistema d'una gran institució financera i bancària europea. A causa del seu marc i arquitectura, el marc LightAutoML és capaç de superar els marcs AutoML d'última generació en diversos punts de referència oberts, així com en aplicacions d'ecosistema. El rendiment del marc LightAutoML també es compara amb els models ajustats manualment pels científics de dades, i els resultats van indicar un rendiment més fort del marc LightAutoML. 

Aquest article pretén cobrir el marc LightAutoML en profunditat, i explorem el mecanisme, la metodologia, l'arquitectura del marc juntament amb la seva comparació amb els marcs d'última generació. Així que comencem. 

LightAutoML: un marc d'AutoML per a serveis financers

Tot i que els investigadors van començar a treballar en AutoML a mitjans i principis dels anys 90, AutoML va atraure una gran part de l'atenció durant els últims anys, amb algunes de les solucions industrials destacades que implementen models d'aprenentatge automàtic de creació automàtica són AutoGluon, DarwinAI, H20.ai d'Amazon. , IBM Watson AI, Microsoft AzureML i molt més. La majoria d'aquests marcs implementen una solució AutoML de propòsit general que desenvolupa models basats en ML automàticament en diferents classes d'aplicacions en serveis financers, sanitat, educació i molt més. La hipòtesi clau darrere d'aquest enfocament genèric horitzontal és que el procés de desenvolupament de models automàtics segueix sent idèntic a totes les aplicacions. Tanmateix, el marc LightAutoML implementa un enfocament vertical per desenvolupar una solució AutoML que no és genèrica, sinó que s'adapta a les necessitats d'aplicacions individuals, en aquest cas una gran institució financera. El marc LightAutoML és una solució AutoML vertical que se centra en els requisits de l'ecosistema complex juntament amb les seves característiques. En primer lloc, el marc LightAutoML proporciona una cerca d'hiperparàmetres ràpida i gairebé òptima. Tot i que el model no optimitza directament aquests hiperparàmetres, sí que aconsegueix obtenir resultats satisfactoris. A més, el model manté l'equilibri entre la velocitat i l'optimització d'hiperparàmetres dinàmics, per garantir que el model sigui òptim en problemes petits i prou ràpid en els més grans. En segon lloc, el marc LightAutoML limita el ventall de models d'aprenentatge automàtic de manera intencionada només a dos tipus: models lineals i GBM o arbres de decisió amb gradients, en lloc d'implementar grans conjunts d'algorismes diferents. El motiu principal de la limitació de la gamma de models d'aprenentatge automàtic és accelerar el temps d'execució del marc LightAutoML sense afectar negativament el rendiment per al tipus de problema i dades donats. En tercer lloc, el marc LightAutoML presenta un mètode únic per triar esquemes de preprocessament per a diferents característiques utilitzades en els models sobre la base de determinades regles de selecció i metaestadístiques. El marc LightAutoML s'avalua en una àmplia gamma de fonts de dades obertes en una àmplia gamma d'aplicacions. 

LightAutoML: Metodologia i Arquitectura

El marc LightAutoML consta de mòduls coneguts com a presets que es dediquen al desenvolupament de models d'extrem a extrem per a les tasques típiques d'aprenentatge automàtic. Actualment, el marc LightAutoML admet mòduls preestablerts. En primer lloc, el TabularAutoML Preset se centra a resoldre problemes clàssics d'aprenentatge automàtic definits en conjunts de dades tabulars. En segon lloc, el White-Box Preset implementa algorismes interpretables senzills com ara la regressió logística en lloc de la codificació de WoE o Weight of Evidence i funcions discretitzades per resoldre tasques de classificació binària de dades tabulars. La implementació d'algorismes interpretables senzills és una pràctica habitual per modelar la probabilitat d'una aplicació a causa de les restriccions d'interpretabilitat que plantegen diferents factors. En tercer lloc, el preajust de NLP és capaç de combinar dades tabulars amb NLP o Processament del llenguatge natural eines que inclouen models d'aprenentatge profund preparats prèviament i extractors de funcions específiques. Finalment, el CV Preset treballa amb dades d'imatge amb l'ajuda d'algunes eines bàsiques. És important tenir en compte que, tot i que el model LightAutoML admet els quatre presets, el marc només utilitza TabularAutoML al sistema de nivell de producció. 

El pipeline típic del marc LightAutoML s'inclou a la imatge següent. 

Cada canonada conté tres components. En primer lloc, Reader, un objecte que rep el tipus de tasca i dades en brut com a entrada, realitza càlculs de metadades crucials, neteja les dades inicials i descobreix les manipulacions de dades que s'han de realitzar abans d'ajustar diferents models. A continuació, els conjunts de dades interiors de LightAutoML contenen iteradors de CV i metadades que implementen esquemes de validació per als conjunts de dades. El tercer component són les múltiples canalitzacions d'aprenentatge automàtic apilades i/o combinades per obtenir una única predicció. Una canalització d'aprenentatge automàtic dins de l'arquitectura del marc LightAutoML és un dels múltiples models d'aprenentatge automàtic que comparteixen un únic esquema de validació i preprocessament de dades. El pas de preprocessament pot tenir fins a dos passos de selecció de característiques, un pas d'enginyeria de característiques o pot estar buit si no cal cap preprocessament. Els pipelines ML es poden calcular de manera independent en els mateixos conjunts de dades i després combinar-los mitjançant la mitjana (o la mitjana ponderada). Alternativament, es pot utilitzar un esquema d'apilament de conjunts per construir arquitectures de conjunt multinivell. 

Preestablert tabular LightAutoML

Dins del marc LightAutoML, TabularAutoML és la canalització predeterminada i s'implementa al model per resoldre tres tipus de tasques sobre dades tabulars: classificació binària, regressió i classificació multiclasse per a una àmplia gamma de mètriques de rendiment i funcions de pèrdua. Una taula amb les quatre columnes següents: característiques categòriques, característiques numèriques, marques de temps i una única columna de destinació amb etiquetes de classe o valor continu s'alimenta al component TabularAutoML com a entrada. Un dels objectius principals darrere del disseny del marc LightAutoML va ser dissenyar una eina per a la prova ràpida d'hipòtesis, una de les principals raons per les quals el marc evita utilitzar mètodes de força bruta per a l'optimització de pipelines i se centra només en tècniques i models d'eficiència que funcionen en un àmplia gamma de conjunts de dades. 

Escriptura automàtica i preprocessament de dades

Per gestionar diferents tipus de característiques de diferents maneres, el model ha de conèixer cada tipus de característiques. En la situació en què hi ha una única tasca amb un conjunt de dades petit, l'usuari pot especificar manualment cada tipus de característica. Tanmateix, especificar cada tipus de característica manualment ja no és una opció viable en situacions que inclouen centenars de tasques amb conjunts de dades que contenen milers de funcions. Per al preajust de TabularAutoML, el marc LightAutoML ha de mapejar les característiques en tres classes: numèrica, categoria i datatime. Una solució senzilla i òbvia és utilitzar els tipus de dades de matriu de columnes com a tipus de característiques reals, és a dir, per assignar columnes float/int a característiques numèriques, marca de temps o cadena, que es podrien analitzar com una marca de temps: a datahora i altres a categoria. Tanmateix, aquesta assignació no és la millor a causa de l'aparició freqüent de tipus de dades numèriques a les columnes de categoria. 

Esquemes de validació

Els esquemes de validació són un component vital dels marcs d'AutoML, ja que les dades de la indústria estan subjectes a canvis amb el temps, i aquest element de canvi fa que els supòsits d'IID o de distribució idèntica independent siguin irrellevants a l'hora de desenvolupar el model. Els models d'AutoML utilitzen esquemes de validació per estimar el seu rendiment, cercar hiperparàmetres i generar prediccions fora del plec. El pipeline TabularAutoML implementa tres esquemes de validació:

  • Validació creuada de KFold: La validació creuada de KFold és l'esquema de validació predeterminat per a la canalització de TabularAutoML, inclòs GroupKFold per als models de comportament i KFold estratificat per a tasques de classificació. 
  • Validació de la retenció: L'esquema de validació de retenció s'implementa si s'especifica el conjunt de retenció. 
  • Esquemes de validació personalitzats: Els usuaris poden crear esquemes de validació personalitzats en funció dels seus requisits individuals. Els esquemes de validació personalitzats inclouen la validació creuada i els esquemes dividits per sèries temporals. 

Selecció de funcions

Tot i que la selecció de funcions és un aspecte crucial del desenvolupament de models segons els estàndards de la indústria, ja que facilita la reducció dels costos d'implementació de models i inferència, la majoria de solucions AutoML no se centren gaire en aquest problema. Per contra, el pipeline TabularAutoML implementa tres estratègies de selecció de característiques: Sense selecció, Selecció de tall d'importància i Selecció directa basada en la importància. De les tres, l'estratègia de selecció de funcions de selecció de tall d'importància és per defecte. A més, hi ha dues maneres principals d'estimar la importància de les característiques: la importància de l'arbre basat en la divisió i la importància de la permutació del model GBM o del gradient augmentat. arbres de decisió. L'objectiu principal de la selecció de tall d'importància és rebutjar característiques que no són útils per al model, cosa que permet al model reduir el nombre de funcions sense afectar negativament el rendiment, un enfocament que podria accelerar la inferència i l'entrenament del model. 

La imatge de dalt compara diferents estratègies de selecció en conjunts de dades bancàries binaris. 

Afinació d'hiperparàmetres

El pipeline TabularAutoML implementa diferents enfocaments per ajustar els hiperparàmetres en funció del que està ajustat. 

  • Afinació d'hiperparàmetres d'aturada anticipada selecciona el nombre d'iteracions per a tots els models durant la fase d'entrenament. 
  • Ajust d'hiperparàmetres del sistema expert és una manera senzilla d'establir hiperparàmetres per als models de manera satisfactòria. Evita que el model final disminueixi molt la puntuació en comparació amb els models ajustats.
  • Estimació de Parzen estructurada en arbre o TPE per a models GBM o d'arbre de decisió augmentat amb gradient. TPE és una estratègia de sintonització mixta que és l'opció predeterminada del pipeline LightAutoML. Per a cada marc GMB, el marc LightAutoML entrena dos models: el primer obté hiperparàmetres experts, el segon s'ajusta per adaptar-se al pressupost de temps. 
  • Ajust d'hiperparàmetres de cerca de graella s'implementa al pipeline TabularAutoML per ajustar els paràmetres de regularització d'un model lineal juntament amb l'aturada anticipada i l'arrencada en calent. 

El model ajusta tots els paràmetres maximitzant la funció mètrica, ja sigui definida per l'usuari o per defecte per a la tasca resolta. 

LightAutoML: Experiment i rendiment

Per avaluar el rendiment, el TabularAutoML Preset dins del marc LightAutoML es compara amb solucions de codi obert ja existents en diverses tasques i consolida el rendiment superior del marc LightAutoML. En primer lloc, la comparació es porta a terme al benchmark d'OpenML que s'avalua en 35 conjunts de dades de tasques de classificació binària i multiclasse. La taula següent resumeix la comparació del marc LightAutoML amb els sistemes AutoML existents. 

Com es pot veure, el marc LightAutoML supera tots els altres sistemes AutoML en 20 conjunts de dades dins de la referència. La taula següent conté la comparació detallada en el context del conjunt de dades que indica que LightAutoML ofereix un rendiment diferent en diferents classes de tasques. Per a les tasques de classificació binària, el LightAutoML no té un rendiment, mentre que per a les tasques amb una gran quantitat de dades, el marc LightAutoML ofereix un rendiment superior.

La taula següent compara el rendiment del marc LightAutoML amb els sistemes AutoML en 15 conjunts de dades bancàries que contenen un conjunt de diverses tasques de classificació binària. Com es pot observar, LightAutoML supera totes les solucions AutoML en 12 de 15 conjunts de dades, un percentatge de victòria de 80. 

Consideracions finals

En aquest article hem parlat de LightAutoML, un sistema AutoML desenvolupat principalment per a una empresa europea que opera en el sector financer juntament amb el seu ecosistema. El marc LightAutoML es desplega en diverses aplicacions i els resultats van demostrar un rendiment superior, comparable al nivell dels científics de dades, fins i tot mentre es construeixen models d'aprenentatge automàtic d'alta qualitat. El marc LightAutoML intenta fer les contribucions següents. En primer lloc, el marc LightAutoML es va desenvolupar principalment per a l'ecosistema d'una gran institució financera i bancària europea. A causa del seu marc i arquitectura, el marc LightAutoML és capaç de superar els marcs AutoML d'última generació en diversos punts de referència oberts, així com en aplicacions d'ecosistema. El rendiment del marc LightAutoML també es compara amb els models ajustats manualment pels científics de dades, i els resultats van indicar un rendiment més fort del marc LightAutoML. 

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.