Suivez nous sur

Intelligence artificielle

LightAutoML : solution AutoML pour un vaste écosystème de services financiers

mm
Le kit de préparation mis à jour on

Même si AutoML est devenu populaire il y a quelques années, les premiers travaux sur AutoML remonte au début des années 90 lorsque les scientifiques ont publié les premiers articles sur l’optimisation des hyperparamètres. C'est en 2014, lorsque ICML a organisé le premier atelier AutoML, qu'AutoML a attiré l'attention des développeurs ML. L'un des principaux objectifs d'AutoML au fil des années est le problème de recherche d'hyperparamètres, dans lequel le modèle implémente un ensemble de méthodes d'optimisation pour déterminer les hyperparamètres les plus performants dans un vaste espace d'hyperparamètres pour un modèle d'apprentissage automatique particulier. Une autre méthode couramment mise en œuvre par les modèles AutoML consiste à estimer la probabilité qu'un hyperparamètre particulier soit l'hyperparamètre optimal pour un modèle d'apprentissage automatique donné. Le modèle y parvient en mettant en œuvre des méthodes bayésiennes qui utilisent traditionnellement les données historiques provenant de modèles précédemment estimés et d'autres ensembles de données. En plus de l’optimisation des hyperparamètres, d’autres méthodes tentent de sélectionner les meilleurs modèles parmi un espace d’alternatives de modélisation. 

Dans cet article, nous couvrirons LightAutoML, un système AutoML développé principalement pour une entreprise européenne opérant dans le secteur financier ainsi que son écosystème. Le framework LightAutoML est déployé dans diverses applications et les résultats ont démontré des performances supérieures, comparables au niveau des data scientists, même lors de la création de modèles d'apprentissage automatique de haute qualité. Le framework LightAutoML tente d'apporter les contributions suivantes. Premièrement, le framework LightAutoML a été développé principalement pour l'écosystème d'une grande institution financière et bancaire européenne. Grâce à son framework et à son architecture, le framework LightAutoML est capable de surpasser les frameworks AutoML de pointe sur plusieurs benchmarks ouverts ainsi que sur les applications écosystémiques. Les performances du framework LightAutoML sont également comparées à des modèles réglés manuellement par des data scientists, et les résultats indiquent de meilleures performances du framework LightAutoML. 

Cet article vise à couvrir le framework LightAutoML en profondeur, et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons. 

LightAutoML : un framework AutoML pour les services financiers

Bien que les chercheurs aient commencé à travailler sur AutoML au milieu et au début des années 90, AutoML a attiré une grande partie de l'attention au cours des dernières années, certaines des solutions industrielles les plus importantes mettant en œuvre des modèles d'apprentissage automatique construits automatiquement sont AutoGluon d'Amazon, DarwinAI, H20.ai. , IBM Watson AI, Microsoft AzureML et bien plus encore. La majorité de ces frameworks implémentent une solution AutoML à usage général qui développe automatiquement des modèles basés sur le ML pour différentes classes d'applications dans les services financiers, les soins de santé, l'éducation, etc. L'hypothèse clé derrière cette approche générique horizontale est que le processus de développement de modèles automatiques reste identique dans toutes les applications. Cependant, le framework LightAutoML met en œuvre une approche verticale pour développer une solution AutoML qui n'est pas générique, mais qui répond plutôt aux besoins d'applications individuelles, en l'occurrence une grande institution financière. Le framework LightAutoML est une solution AutoML verticale qui se concentre sur les exigences de l'écosystème complexe ainsi que sur ses caractéristiques. Premièrement, le framework LightAutoML fournit une recherche d'hyperparamètres rapide et presque optimale. Bien que le modèle n’optimise pas directement ces hyperparamètres, il parvient à fournir des résultats satisfaisants. De plus, le modèle maintient l'équilibre entre la vitesse et la dynamique d'optimisation des hyperparamètres, pour garantir que le modèle est optimal sur les petits problèmes et suffisamment rapide sur les plus gros. Deuxièmement, le framework LightAutoML limite délibérément la gamme de modèles d'apprentissage automatique à seulement deux types : les modèles linéaires et les GBM ou arbres de décision améliorés par gradient, au lieu de mettre en œuvre de grands ensembles d'algorithmes différents. La principale raison de la limitation de la gamme de modèles d'apprentissage automatique est d'accélérer le temps d'exécution du framework LightAutoML sans affecter négativement les performances pour le type de problème et de données donné. Troisièmement, le framework LightAutoML présente une méthode unique de choix de schémas de prétraitement pour différentes fonctionnalités utilisées dans les modèles sur la base de certaines règles de sélection et métastatistiques. Le framework LightAutoML est évalué sur un large éventail de sources de données ouvertes dans un large éventail d'applications. 

LightAutoML : Méthodologie et Architecture

Le framework LightAutoML se compose de modules appelés préréglages dédiés au développement de modèles de bout en bout pour les tâches typiques d'apprentissage automatique. À l'heure actuelle, le framework LightAutoML prend en charge les modules Preset. Premièrement, le préréglage TabularAutoML se concentre sur la résolution de problèmes d'apprentissage automatique classiques définis sur des ensembles de données tabulaires. Deuxièmement, le préréglage White-Box implémente des algorithmes simples interprétables tels que la régression logistique au lieu du codage WoE ou du poids des preuves et des fonctionnalités discrétisées pour résoudre des tâches de classification binaire sur des données tabulaires. La mise en œuvre d'algorithmes simples interprétables est une pratique courante pour modéliser la probabilité d'une application en raison des contraintes d'interprétabilité posées par différents facteurs. Troisièmement, le préréglage NLP est capable de combiner des données tabulaires avec NLP ou Traitement du langage naturel des outils comprenant des modèles d'apprentissage en profondeur pré-entraînés et des extracteurs de fonctionnalités spécifiques. Enfin, le CV Preset fonctionne avec les données d'image à l'aide de quelques outils de base. Il est important de noter que bien que le modèle LightAutoML prenne en charge les quatre préréglages, le framework utilise uniquement TabularAutoML dans le système de niveau production. 

Le pipeline typique du framework LightAutoML est inclus dans l'image suivante. 

Chaque pipeline contient trois composants. Premièrement, Reader, un objet qui reçoit le type de tâche et les données brutes en entrée, effectue des calculs de métadonnées cruciaux, nettoie les données initiales et détermine les manipulations de données à effectuer avant d'ajuster différents modèles. Ensuite, les ensembles de données internes LightAutoML contiennent des itérateurs CV et des métadonnées qui implémentent des schémas de validation pour les ensembles de données. Le troisième composant concerne les multiples pipelines d’apprentissage automatique empilés et/ou mélangés pour obtenir une seule prédiction. Un pipeline d'apprentissage automatique au sein de l'architecture du framework LightAutoML est l'un des nombreux modèles d'apprentissage automatique qui partagent un schéma unique de validation et de prétraitement des données. L'étape de prétraitement peut comporter jusqu'à deux étapes de sélection de fonctionnalités, une étape d'ingénierie de fonctionnalités ou peut être vide si aucun prétraitement n'est nécessaire. Les pipelines ML peuvent être calculés indépendamment sur les mêmes ensembles de données, puis mélangés à l'aide d'une moyenne (ou d'une moyenne pondérée). Alternativement, un schéma d’ensemble empilé peut être utilisé pour construire des architectures d’ensemble à plusieurs niveaux. 

Préréglage tabulaire LightAutoML

Dans le framework LightAutoML, TabularAutoML est le pipeline par défaut et il est implémenté dans le modèle pour résoudre trois types de tâches sur des données tabulaires : classement binaire, régression et classification multiclasse pour un large éventail de mesures de performances et de fonctions de perte. Un tableau avec les quatre colonnes suivantes : caractéristiques catégorielles, caractéristiques numériques, horodatages et une seule colonne cible avec des étiquettes de classe ou une valeur continue est transmis au composant TabularAutoML en entrée. L'un des principaux objectifs derrière la conception du framework LightAutoML était de concevoir un outil permettant de tester rapidement des hypothèses, l'une des principales raisons pour lesquelles le framework évite d'utiliser des méthodes de force brute pour l'optimisation des pipelines et se concentre uniquement sur les techniques et les modèles d'efficacité qui fonctionnent dans un contexte global. large gamme d’ensembles de données. 

Saisie automatique et prétraitement des données

Pour gérer différents types de fonctionnalités de différentes manières, le modèle doit connaître chaque type de fonctionnalité. Dans le cas où il existe une seule tâche avec un petit ensemble de données, l'utilisateur peut spécifier manuellement chaque type de fonctionnalité. Cependant, spécifier manuellement chaque type de fonctionnalité n’est plus une option viable dans les situations qui incluent des centaines de tâches avec des ensembles de données contenant des milliers de fonctionnalités. Pour le préréglage TabularAutoML, le framework LightAutoML doit mapper les fonctionnalités en trois classes : numérique, catégorie et date/heure. Une solution simple et évidente consiste à utiliser les types de données de tableau de colonnes comme types de fonctionnalités réels, c'est-à-dire à mapper les colonnes float/int à des fonctionnalités numériques, un horodatage ou une chaîne, qui pourraient être analysées comme un horodatage - à datetime et d'autres à une catégorie. Toutefois, ce mappage n'est pas le meilleur en raison de l'apparition fréquente de types de données numériques dans les colonnes de catégorie. 

Schémas de validation

Les schémas de validation sont un composant essentiel des frameworks AutoML, car les données du secteur sont susceptibles de changer au fil du temps, et cet élément de changement rend les hypothèses IID ou indépendantes à distribution identique non pertinentes lors du développement du modèle. Les modèles AutoML utilisent des schémas de validation pour estimer leurs performances, rechercher des hyperparamètres et générer des prédictions hors du commun. Le pipeline TabularAutoML implémente trois schémas de validation :

  • Validation croisée KFold: KFold Cross Validation est le schéma de validation par défaut pour le pipeline TabularAutoML, y compris GroupKFold pour les modèles comportementaux et KFold stratifié pour les tâches de classification. 
  • Validation d'exclusion : Le schéma de validation Holdout est implémenté si l'ensemble d'exclusions est spécifié. 
  • Schémas de validation personnalisés : Des schémas de validation personnalisés peuvent être créés par les utilisateurs en fonction de leurs besoins individuels. Les schémas de validation personnalisés incluent des schémas de validation croisée et de fractionnement de séries chronologiques. 

Sélection de fonctionnalité

Bien que la sélection des fonctionnalités soit un aspect crucial du développement de modèles selon les normes de l'industrie, car elle facilite la réduction des coûts d'inférence et de mise en œuvre des modèles, la majorité des solutions AutoML ne se concentrent pas beaucoup sur ce problème. Au contraire, le pipeline TabularAutoML implémente trois stratégies de sélection de fonctionnalités : aucune sélection, sélection avec seuil d'importance et sélection directe basée sur l'importance. Sur les trois, la stratégie de sélection des fonctionnalités de sélection de limite d'importance est la stratégie par défaut. De plus, il existe deux manières principales d'estimer l'importance des caractéristiques : l'importance de l'arbre basé sur la division et l'importance de la permutation du modèle GBM ou du gradient boosté. arbres de décision. L'objectif principal de la sélection du seuil d'importance est de rejeter les fonctionnalités qui ne sont pas utiles au modèle, permettant ainsi au modèle de réduire le nombre de fonctionnalités sans impact négatif sur les performances, une approche qui pourrait accélérer l'inférence et la formation du modèle. 

L'image ci-dessus compare différentes stratégies de sélection sur des ensembles de données bancaires binaires. 

Réglage des hyperparamètres

Le pipeline TabularAutoML implémente différentes approches pour régler les hyperparamètres en fonction de ce qui est réglé. 

  • Réglage des hyperparamètres à arrêt précoce sélectionne le nombre d'itérations pour tous les modèles pendant la phase de formation. 
  • Réglage des hyperparamètres du système expert est un moyen simple de définir des hyperparamètres pour les modèles de manière satisfaisante. Cela évite au modèle final une forte diminution du score par rapport aux modèles fortement réglés.
  • Estimation Parzen structurée en arbre ou TPE pour les modèles d'arbre de décision GBM ou à gradient amélioré. TPE est une stratégie de réglage mixte qui constitue le choix par défaut dans le pipeline LightAutoML. Pour chaque framework GMB, le framework LightAutoML entraîne deux modèles : le premier obtient des hyperparamètres experts, le second est affiné pour s'adapter au budget temps. 
  • Réglage des hyperparamètres de recherche de grille est implémenté dans le pipeline TabularAutoML pour affiner les paramètres de régularisation d'un modèle linéaire ainsi qu'un arrêt anticipé et un démarrage à chaud. 

Le modèle ajuste tous les paramètres en maximisant la fonction métrique, soit définie par l'utilisateur, soit par défaut pour la tâche résolue. 

LightAutoML : expérimentation et performances

Pour évaluer les performances, le préréglage TabularAutoML du framework LightAutoML est comparé aux solutions open source déjà existantes pour diverses tâches et consolide les performances supérieures du framework LightAutoML. Dans un premier temps, la comparaison est effectuée sur le benchmark OpenML qui est évalué sur 35 jeux de données de tâches de classification binaire et multiclasse. Le tableau suivant résume la comparaison du framework LightAutoML avec les systèmes AutoML existants. 

Comme on peut le constater, le framework LightAutoML surpasse tous les autres systèmes AutoML sur 20 ensembles de données au sein du benchmark. Le tableau suivant contient la comparaison détaillée dans le contexte de l'ensemble de données indiquant que LightAutoML offre des performances différentes sur différentes classes de tâches. Pour les tâches de classification binaire, les performances de LightAutoML sont insuffisantes, tandis que pour les tâches contenant une grande quantité de données, le framework LightAutoML offre des performances supérieures.

Le tableau suivant compare les performances du framework LightAutoML par rapport aux systèmes AutoML sur 15 ensembles de données bancaires contenant un ensemble de diverses tâches de classification binaire. Comme on peut le constater, LightAutoML surpasse toutes les solutions AutoML sur 12 ensembles de données sur 15, soit un pourcentage de victoire de 80. 

Réflexions finales

Dans cet article, nous avons parlé de LightAutoML, un système AutoML développé principalement pour une entreprise européenne opérant dans le secteur financier ainsi que son écosystème. Le framework LightAutoML est déployé dans diverses applications et les résultats ont démontré des performances supérieures, comparables au niveau des data scientists, même lors de la création de modèles d'apprentissage automatique de haute qualité. Le framework LightAutoML tente d'apporter les contributions suivantes. Premièrement, le framework LightAutoML a été développé principalement pour l'écosystème d'une grande institution financière et bancaire européenne. Grâce à son framework et à son architecture, le framework LightAutoML est capable de surpasser les frameworks AutoML de pointe sur plusieurs benchmarks ouverts ainsi que sur les applications écosystémiques. Les performances du framework LightAutoML sont également comparées à des modèles réglés manuellement par des data scientists, et les résultats indiquent de meilleures performances du framework LightAutoML. 

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.