私達と接続

Artificial Intelligence

LightAutoML: 大規模な金融サービス エコシステム向けの AutoML ソリューション

mm
更新中 on

AutoMLは数年前から人気が出てきましたが、 AutoMLの歴史は90年代初頭に遡る 科学者がハイパーパラメータの最適化に関する最初の論文を発表したときから、AutoML は注目を集めました。AutoML が ML 開発者の注目を集めたのは、2014 年に ICML が最初の AutoML ワークショップを開催したときでした。AutoML が長年にわたり注力してきたことの XNUMX つは、ハイパーパラメータ検索問題です。この問題では、モデルがさまざまな最適化手法を実装して、特定の機械学習モデルの大規模なハイパーパラメータ空間で最もパフォーマンスの高いハイパーパラメータを決定します。AutoML モデルで一般的に実装されているもう XNUMX つの手法は、特定のハイパーパラメータが特定の機械学習モデルに最適なハイパーパラメータである確率を推定することです。モデルは、従来、以前に推定されたモデルやその他のデータセットからの履歴データを使用するベイズ法を実装することでこれを実現します。ハイパーパラメータの最適化に加えて、モデリングの選択肢の空間から最適なモデルを選択しようとする手法もあります。 

この記事では、主に金融分野で事業を展開する欧州企業向けに開発された AutoML システムである LightAutoML とそのエコシステムについて説明します。LightAutoML フレームワークはさまざまなアプリケーションに導入されており、その結果、高品質の機械学習モデルを構築しながらも、データ サイエンティストのレベルに匹敵する優れたパフォーマンスが実証されました。LightAutoML フレームワークは、次の貢献を試みています。まず、LightAutoML フレームワークは、主に欧州の大手金融機関のエコシステム向けに開発されました。そのフレームワークとアーキテクチャにより、LightAutoML フレームワークは、いくつかのオープン ベンチマークやエコシステム アプリケーションで最先端の AutoML フレームワークを上回るパフォーマンスを発揮します。LightAutoML フレームワークのパフォーマンスは、データ サイエンティストが手動で調整したモデルとも比較され、LightAutoML フレームワークの方が優れたパフォーマンスを発揮することが示されました。 

この記事では、LightAutoML フレームワークを詳細に取り上げ、フレームワークのメカニズム、方法論、アーキテクチャ、および最先端のフレームワークとの比較について説明します。それでは始めましょう。 

LightAutoML: 金融サービス向け AutoML フレームワーク

研究者が AutoML に取り組み始めたのは 90 年代半ばから 20 年代前半ですが、AutoML はここ数年で大きな注目を集め、Amazon の AutoGluon、DarwinAI、HXNUMX.ai、IBM Watson AI、Microsoft AzureML など、機械学習モデルの自動構築を実装する著名な産業ソリューションが数多くあります。これらのフレームワークの大部分は、金融サービス、ヘルスケア、教育など、さまざまなクラスのアプリケーションで ML ベースのモデルを自動的に開発する汎用 AutoML ソリューションを実装しています。この水平汎用アプローチの背後にある重要な前提は、自動モデルの開発プロセスがすべてのアプリケーションで同一であるということです。ただし、LightAutoML フレームワークは、汎用的ではなく、個々のアプリケーション (この場合は大規模な金融機関) のニーズに応える AutoML ソリューションを開発するための垂直アプローチを実装しています。LightAutoML フレームワークは、複雑なエコシステムの要件とその特性に焦点を当てた垂直 AutoML ソリューションです。まず、LightAutoML フレームワークは、高速でほぼ最適なハイパーパラメータ検索を提供します。モデルはこれらのハイパーパラメータを直接最適化しませんが、満足のいく結果を提供します。さらに、このモデルは速度とハイパーパラメータ最適化のバランスを動的に保ち、モデルが小さな問題では最適になり、大きな問題では十分に高速になることを保証します。第XNUMXに、LightAutoML フレームワークは、さまざまなアルゴリズムの大規模なアンサンブルを実装する代わりに、機械学習モデルの範囲を線形モデルと GBM (勾配ブースティング決定木) の XNUMX 種類だけに意図的に制限します。機械学習モデルの範囲を制限する主な理由は、特定の種類の問題とデータのパフォーマンスに悪影響を与えることなく、LightAutoML フレームワークの実行時間を高速化することです。第XNUMXに、LightAutoML フレームワークは、特定の選択ルールとメタ統計に基づいて、モデルで使用されるさまざまな機能の前処理スキームを選択する独自の方法を提供します。LightAutoML フレームワークは、さまざまなアプリケーションのさまざまなオープン データ ソースで評価されています。 

LightAutoML: 方法論とアーキテクチャ

LightAutoML フレームワークは、典型的な機械学習タスクのエンドツーエンドのモデル開発専用のプリセットと呼ばれるモジュールで構成されています。現在、LightAutoML フレームワークはプリセット モジュールをサポートしています。まず、TabularAutoML プリセットは、表形式のデータセットで定義された古典的な機械学習の問題の解決に重点を置いています。次に、ホワイト ボックス プリセットは、WoE や証拠の重み付けエンコーディングの代わりにロジスティック回帰などのシンプルで解釈可能なアルゴリズムと離散化された機能を実装して、表形式のデータに対するバイナリ分類タスクを解決します。シンプルで解釈可能なアルゴリズムを実装することは、さまざまな要因によって生じる解釈可能性の制約のため、アプリケーションの確率をモデル化するための一般的な方法です。3 番目に、NLP プリセットは、表形式のデータと NLP または 自然言語処理 事前トレーニング済みのディープラーニング モデルや特定の特徴抽出ツールなどのツールがあります。最後に、CV プリセットは、いくつかの基本的なツールの助けを借りて画像データを操作します。LightAutoML モデルは 4 つのプリセットすべてをサポートしていますが、フレームワークは実稼働レベルのシステムでは TabularAutoML のみを使用することに注意してください。 

LightAutoML フレームワークの典型的なパイプラインを次の図に示します。 

各パイプラインには 3 つのコンポーネントが含まれています。まず、タスク タイプと生データを入力として受け取るオブジェクトである Reader は、重要なメタデータ計算を実行し、初期データをクリーンアップし、さまざまなモデルを適合させる前に実行するデータ操作を判断します。次に、LightAutoML の内部データセットには、データセットの検証スキームを実装する CV イテレータとメタデータが含まれています。3 番目のコンポーネントは、単一の予測を取得するためにスタックおよび/またはブレンドされた複数の機械学習パイプラインです。LightAutoML フレームワークのアーキテクチャ内の機械学習パイプラインは、単一のデータ検証および前処理スキームを共有する複数の機械学習モデルの 1 つです。前処理ステップには、最大 2 つの特徴選択ステップ、特徴エンジニアリング ステップが含まれる場合があり、前処理が不要な場合は空になる場合があります。ML パイプラインは、同じデータセットで個別に計算してから、平均化 (または加重平均化) を使用してブレンドできます。または、スタッキング アンサンブル スキームを使用して、マルチレベル アンサンブル アーキテクチャを構築できます。 

LightAutoML 表形式プリセット

LightAutoML フレームワーク内では、TabularAutoML がデフォルトのパイプラインであり、表形式データに対する 3 種類のタスクを解決するためにモデルに実装されています。 二項分類、回帰、および多クラス分類を使用して、幅広いパフォーマンス メトリックと損失関数を処理できます。カテゴリ特徴、数値特徴、タイムスタンプ、クラス ラベルまたは連続値を持つ単一のターゲット列の 4 つの列を含むテーブルが、TabularAutoML コンポーネントに入力として供給されます。LightAutoML フレームワークの設計の背後にある主な目的の 1 つは、高速な仮説テスト用のツールを設計することでした。これが、フレームワークがパイプラインの最適化にブルート フォース メソッドを使用することを避け、幅広いデータセットで機能する効率化手法とモデルのみに焦点を当てている主な理由です。 

自動入力とデータ前処理

異なるタイプの機能を異なる方法で処理するには、モデルが各機能タイプを認識する必要があります。小さなデータセットを持つ単一のタスクがある状況では、ユーザーは各機能タイプを手動で指定できます。ただし、数千の機能を含むデータセットを持つ数百のタスクが含まれる状況では、各機能タイプを手動で指定することはもはや実行可能なオプションではありません。TabularAutoML プリセットの場合、LightAutoML フレームワークは、機能を数値、カテゴリ、および日時の 3 つのクラスにマッピングする必要があります。1 つのシンプルで明白な解決策は、列配列データ型を実際の機能タイプとして使用することです。つまり、float/int 列を数値機能に、タイムスタンプまたは文字列 (タイムスタンプとして解析可能) を日時、その他をカテゴリにマッピングします。ただし、カテゴリ列に数値データ型が頻繁に出現するため、このマッピングは最適ではありません。 

検証スキーム

検証スキームは AutoML フレームワークの重要なコンポーネントです。業界のデータは時間の経過とともに変化するため、この変化の要素により、モデルの開発時に IID または Independent Identically Distributed の仮定は無関係になります。AutoML モデルは、検証スキームを使用してパフォーマンスを推定し、ハイパーパラメータを検索し、フォールド外の予測を生成します。TabularAutoML パイプラインは、3 つの検証スキームを実装します。

  • KFold クロス検証KFold クロス検証は、動作モデル用の GroupKFold や分類タスク用の層別 KFold など、TabularAutoML パイプラインのデフォルトの検証スキームです。 
  • ホールドアウト検証: ホールドアウト セットが指定されている場合は、ホールドアウト検証スキームが実装されます。 
  • カスタム検証スキーム: ユーザーは、個々の要件に応じてカスタム検証スキームを作成できます。カスタム検証スキームには、クロス検証や時系列分割スキームが含まれます。 

機能の選択

特徴選択は推論とモデル実装のコスト削減に役立つため、業界標準に従ってモデルを開発する上で重要な側面ですが、AutoMLソリューションの大部分はこの問題にあまり焦点を当てていません。それどころか、TabularAutoMLパイプラインは、選択なし、重要度カットオフ選択、重要度ベースのフォワード選択の3つの特徴選択戦略を実装しています。3つのうち、重要度カットオフ選択の特徴選択戦略がデフォルトです。さらに、特徴の重要度を推定する主な方法は2つあります。分割ベースのツリー重要度と、GBMモデルまたは勾配ブーストの順列重要度です。 決定木重要度カットオフ選択の主な目的は、モデルに役立たない特徴を拒否し、モデルがパフォーマンスに悪影響を与えることなく特徴の数を減らすことを可能にすることです。このアプローチにより、モデルの推論とトレーニングが高速化される可能性があります。 

上の画像は、バイナリ バンク データセットにおけるさまざまな選択戦略を比較したものです。 

ハイパーパラメータ調整

TabularAutoML パイプラインは、チューニング対象に基づいてハイパーパラメータをチューニングするためのさまざまなアプローチを実装します。 

  • ハイパーパラメータチューニングの早期終了 トレーニングフェーズ中のすべてのモデルの反復回数を選択します。 
  • エキスパートシステムのハイパーパラメータ調整 モデルのハイパーパラメータを適切に設定する簡単な方法です。これにより、ハードチューニングされたモデルと比較して、最終モデルのスコアが大幅に低下するのを防ぎます。
  • ツリー構造パルゼン推定法(TPE) GBM または勾配ブースト決定木モデル用。TPE は、LightAutoML パイプラインのデフォルトの選択肢である混合チューニング戦略です。各 GMB フレームワークに対して、LightAutoML フレームワークは 2 つのモデルをトレーニングします。最初のモデルはエキスパート ハイパーパラメータを取得し、2 番目のモデルは時間予算に収まるように微調整されます。 
  • グリッドサーチハイパーパラメータチューニング TabularAutoML パイプラインに実装されており、早期停止およびウォーム スタートとともに線形モデルの正規化パラメーターを微調整します。 

モデルは、ユーザーが定義した、または解決されたタスクのデフォルトであるメトリック関数を最大化することによって、すべてのパラメータを調整します。 

LightAutoML: 実験とパフォーマンス

パフォーマンスを評価するために、LightAutoML フレームワーク内の TabularAutoML プリセットをさまざまなタスクにわたる既存のオープンソース ソリューションと比較し、LightAutoML フレームワークの優れたパフォーマンスを確固たるものにしています。まず、35 のバイナリおよびマルチクラス分類タスク データセットで評価される OpenML ベンチマークで比較が行われます。次の表は、LightAutoML フレームワークと既存の AutoML システムの比較をまとめたものです。 

ご覧のとおり、LightAutoML フレームワークは、ベンチマーク内の 20 のデータセットで他のすべての AutoML システムよりも優れたパフォーマンスを発揮します。次の表には、データセット コンテキストでの詳細な比較が含まれており、LightAutoML はさまざまなクラスのタスクで異なるパフォーマンスを発揮することがわかります。バイナリ分類タスクの場合、LightAutoML のパフォーマンスは劣りますが、データ量が多いタスクの場合、LightAutoML フレームワークは優れたパフォーマンスを発揮します。

次の表は、さまざまなバイナリ分類タスクのセットを含む 15 の銀行データセットで、LightAutoML フレームワークと AutoML システムのパフォーマンスを比較したものです。ご覧のとおり、LightAutoML は 12 のデータセットのうち 15 ですべての AutoML ソリューションを上回り、勝率は 80% です。 

最終的な考え

この記事では、主に金融分野で事業を展開する欧州企業とそのエコシステム向けに開発された AutoML システムである LightAutoML について説明しました。LightAutoML フレームワークはさまざまなアプリケーションに導入されており、その結果、高品質の機械学習モデルを構築しながらも、データ サイエンティストのレベルに匹敵する優れたパフォーマンスが実証されました。LightAutoML フレームワークは、次の貢献を試みています。まず、LightAutoML フレームワークは、主に欧州の大手金融機関のエコシステム向けに開発されました。そのフレームワークとアーキテクチャにより、LightAutoML フレームワークは、いくつかのオープン ベンチマークやエコシステム アプリケーションで最先端の AutoML フレームワークを上回るパフォーマンスを発揮します。LightAutoML フレームワークのパフォーマンスは、データ サイエンティストが手動で調整したモデルとも比較され、LightAutoML フレームワークの方が優れたパフォーマンスを発揮することが示されました。 

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。