Rescale 미팅 예약

인공 지능

LightAutoML: 대규모 금융 서비스 생태계를 위한 AutoML 솔루션

mm
업데이트 on

AutoML은 몇 년 전에 인기를 얻었지만 AutoML의 역사는 90년대 초반으로 거슬러 올라갑니다. 과학자들이 초매개변수 최적화에 관한 첫 번째 논문을 발표했을 때입니다. AutoML이 ML 개발자의 관심을 얻은 것은 ICML이 첫 번째 AutoML 워크숍을 조직한 2014년이었습니다. AutoML이 수년 동안 중점을 두었던 것 중 하나는 모델이 특정 기계 학습 모델에 대한 대규모 초매개변수 공간에서 가장 성능이 좋은 초매개변수를 결정하기 위해 일련의 최적화 방법을 구현하는 초매개변수 검색 문제입니다. AutoML 모델에서 일반적으로 구현되는 또 다른 방법은 특정 초매개변수가 특정 기계 학습 모델에 대한 최적의 초매개변수가 될 확률을 추정하는 것입니다. 이 모델은 이전에 추정된 모델과 기타 데이터 세트의 과거 데이터를 전통적으로 사용하는 베이지안 방법을 구현하여 이를 달성합니다. 하이퍼파라미터 최적화 외에도 다른 방법에서는 모델링 대안 공간에서 최상의 모델을 선택하려고 시도합니다. 

이 기사에서는 생태계와 함께 금융 부문에서 운영되는 유럽 회사를 위해 주로 개발된 AutoML 시스템인 LightAutoML에 대해 설명합니다. LightAutoML 프레임워크는 다양한 애플리케이션에 배포되었으며, 그 결과 고품질 머신러닝 모델을 구축하면서도 데이터 과학자 수준에 필적하는 뛰어난 성능을 보여주었습니다. LightAutoML 프레임워크는 다음과 같은 기여를 시도합니다. 첫째, LightAutoML 프레임워크는 주로 유럽의 대규모 금융 및 금융 기관의 생태계를 위해 개발되었습니다. 프레임워크와 아키텍처 덕분에 LightAutoML 프레임워크는 여러 공개 벤치마크와 생태계 애플리케이션에서 최첨단 AutoML 프레임워크보다 뛰어난 성능을 발휘할 수 있습니다. LightAutoML 프레임워크의 성능은 데이터 과학자가 수동으로 조정한 모델과도 비교되었으며 결과는 LightAutoML 프레임워크의 성능이 더 강력하다는 것을 나타냅니다. 

이 기사는 LightAutoML 프레임워크를 심층적으로 다루는 것을 목표로 하며, 최신 프레임워크와의 비교와 함께 프레임워크의 메커니즘, 방법론, 아키텍처를 탐구합니다. 그럼 시작해 보겠습니다. 

LightAutoML: 금융 서비스를 위한 AutoML 프레임워크

연구자들이 90년대 중반과 초반에 AutoML에 대한 작업을 처음 시작했지만 AutoML은 지난 몇 년 동안 큰 관심을 끌었습니다. 자동 빌드 기계 학습 모델을 구현하는 주요 산업 솔루션 중 일부는 Amazon의 AutoGluon, DarwinAI, H20.ai입니다. , IBM Watson AI, Microsoft AzureML 등이 있습니다. 이러한 프레임워크의 대부분은 금융 서비스, 의료, 교육 등 다양한 애플리케이션 클래스에서 ML 기반 모델을 자동으로 개발하는 범용 AutoML 솔루션을 구현합니다. 이 수평적 일반 접근 방식의 주요 가정은 자동 모델 개발 프로세스가 모든 애플리케이션에서 동일하게 유지된다는 것입니다. 그러나 LightAutoML 프레임워크는 일반적인 AutoML 솔루션이 아닌 개별 애플리케이션(이 경우 대규모 금융 기관)의 요구 사항을 충족하는 AutoML 솔루션을 개발하기 위해 수직적 접근 방식을 구현합니다. LightAutoML 프레임워크는 복잡한 생태계의 요구 사항과 그 특성에 초점을 맞춘 수직형 AutoML 솔루션입니다. 첫째, LightAutoML 프레임워크는 빠르고 최적에 가까운 하이퍼파라미터 검색을 제공합니다. 모델이 이러한 하이퍼파라미터를 직접 최적화하지는 않지만 만족스러운 결과를 제공합니다. 또한 모델은 속도와 하이퍼파라미터 최적화 간의 균형을 동적으로 유지하여 작은 문제에서는 모델이 최적이고 큰 문제에서는 충분히 빠른지 확인합니다. 둘째, LightAutoML 프레임워크는 다양한 알고리즘의 대규모 앙상블을 구현하는 대신 의도적으로 기계 학습 모델의 범위를 선형 모델, GBM 또는 그래디언트 강화 의사 결정 트리의 두 가지 유형으로만 제한합니다. 기계 학습 모델의 범위를 제한하는 주된 이유는 주어진 유형의 문제 및 데이터에 대한 성능에 부정적인 영향을 주지 않고 LightAutoML 프레임워크의 실행 시간을 단축하는 것입니다. 셋째, LightAutoML 프레임워크는 특정 선택 규칙 및 메타 통계를 기반으로 모델에 사용되는 다양한 기능에 대한 전처리 방식을 선택하는 고유한 방법을 제시합니다. LightAutoML 프레임워크는 광범위한 애플리케이션의 광범위한 개방형 데이터 소스에서 평가됩니다. 

LightAutoML: 방법론 및 아키텍처

LightAutoML 프레임워크는 일반적인 기계 학습 작업을 위한 엔드투엔드 모델 개발 전용인 사전 설정이라는 모듈로 구성됩니다. 현재 LightAutoML 프레임워크는 사전 설정 모듈을 지원합니다. 첫째, TabularAutoML Preset은 표 형식 데이터 세트에 정의된 기존 기계 학습 문제를 해결하는 데 중점을 둡니다. 둘째, White-Box Preset은 WoE 또는 Weight of Evidence 인코딩 대신 Logistic Regression과 같은 간단한 해석 가능한 알고리즘과 이산화된 기능을 구현하여 표 형식 데이터에 대한 이진 분류 작업을 해결합니다. 간단한 해석 가능한 알고리즘을 구현하는 것은 다양한 요인으로 인한 해석 가능성 제약으로 인해 애플리케이션의 확률을 모델링하는 일반적인 관행입니다. 셋째, NLP Preset은 표 형식의 데이터를 NLP 또는 자연 언어 처리 사전 훈련된 딥 러닝 모델과 특정 특징 추출기를 포함한 도구입니다. 마지막으로 CV 사전 설정은 몇 가지 기본 도구를 사용하여 이미지 데이터와 함께 작동합니다. LightAutoML 모델은 4가지 사전 설정을 모두 지원하지만 프레임워크는 프로덕션 수준 시스템에서 TabularAutoML만 사용한다는 점에 유의하는 것이 중요합니다. 

LightAutoML 프레임워크의 일반적인 파이프라인은 다음 이미지에 포함되어 있습니다. 

각 파이프라인에는 세 가지 구성요소가 포함되어 있습니다. 먼저 작업 유형과 원시 데이터를 입력으로 받는 객체인 Reader는 중요한 메타데이터 계산을 수행하고, 초기 데이터를 정리하고, 다른 모델을 피팅하기 전에 수행할 데이터 조작을 파악합니다. 다음으로, LightAutoML 내부 데이터세트에는 데이터세트에 대한 유효성 검사 체계를 구현하는 CV 반복자와 메타데이터가 포함되어 있습니다. 세 번째 구성 요소는 단일 예측을 얻기 위해 쌓이거나 혼합된 여러 기계 학습 파이프라인입니다. LightAutoML 프레임워크 아키텍처 내의 기계 학습 파이프라인은 단일 데이터 검증 및 전처리 체계를 공유하는 여러 기계 학습 모델 중 하나입니다. 전처리 단계에는 최대 2개의 기능 선택 단계, 즉 기능 엔지니어링 단계가 있을 수 있으며 전처리가 필요하지 않은 경우 비어 있을 수 있습니다. ML 파이프라인은 동일한 데이터세트에서 독립적으로 계산된 다음 평균화(또는 가중 평균화)를 사용하여 함께 혼합될 수 있습니다. 또는 스태킹 앙상블 방식을 사용하여 다중 레벨 앙상블 아키텍처를 구축할 수 있습니다. 

LightAutoML 테이블 형식 사전 설정

LightAutoML 프레임워크 내에서 TabularAutoML은 기본 파이프라인이며, 표 형식 데이터에 대한 세 가지 유형의 작업을 해결하기 위해 모델에 구현됩니다. 이진 분류다양한 성능 지표 및 손실 함수에 대한 , 회귀 및 다중 클래스 분류를 제공합니다. 범주형 기능, 숫자 기능, 타임스탬프, 클래스 레이블 또는 연속 값이 있는 단일 대상 열 등 4개 열이 포함된 테이블은 TabularAutoML 구성 요소에 입력으로 제공됩니다. LightAutoML 프레임워크 설계의 주요 목표 중 하나는 빠른 가설 테스트를 위한 도구를 설계하는 것이었습니다. 이는 프레임워크가 파이프라인 최적화를 위해 무차별 대입 방법을 사용하지 않고 전체 환경에서 작동하는 효율성 기술과 모델에만 초점을 맞춘 주요 이유입니다. 광범위한 데이터 세트. 

자동 입력 및 데이터 전처리

다양한 유형의 특징을 다양한 방식으로 처리하려면 모델이 각 특징 유형을 알아야 합니다. 작은 데이터 세트가 포함된 단일 작업이 있는 경우 사용자는 각 기능 유형을 수동으로 지정할 수 있습니다. 그러나 수천 개의 기능이 포함된 데이터 세트와 수백 개의 작업이 포함된 상황에서는 각 기능 유형을 수동으로 지정하는 것이 더 이상 실행 가능한 옵션이 아닙니다. TabularAutoML 사전 설정의 경우 LightAutoML 프레임워크는 기능을 숫자, 범주 및 날짜/시간의 세 가지 클래스로 매핑해야 합니다. 간단하고 확실한 해결책 중 하나는 열 배열 데이터 유형을 실제 기능 유형으로 사용하는 것입니다. 즉, float/int 열을 숫자 기능, 타임스탬프 또는 문자열에 매핑하여 타임스탬프로 구문 분석할 수 있으며 날짜/시간으로, 기타 항목은 카테고리로 매핑하는 것입니다. 그러나 이 매핑은 범주 열에 숫자 데이터 유형이 자주 발생하기 때문에 가장 적합하지 않습니다. 

검증 방식

업계의 데이터는 시간이 지남에 따라 변경될 수 있으므로 유효성 검사 체계는 AutoML 프레임워크의 필수 구성 요소이며, 이러한 변경 요소로 인해 모델을 개발할 때 IID 또는 독립적이고 동일하게 분산된 가정이 관련이 없게 됩니다. AutoML 모델은 검증 체계를 사용하여 성능을 추정하고, 초매개변수를 검색하고, Out-of-fold 예측을 생성합니다. TabularAutoML 파이프라인은 세 가지 유효성 검사 체계를 구현합니다.

  • KFold 교차 검증: KFold 교차 검증은 행동 모델을 위한 GroupKFold와 분류 작업을 위한 계층화된 KFold를 포함하는 TabularAutoML 파이프라인의 기본 검증 체계입니다. 
  • 홀드아웃 검증: 홀드아웃 세트가 지정된 경우 홀드아웃 유효성 검사 체계가 구현됩니다. 
  • 맞춤형 검증 체계: 사용자는 개별 요구 사항에 따라 사용자 정의 유효성 검사 체계를 만들 수 있습니다. 사용자 정의 검증 체계에는 교차 검증 및 시계열 분할 체계가 포함됩니다. 

기능 선택

기능 선택은 추론 및 모델 구현 비용 절감을 촉진하므로 업계 표준에 따라 모델을 개발하는 데 중요한 측면이지만 대부분의 AutoML 솔루션은 이 문제에 크게 초점을 맞추지 않습니다. 반대로 TabularAutoML 파이프라인은 선택 없음, 중요도 차단 선택, 중요도 기반 순방향 선택의 세 가지 기능 선택 전략을 구현합니다. 세 가지 중 중요도 차단 선택 기능 선택 전략이 기본값입니다. 또한 기능 중요도를 추정하는 두 가지 주요 방법이 있습니다. 분할 기반 트리 중요도와 GBM 모델의 순열 중요도 또는 그래디언트 부스트입니다. 결정 트리. 중요도 컷오프 선택의 주요 목표는 모델에 도움이 되지 않는 기능을 거부하여 모델이 성능에 부정적인 영향을 주지 않고 기능 수를 줄일 수 있도록 하는 것입니다. 이는 모델 추론 및 교육 속도를 높일 수 있는 접근 방식입니다. 

위 이미지는 바이너리 뱅크 데이터세트의 다양한 선택 전략을 비교합니다. 

하이퍼 파라미터 튜닝

TabularAutoML 파이프라인은 조정된 항목을 기반으로 하이퍼 매개변수를 조정하는 다양한 접근 방식을 구현합니다. 

  • 하이퍼파라미터 튜닝 조기 중단 훈련 단계 동안 모든 모델에 대한 반복 횟수를 선택합니다. 
  • 전문가 시스템 초매개변수 조정 만족스러운 방식으로 모델의 하이퍼파라미터를 설정하는 간단한 방법입니다. 하드 튜닝된 모델에 비해 최종 모델의 점수가 크게 감소하는 것을 방지합니다.
  • 트리 구조의 Parzen 추정(TPE) GBM 또는 그래디언트 강화 의사결정 트리 모델의 경우. TPE는 LightAutoML 파이프라인에서 기본 선택인 혼합 조정 전략입니다. 각 GMB 프레임워크에 대해 LightAutoML 프레임워크는 두 가지 모델을 교육합니다. 첫 번째는 전문적인 하이퍼파라미터를 가져오고 두 번째는 시간 예산에 맞게 미세 조정됩니다. 
  • 그리드 검색 하이퍼파라미터 튜닝 조기 중지 및 웜 스타트와 함께 선형 모델의 정규화 매개변수를 미세 조정하기 위해 TabularAutoML 파이프라인에 구현되었습니다. 

모델은 사용자가 정의했거나 해결된 작업의 기본값인 메트릭 함수를 최대화하여 모든 매개변수를 조정합니다. 

LightAutoML: 실험 및 성능

성능을 평가하기 위해 LightAutoML 프레임워크 내의 TabularAutoML 사전 설정을 다양한 작업에 걸쳐 기존 오픈 소스 솔루션과 비교하여 LightAutoML 프레임워크의 우수한 성능을 확고히 합니다. 먼저, 35개의 이진 및 다중 클래스 분류 작업 데이터 세트를 평가하는 OpenML 벤치마크에서 비교가 수행됩니다. 다음 표에는 LightAutoML 프레임워크와 기존 AutoML 시스템의 비교가 요약되어 있습니다. 

보시다시피 LightAutoML 프레임워크는 벤치마크 내의 20개 데이터 세트에서 다른 모든 AutoML 시스템보다 성능이 뛰어납니다. 다음 표에는 LightAutoML이 다양한 작업 클래스에서 다양한 성능을 제공한다는 것을 나타내는 데이터 세트 컨텍스트의 자세한 비교가 포함되어 있습니다. 이진 분류 작업의 경우 LightAutoML은 성능이 부족한 반면, 데이터 양이 많은 작업의 경우 LightAutoML 프레임워크는 뛰어난 성능을 제공합니다.

다음 표는 다양한 이진 분류 작업 세트가 포함된 15개 은행 데이터세트에서 LightAutoML 프레임워크의 성능을 AutoML 시스템과 비교합니다. 관찰할 수 있듯이 LightAutoML은 12개 데이터 세트 중 15개에서 모든 AutoML 솔루션보다 성능이 뛰어나며 승률은 80입니다. 

최종 생각

이 기사에서는 생태계와 함께 금융 부문에서 운영되는 유럽 회사를 위해 주로 개발된 AutoML 시스템인 LightAutoML에 대해 설명했습니다. LightAutoML 프레임워크는 다양한 애플리케이션에 배포되었으며, 그 결과 고품질 머신러닝 모델을 구축하면서도 데이터 과학자 수준에 필적하는 뛰어난 성능을 보여주었습니다. LightAutoML 프레임워크는 다음과 같은 기여를 시도합니다. 첫째, LightAutoML 프레임워크는 주로 유럽의 대규모 금융 및 금융 기관의 생태계를 위해 개발되었습니다. 프레임워크와 아키텍처 덕분에 LightAutoML 프레임워크는 여러 공개 벤치마크와 생태계 애플리케이션에서 최첨단 AutoML 프레임워크보다 뛰어난 성능을 발휘할 수 있습니다. LightAutoML 프레임워크의 성능은 데이터 과학자가 수동으로 조정한 모델과도 비교되었으며 결과는 LightAutoML 프레임워크의 성능이 더 강력하다는 것을 나타냅니다. 

"직업은 엔지니어, 마음은 작가". Kunal은 AI와 ML에 대한 깊은 애정과 이해를 가진 기술 작가로, 매력적이고 유익한 문서를 통해 이 분야의 복잡한 개념을 단순화하는 데 전념하고 있습니다.