Kecerdasan Buatan
LightAutoML: Solusi AutoML untuk Ekosistem Jasa Keuangan Besar
Meskipun AutoML mulai populer beberapa tahun yang lalu, upaya awal terus berjalan AutoML sudah ada sejak awal tahun 90an ketika para ilmuwan menerbitkan makalah pertama tentang optimasi hyperparameter. Pada tahun 2014 ketika ICML menyelenggarakan lokakarya AutoML pertama, AutoML menarik perhatian pengembang ML. Salah satu fokus utama AutoML selama bertahun-tahun adalah masalah penelusuran hyperparameter, di mana model mengimplementasikan serangkaian metode pengoptimalan untuk menentukan hyperparameter berperforma terbaik dalam ruang hyperparameter besar untuk model pembelajaran mesin tertentu. Metode lain yang biasa diterapkan oleh model AutoML adalah memperkirakan kemungkinan hyperparameter tertentu menjadi hyperparameter optimal untuk model pembelajaran mesin tertentu. Model ini mencapai hal ini dengan menerapkan metode Bayesian yang secara tradisional menggunakan data historis dari model estimasi sebelumnya, dan kumpulan data lainnya. Selain optimasi hyperparameter, metode lain mencoba memilih model terbaik dari berbagai alternatif pemodelan.
Pada artikel ini, kami akan membahas LightAutoML, sistem AutoML yang dikembangkan terutama untuk perusahaan Eropa yang beroperasi di sektor keuangan beserta ekosistemnya. Kerangka kerja LightAutoML diterapkan di berbagai aplikasi, dan hasilnya menunjukkan kinerja yang unggul, sebanding dengan tingkat data scientist, bahkan saat membuat model pembelajaran mesin berkualitas tinggi. Kerangka kerja LightAutoML mencoba memberikan kontribusi berikut. Pertama, kerangka LightAutoML dikembangkan terutama untuk ekosistem lembaga keuangan dan perbankan besar Eropa. Karena kerangka kerja dan arsitekturnya, kerangka LightAutoML mampu mengungguli kerangka kerja AutoML yang canggih di beberapa tolok ukur terbuka serta aplikasi ekosistem. Performa framework LightAutoML juga dibandingkan dengan model yang disetel secara manual oleh data scientist, dan hasilnya menunjukkan performa yang lebih kuat dari framework LightAutoML.
Artikel ini bertujuan untuk membahas kerangka kerja LightAutoML secara mendalam, dan kami mengeksplorasi mekanisme, metodologi, arsitektur kerangka kerja serta perbandingannya dengan kerangka kerja canggih. Jadi mari kita mulai.
LightAutoML: Kerangka AutoML untuk Layanan Keuangan
Meskipun para peneliti pertama kali mulai mengerjakan AutoML pada pertengahan dan awal tahun 90-an, AutoML menarik banyak perhatian selama beberapa tahun terakhir, dengan beberapa solusi industri terkemuka yang menerapkan model Pembelajaran Mesin yang dibuat secara otomatis adalah AutoGluon dari Amazon, DarwinAI, H20.ai , IBM Watson AI, Microsoft AzureML, dan banyak lagi. Mayoritas kerangka kerja ini menerapkan solusi AutoML tujuan umum yang mengembangkan model berbasis ML secara otomatis di berbagai kelas aplikasi di layanan keuangan, layanan kesehatan, pendidikan, dan banyak lagi. Asumsi utama di balik pendekatan generik horizontal ini adalah bahwa proses pengembangan model otomatis tetap sama di semua aplikasi. Namun, kerangka LightAutoML menerapkan pendekatan vertikal untuk mengembangkan solusi AutoML yang tidak bersifat umum, melainkan memenuhi kebutuhan aplikasi individual, dalam hal ini lembaga keuangan besar. Kerangka kerja LightAutoML adalah solusi AutoML vertikal yang berfokus pada kebutuhan ekosistem yang kompleks beserta karakteristiknya. Pertama, kerangka LightAutoML menyediakan pencarian hyperparameter yang cepat dan mendekati optimal. Meskipun model ini tidak mengoptimalkan hyperparameter ini secara langsung, model ini berhasil memberikan hasil yang memuaskan. Selain itu, model ini menjaga keseimbangan antara kecepatan dan pengoptimalan hyperparameter secara dinamis, untuk memastikan model optimal pada masalah kecil, dan cukup cepat pada masalah besar. Kedua, kerangka kerja LightAutoML membatasi rentang model pembelajaran mesin hanya pada dua jenis: model linier, dan GBM atau pohon keputusan yang ditingkatkan gradien, alih-alih menerapkan kumpulan besar algoritma yang berbeda. Alasan utama di balik pembatasan rentang model pembelajaran mesin adalah untuk mempercepat waktu eksekusi framework LightAutoML tanpa berdampak negatif pada performa untuk jenis masalah dan data tertentu. Ketiga, kerangka LightAutoML menghadirkan metode unik dalam memilih skema prapemrosesan untuk berbagai fitur yang digunakan dalam model berdasarkan aturan pemilihan dan meta-statistik tertentu. Kerangka kerja LightAutoML dievaluasi pada berbagai sumber data terbuka di berbagai aplikasi.
LightAutoML: Metodologi dan Arsitektur
Kerangka kerja LightAutoML terdiri dari modul yang dikenal sebagai Preset yang didedikasikan untuk pengembangan model ujung ke ujung untuk tugas pembelajaran mesin pada umumnya. Saat ini, kerangka LightAutoML mendukung modul Preset. Pertama, Preset TabularAutoML berfokus pada penyelesaian masalah pembelajaran mesin klasik yang ditentukan pada kumpulan data tabular. Kedua, Preset Kotak Putih mengimplementasikan algoritma sederhana yang dapat diinterpretasikan seperti Regresi Logistik alih-alih pengkodean WoE atau Weight of Evidence dan fitur-fitur yang didiskritisasi untuk menyelesaikan tugas klasifikasi biner pada data tabular. Menerapkan algoritma sederhana yang dapat diinterpretasikan adalah praktik umum untuk memodelkan probabilitas suatu aplikasi karena kendala interpretabilitas yang ditimbulkan oleh berbagai faktor. Ketiga, NLP Preset mampu menggabungkan data tabular dengan NLP atau Pengolahan Bahasa alami alat termasuk model pembelajaran mendalam yang telah dilatih sebelumnya dan ekstraktor fitur tertentu. Terakhir, CV Preset bekerja dengan data gambar dengan bantuan beberapa alat dasar. Penting untuk dicatat bahwa meskipun model LightAutoML mendukung keempat Preset, kerangka kerjanya hanya menggunakan TabularAutoML dalam sistem tingkat produksi.
Alur khas kerangka LightAutoML disertakan dalam gambar berikut.
Setiap pipa berisi tiga komponen. Pertama, Pembaca, sebuah objek yang menerima jenis tugas dan data mentah sebagai masukan, melakukan penghitungan metadata penting, membersihkan data awal, dan mengetahui manipulasi data yang akan dilakukan sebelum memasang model yang berbeda. Selanjutnya, kumpulan data dalam LightAutoML berisi iterator CV dan metadata yang menerapkan skema validasi untuk kumpulan data tersebut. Komponen ketiga adalah beberapa pipeline machine learning yang ditumpuk dan/atau digabungkan untuk mendapatkan satu prediksi. Pipeline pembelajaran mesin dalam arsitektur kerangka LightAutoML adalah salah satu dari beberapa model pembelajaran mesin yang berbagi validasi data tunggal dan skema prapemrosesan. Langkah prapemrosesan mungkin memiliki hingga dua langkah pemilihan fitur, langkah rekayasa fitur, atau mungkin kosong jika tidak diperlukan prapemrosesan. Pipeline ML dapat dihitung secara independen pada kumpulan data yang sama dan kemudian digabungkan menggunakan rata-rata (atau rata-rata tertimbang). Sebagai alternatif, skema ansambel susun dapat digunakan untuk membangun arsitektur ansambel bertingkat.
Preset Tabel LightAutoML
Dalam kerangka LightAutoML, TabularAutoML adalah pipeline default, dan diimplementasikan dalam model untuk menyelesaikan tiga jenis tugas pada data tabular: klasifikasi biner, regresi, dan klasifikasi kelas jamak untuk beragam metrik kinerja dan fungsi kerugian. Tabel dengan empat kolom berikut: fitur kategorikal, fitur numerik, stempel waktu, dan kolom target tunggal dengan label kelas atau nilai berkelanjutan dimasukkan ke komponen TabularAutoML sebagai input. Salah satu tujuan utama di balik desain kerangka kerja LightAutoML adalah merancang alat untuk pengujian hipotesis cepat, alasan utama mengapa kerangka kerja ini menghindari penggunaan metode brute force untuk pengoptimalan saluran pipa, dan hanya berfokus pada teknik dan model efisiensi yang bekerja di seluruh jaringan. kumpulan data yang luas.
Pengetikan Otomatis dan Pemrosesan Awal Data
Untuk menangani berbagai jenis fitur dengan cara berbeda, model perlu mengetahui setiap jenis fitur. Dalam situasi ketika terdapat satu tugas dengan kumpulan data kecil, pengguna dapat menentukan setiap tipe fitur secara manual. Namun, menentukan setiap jenis fitur secara manual tidak lagi merupakan pilihan yang tepat dalam situasi yang mencakup ratusan tugas dengan kumpulan data yang berisi ribuan fitur. Untuk Preset TabularAutoML, kerangka LightAutoML perlu memetakan fitur ke dalam tiga kelas: numerik, kategori, dan waktu-tanggal. Salah satu solusi sederhana dan jelas adalah dengan menggunakan tipe data array kolom sebagai tipe fitur sebenarnya, yaitu memetakan kolom float/int ke fitur numerik, stempel waktu, atau string, yang dapat diurai sebagai stempel waktu — ke waktu tanggal, dan lainnya ke kategori. Namun pemetaan ini bukan yang terbaik karena seringnya kemunculan tipe data numerik pada kolom kategori.
Skema Validasi
Skema validasi adalah komponen penting kerangka AutoML karena data dalam industri dapat berubah seiring waktu, dan elemen perubahan ini membuat asumsi IID atau Independent Identically Distributed tidak relevan saat mengembangkan model. Model AutoML menggunakan skema validasi untuk memperkirakan performanya, mencari hyperparameter, dan pembuatan prediksi out-of-fold. Pipeline TabularAutoML mengimplementasikan tiga skema validasi:
- Validasi Silang KFold: KFold Cross Validation adalah skema validasi default untuk pipeline TabularAutoML termasuk GroupKFold untuk model perilaku, dan KFold bertingkat untuk tugas klasifikasi.
- Validasi Penahanan : Skema validasi Holdout diterapkan jika set holdout ditentukan.
- Skema Validasi Kustom: Skema validasi khusus dapat dibuat oleh pengguna bergantung pada kebutuhan masing-masing. Skema Validasi Kustom mencakup validasi silang dan skema pemisahan rangkaian waktu.
Pemilihan Fitur
Meskipun pemilihan fitur merupakan aspek penting dalam pengembangan model sesuai standar industri karena memfasilitasi pengurangan biaya inferensi dan implementasi model, sebagian besar solusi AutoML tidak terlalu fokus pada masalah ini. Sebaliknya, pipeline TabularAutoML menerapkan tiga strategi pemilihan fitur: Tanpa pemilihan, Pemilihan batas kepentingan, dan Pemilihan penerusan berbasis kepentingan. Dari ketiganya, strategi pemilihan fitur potong kepentingan adalah default. Selain itu, ada dua cara utama untuk memperkirakan pentingnya fitur: kepentingan pohon berbasis pemisahan, dan pentingnya permutasi model GBM atau peningkatan gradien. pohon keputusan. Tujuan utama dari pemilihan batas kepentingan adalah untuk menolak fitur yang tidak berguna bagi model, sehingga model dapat mengurangi jumlah fitur tanpa berdampak negatif pada performa, sebuah pendekatan yang dapat mempercepat inferensi dan pelatihan model.
Gambar di atas membandingkan berbagai strategi pemilihan pada kumpulan data bank biner.
Penyesuaian Hyperparameter
Pipeline TabularAutoML menerapkan pendekatan berbeda untuk menyetel hyperparameter berdasarkan apa yang disetel.
- Penyetelan Hyperparameter Penghentian Awal memilih jumlah iterasi untuk semua model selama fase pelatihan.
- Penyetelan Hyperparameter Sistem Pakar adalah cara sederhana untuk menyetel hyperparameter untuk model dengan cara yang memuaskan. Hal ini mencegah model akhir mengalami penurunan skor yang tinggi dibandingkan dengan model yang telah disempurnakan.
- Estimasi Parzen Terstruktur Pohon atau TPE untuk GBM atau model pohon keputusan yang ditingkatkan gradien. TPE adalah strategi penyetelan campuran yang merupakan pilihan default di pipeline LightAutoML. Untuk setiap framework GMB, framework LightAutoML melatih dua model: model pertama mendapatkan hyperparameter ahli, dan model kedua disesuaikan agar sesuai dengan anggaran waktu.
- Penyetelan Hyperparameter Pencarian Grid diimplementasikan dalam pipeline TabularAutoML untuk menyempurnakan parameter regularisasi model linier bersama dengan penghentian awal dan start hangat.
Model ini menyesuaikan semua parameter dengan memaksimalkan fungsi metrik, baik yang ditentukan oleh pengguna atau default untuk tugas yang diselesaikan.
LightAutoML : Eksperimen dan Performa
Untuk mengevaluasi kinerja, Preset TabularAutoML dalam kerangka LightAutoML dibandingkan dengan solusi sumber terbuka yang sudah ada di berbagai tugas, dan memperkuat kinerja kerangka LightAutoML yang unggul. Pertama, perbandingan dilakukan pada benchmark OpenML yang dievaluasi pada 35 dataset tugas klasifikasi biner dan multikelas. Tabel berikut merangkum perbandingan kerangka kerja LightAutoML dengan sistem AutoML yang ada.
Seperti yang dapat dilihat, kerangka kerja LightAutoML mengungguli semua sistem AutoML lainnya pada 20 kumpulan data dalam benchmark. Tabel berikut berisi perbandingan mendetail dalam konteks kumpulan data yang menunjukkan bahwa LightAutoML memberikan performa berbeda pada kelas tugas berbeda. Untuk tugas klasifikasi biner, kinerja LightAutoML kurang, sedangkan untuk tugas dengan jumlah data yang tinggi, kerangka kerja LightAutoML memberikan kinerja yang unggul.
Tabel berikut membandingkan performa kerangka LightAutoML terhadap sistem AutoML pada 15 kumpulan data bank yang berisi serangkaian tugas klasifikasi biner yang berbeda. Seperti yang dapat diamati, LightAutoML mengungguli semua solusi AutoML pada 12 dari 15 kumpulan data, dengan persentase kemenangan sebesar 80.
Final Thoughts
Pada artikel ini kita telah membahas LightAutoML, sistem AutoML yang dikembangkan terutama untuk perusahaan Eropa yang beroperasi di sektor keuangan beserta ekosistemnya. Kerangka kerja LightAutoML diterapkan di berbagai aplikasi, dan hasilnya menunjukkan kinerja yang unggul, sebanding dengan tingkat data scientist, bahkan saat membuat model pembelajaran mesin berkualitas tinggi. Kerangka kerja LightAutoML mencoba memberikan kontribusi berikut. Pertama, kerangka LightAutoML dikembangkan terutama untuk ekosistem lembaga keuangan dan perbankan besar Eropa. Berkat kerangka kerja dan arsitekturnya, kerangka kerja LightAutoML mampu mengungguli kerangka kerja AutoML yang canggih di beberapa tolok ukur terbuka serta aplikasi ekosistem. Performa framework LightAutoML juga dibandingkan dengan model yang disetel secara manual oleh data scientist, dan hasilnya menunjukkan performa yang lebih kuat dari framework LightAutoML.