Girêdana bi me

Îstîxbaratê ya sûnî

LightAutoML: Çareseriya AutoML ji bo Ekosîstemek Karûbarên Aborî ya Mezin

mm
Demê on

Her çend AutoML çend sal berê populerbûna xwe zêde kir, xebata hêsan li ser AutoML vedigere destpêka salên 90-an dema ku zanyar yekem kaxezên li ser optimîzasyona hyperparameterê weşandin. Di sala 2014-an de dema ku ICML yekem atolyeya AutoML organîze kir ku AutoML bala pêşdebirên ML kişand. Yek ji girîngtirîn balê di salên AutoML de pirsgirêka lêgerîna hîperparameterê ye, ku model rêzek awayên xweşbîniyê bicîh tîne da ku di cîhek hîperparametreya mezin de ji bo modelek fêrbûna makîneya taybetî hîperparametreyên performansa çêtirîn destnîşan bike. Rêbazek din ku bi gelemperî ji hêla modelên AutoML ve têne bicîh kirin ev e ku îhtîmala hîperparametreyek taybetî ji bo modelek fêrbûna makîneya diyarkirî hîperparametreya çêtirîn be. Model vê yekê bi pêkanîna rêbazên Bayesian ku bi kevneşopî daneyên dîrokî yên ji modelên berê texmînkirî, û danehevên din bikar tînin, digihîje. Digel xweşbînkirina hîperparameterê, rêbazên din hewl didin ku modelên çêtirîn ji cîhek alternatîfên modelkirinê hilbijêrin. 

Di vê gotarê de, em ê LightAutoML, pergalek AutoML-ê ku di serî de ji bo pargîdaniyek Ewropî ku digel ekosîstema xwe di sektora darayî de dixebite, hatî pêşve xistin veşêrin. Çarçoveya LightAutoML di nav sepanên cihêreng de tête bicîh kirin, û encaman performansa bilindtir nîşan da, ku bi asta zanyarên daneyê re tê berhev kirin, tewra dema ku modelên fêrbûna makîneya kalîteya bilind ava dikin. Çarçoveya LightAutoML hewl dide ku beşdariyên jêrîn bike. Pêşîn, çarçoveya LightAutoML di serî de ji bo ekosîstema saziyek mezin a darayî û bankingê ya Ewropî hate pêşve xistin. Ji ber çarçove û mîmariya xwe, çarçoweya LightAutoML dikare di nav çend pîvanên vekirî û her weha serîlêdanên ekosîstemê de ji çarçoveyên hunerî yên AutoML-ê pêşdetir bike. Performansa çarçoweya LightAutoML di heman demê de li hember modelên ku ji hêla zanyarên daneyê ve bi destan têne guheztin têne berhev kirin, û encam ji hêla çarçoweya LightAutoML ve performansa bihêztir destnîşan kir. 

Armanca vê gotarê ew e ku çarçoveya LightAutoML bi kûrahî veşêre, û em mekanîzma, metodolojî, mîmariya çarçoweyê digel berhevdana wê bi çarçoveyên hunerî yên nûjen re vedikolin. Ji ber vê yekê em dest pê bikin. 

LightAutoML: Çarçoveyek AutoML ji bo Karûbarên darayî

Her çend lêkolîneran yekem car di nîvê û destpêka salên 90-an de li ser AutoML dest bi xebatê kirin, AutoML di van çend salên dawî de beşek girîng a balê kişandiye ser xwe, digel ku hin çareseriyên pîşesazî yên navdar ên ku modelên Fêrbûna Makîneyê bixweber têne çêkirin ev in AutoGluon, DarwinAI, H20.ai ya Amazon. , IBM Watson AI, Microsoft AzureML, û hê bêtir. Piraniya van çarçoweyan çareseriyek AutoML ya gelemperî pêk tînin ku modelên ML-based bixweber di nav çînên cihêreng ên serîlêdanan de li seranserê karûbarên darayî, lênihêrîna tenduristî, perwerdehiyê, û hêj bêtir pêşve dixe. Texmîna bingehîn a li pişt vê nêzîkatiya gelemperî ya horizontî ev e ku pêvajoya pêşkeftina modelên otomatîkî di hemî serlêdanan de wekhev dimîne. Lêbelê, çarçoveya LightAutoML rêgezek vertîkal pêk tîne da ku çareseriyek AutoML-ya ku ne gelemperî ye, lê ji ber vê yekê hewcedariyên serîlêdanên kesane, di vê rewşê de saziyek darayî ya mezin, peyda dike. Çarçoveya LightAutoML çareseriyek AutoML ya vertîkal e ku digel taybetmendiyên wê li ser hewcedariyên ekosîstema tevlihev disekine. Pêşîn, çarçoweya LightAutoML lêgerîna hîperparameterê ya bilez û nêzik peyda dike. Her çend model rasterast van hîperparametran xweşbîn nake jî, ew bi rê ve dibe ku encamên têrker peyda bike. Wekî din, model hevsengiya di navbera bilez û dînamîkî ya xweşbîniya hîperparameterê de digire, da ku pê ewle bibe ku model li ser pirsgirêkên piçûk çêtirîn e, û li ser yên mezin bi têra xwe bilez e. Ya duyemîn, çarçoweya LightAutoML rêza modelên fêrbûna makîneyê bi mebest bi tenê du celeb sînordar dike: modelên xêzkirî, û GBM an darên biryarê yên zêdekirî, li şûna pêkanîna komikên mezin ên algorîtmayên cihêreng. Sedema bingehîn a li pişt tixûbdarkirina cûrbecûr modelên fêrbûna makîneyê ev e ku meriv dema darvekirinê ya çarçoweya LightAutoML bilez bike bêyî ku bandorek neyînî li performansa ji bo celebê pirsgirêk û daneya diyarkirî bike. Ya sêyemîn, çarçoweya LightAutoML rêbazek bêhempa ya bijartina nexşeyên pêşdibistanê ji bo taybetmendiyên cihêreng ên ku di modelan de têne bikar anîn li ser bingeha hin qaîdeyên hilbijartinê û meta-statîstîk pêşkêşî dike. Çarçoveya LightAutoML li ser cûrbecûr çavkaniyên daneya vekirî di nav cûrbecûr serlêdanan de tê nirxandin. 

LightAutoML: Rêbaz û Mîmarî

Çarçoveya LightAutoML ji modulên ku wekî Preset têne zanîn pêk tê ku ji bo pêşkeftina modela paşîn ji bo peywirên fêrbûna makîneya tîpîk têne veqetandin. Heya nuha, çarçoveya LightAutoML modulên Preset piştgirî dike. Pêşîn, TabularAutoML Preset balê dikişîne ser çareserkirina pirsgirêkên fêrbûna makîneya klasîk ên ku li ser daneyên tabloyê hatine destnîşankirin. Ya duyemîn, White-Box Preset algorîtmayên şîrovekirî yên hêsan ên wekî Regression Logistic li şûna kodkirina WoE an Weight of Evidence û taybetmendiyên veqetandî bicîh tîne da ku karên dabeşkirina binar li ser daneyên tabloyê çareser bike. Bicîhanîna algorîtmayên şirovekirî yên hêsan pratîkek hevpar e ku ji ber astengiyên şîrovekirinê yên ku ji hêla faktorên cihêreng ve têne çêkirin, îhtîmala serîlêdanê model dike. Ya sêyemîn, Pêşniyara NLP-ê karibe daneyên tabloyê bi NLP an re berhev bike Prosesa Zimanê Zimanzayî Amûrên di nav de modelên fêrbûna kûr ên pêş-perwerdekirî û derhênerên taybetmendiyê hene. Di dawiyê de, CV Preset bi alîkariya hin amûrên bingehîn bi daneyên wêneyê re dixebite. Girîng e ku bala xwe bidinê ku her çend modela LightAutoML her çar Preset piştgirî dike, çarçove tenê di pergala asta hilberînê de TabularAutoML bikar tîne. 

Rêzeya tîpîk a çarçoveya LightAutoML di wêneya jêrîn de tê de heye. 

Her boriyek sê beşan dihewîne. Pêşîn, Reader, tiştek ku celebê peywirê û daneyên xav wekî têketinê distîne, hesabên metadataya girîng pêk tîne, daneyên destpêkê paqij dike, û manîpulasyonên daneyê yên ku divê bêne kirin berî ku modelên cihêreng bicîh bikin, destnîşan dike. Dûv re, danûstendinên hundurîn ên LightAutoML dubarekerên CV û metadata hene ku nexşeyên pejirandinê ji bo berhevokan pêk tînin. Beşa sêyemîn gelek boriyên fêrbûna makîneyê ne ku hatine berhev kirin û/an tevlihev kirin da ku pêşbîniyek yekane bistînin. Xetek fêrbûna makîneyê di nav mîmariya çarçoweya LightAutoML de yek ji wan modelên fêrbûna makîneyê ya pirjimar e ku pileyek pejirandina daneyê û pêş-processing yekane parve dike. Pêvajoya pêşdibistanê dibe ku heya du gavên bijartina taybetmendiyê hebe, gavek endezyariya taybetmendiyê an jî heke pêşdibistanê hewce nebe dibe ku vala be. Xetên ML-ê dikarin li ser heman danehevan serbixwe bêne hesibandin û dûv re bi karanîna naverastkirinê (an jî navgîniya girankirî) bi hev re werin berhev kirin. Alternatîf, ji bo avakirina mîmariyên komê yên pir-astî dikare nexşeyek komê ya stûnê were bikar anîn. 

LightAutoML Pêşkêşiya tabloyê

Di çarçoveya LightAutoML de, TabularAutoML lûleya xwerû ye, û ew di modelê de tête bicîh kirin ku sê celeb karan li ser daneyên tabloyê çareser bike: dabeşkirina binary, paşveçûn, û dabeşkirina pir-polî ji bo rêzek berfireh a metrîkên performansê û fonksiyonên windabûnê. Tabloyek bi çar stûnên jêrîn: Taybetmendiyên kategorîk, taybetmendiyên jimareyî, mohra dem, û stûnek armancek yekane bi etîketên polê an nirxa domdar wekî têketinê li beşa TabularAutoML tê xwarin. Yek ji armancên bingehîn ên li pişt sêwirana çarçoweya LightAutoML sêwirandina amûrek ji bo ceribandina hîpotezê ya bilez bû, sedemek bingehîn a ku çarçove ji karanîna rêbazên brute-hêza ji bo xweşbînkirina lûleyê dûr dixe, û tenê balê dikişîne ser teknîk û modelên bikêrhatî yên ku li ser hev dixebitin. cûrbecûr daneyên danûstendinê. 

Tîpkirina Xweser û Pêşîvekirina Daneyê

Ji bo ku bi awayên cûda celebên taybetmendiyê bi rê ve bibe, pêdivî ye ku model her celeb taybetmendiyê zanibe. Di rewşa ku peywirek yekane bi danûstendinek piçûk heye, bikarhêner dikare bi destan her celeb taybetmendiyê diyar bike. Lêbelê, destnîşankirina her celeb taybetmendiyê bi destan êdî ne vebijarkek guncan e di rewşên ku bi sedan peywiran bi danûstendinên ku bi hezaran taybetmendî vedihewîne dihewîne. Ji bo Pêşkêşkirina TabularAutoML, pêdivî ye ku çarçoveya LightAutoML taybetmendiyan li sê çînan nexşîne: hejmar, kategori, û ​​demjimêr. Yek çareseriyek hêsan û eşkere ev e ku meriv celebên daneya berhevoka stûnê wekî celebên taybetmendiyê yên rastîn bikar bîne, ango, nexşeya stûnên float/int bi taybetmendiyên hejmarî, demjimêr an rêzikê re, ku dikare wekî demjimêrek demkî were pars kirin - ji demjimêra tarîxê re, û yên din li kategoriyê. Lêbelê, ev nexşe ne çêtirîn e ji ber ku pir caran celebên daneyên hejmarî di stûnên kategoriyê de peyda dibin. 

Schemes Validation

Planên erêkirinê hêmanek girîng a çarçoveyên AutoML-ê ne ji ber ku daneyên di pîşesaziyê de bi demê re diguhezin, û ev hêmana guheztinê dema ku modela pêşdixe pêşbîniyên IID an Serbixwe yên Bi Identically Dabeşkirî ne girîng dike. Modelên AutoML nexşeyên pejirandinê bikar tînin da ku performansa xwe texmîn bikin, li hîperparametranan bigerin, û hilberîna pêşbîniya derveyî-qalî. Boriya TabularAutoML sê pîlanên pejirandinê bicîh tîne:

  • KFold Cross Validation: KFold Cross Validation ji bo lûleya TabularAutoML ya ku di nav wan de GroupKFold ji bo modelên behremendiyê, û KFold-ya qatkirî ji bo peywirên dabeşkirinê, pilana pejirandî ya xwerû ye. 
  • Rastkirina Holdout: Plana erêkirina Holdout-ê tête bicîh kirin ger ku seta hilgirtinê were destnîşan kirin. 
  • Planên Verastkirina Xweser: Pîlanên pejirandina xwerû dikarin ji hêla bikarhêneran ve li gorî hewcedariyên wan ên kesane bêne afirandin. Bernameyên Verastkirina Xweserî pîlanên veqetandina xaçerê, û rêzikên demkî vedihewîne. 

Hilbijartina Taybetmendiyê

Her çend hilbijartina taybetmendiyê li gorî standardên pîşesaziyê aliyek girîng a pêşkeftina modelan e ji ber ku ew kêmkirina lêçûnên encamgirtinê û bicîhkirina modelê hêsan dike, pirraniya çareseriyên AutoML zêde li ser vê pirsgirêkê hûr nabin. Berevajî vê, lûleya TabularAutoML sê stratejiyên hilbijartina taybetmendiyê pêk tîne: Hilbijartin tune, Hilbijartina qutkirina girîng, û hilbijartina pêş-based Girîng. Ji sêyan, stratejiya hilbijartinê ya taybetmendiya hilbijartinê ya qutkirina girîng xwerû ye. Digel vê yekê, du awayên bingehîn hene ku meriv girîngiya taybetmendiyê texmîn bike: girîngiya dara-based-based, û girîngiya veguheztinê ya modela GBM an gradient zêdekirî. darên biryarê. Armanca bingehîn a girîngiya hilbijartina qutkirinê redkirina taybetmendiyên ku ji modelê re ne arîkar in, dihêlin ku modela hejmara taybetmendiyan kêm bike bêyî ku bandorek neyînî li performansê bike, nêzîkatiyek ku dibe ku encam û perwerdehiya modelê bilez bike. 

Wêneya jorîn stratejiyên hilbijartinê yên cihêreng ên li ser daneyên banka binary berhev dike. 

Tuning Hyperparameter

Xeta boriya TabularAutoML nêzîkatiyên cihêreng bicîh tîne da ku hîperparametran li ser bingeha tiştê ku hatî verast kirin biguhezîne. 

  • Rawestandina Serûpêk Hêzdarkirina Hîperparameterê Di qonaxa perwerdehiyê de ji bo hemî modelan hejmara dubareyan hildibijêre. 
  • Pergala Pisporê Pergala Hyperparameter Tuning rêgezek hêsan e ku meriv hîperparametran ji bo modelan bi rengek têrker saz bike. Ew rê li ber modela paşîn ji kêmbûna zêde ya puanê li gorî modelên hişkkirî digire.
  • Dara Structured Parzen Texmîn an TPE ji bo GBM an modelên dara biryarê yên zêdekirî yên gradient. TPE stratejiyek berhevkirina tevlihev e ku di lûleya LightAutoML de bijareya xwerû ye. Ji bo her çarçoweya GMB-ê, çarçoweya LightAutoML du modelan perwerde dike: ya yekem hîperparametreyên pispor digire, ya duyemîn jî xweş tê guheztin da ku di budceya demê de cih bigire. 
  • Tûra Lêgerîna Hîperparametre Tuning di xeta boriyê ya TabularAutoML de tê bicîh kirin da ku pîvanên rêkûpêkkirina modelek xêzîkî li kêleka rawestana zû, û destpêkirina germ baş rast bike. 

Model hemî pîvanan bi zêdekirina fonksiyona metrîkê, ya ku ji hêla bikarhêner ve hatî destnîşan kirin an jî ji bo peywira çareserkirî xwerû ye, guhezîne. 

LightAutoML: Ceribandin û Performans

Ji bo nirxandina performansê, TabularAutoML Preset di çarçoweya LightAutoML de li hember çareseriyên çavkaniya vekirî ya heyî di nav karên cihêreng de têne berhev kirin, û performansa bilind a çarçoweya LightAutoML çîmento dike. Pêşîn, berhevok li ser pîvana OpenML-ê ku li ser 35 danehevên peywira dabeşkirina binar û pir-çîni tê nirxandin, tête kirin. Tabloya jêrîn berhevoka çarçoweya LightAutoML li dijî pergalên AutoML yên heyî kurt dike. 

Wekî ku tê dîtin, çarçoweya LightAutoML ji hemî pergalên din ên AutoML-ê li ser 20 daneyên di nav pîvanê de pêşdetir dike. Tabloya jêrîn berhevoka hûrgulî di çarçoweya databasê de vedihewîne ku destnîşan dike ku LightAutoML li ser çînên cihêreng ên peywiran performansa cihêreng peyda dike. Ji bo peywirên dabeşkirina binary, LightAutoML di performansê de kêm dibe, lê ji bo peywirên bi daneya zêde, çarçoweya LightAutoML performansa çêtir peyda dike.

Tabloya jêrîn performansa çarçoweya LightAutoML li hember pergalên AutoML li ser 15 daneyên bankê yên ku komek karên dabeşkirina binaryê yên cihêreng vedihewîne berhev dike. Wekî ku tê dîtin, LightAutoML ji hemî çareseriyên AutoML-ê li ser 12 ji 15 daneyan, ji sedî 80-ê serketinê bi pêş dixe. 

Thoughts Final

Di vê gotarê de me li ser LightAutoML, pergalek AutoML-ê ku di serî de ji bo pargîdaniyek Ewropî ku digel ekosîstema xwe di sektora darayî de dixebite hatî pêşve xistin, axivî. Çarçoveya LightAutoML di nav sepanên cihêreng de tête bicîh kirin, û encaman performansa bilindtir nîşan da, ku bi asta zanyarên daneyê re tê berhev kirin, tewra dema ku modelên fêrbûna makîneya kalîteya bilind ava dikin. Çarçoveya LightAutoML hewl dide ku beşdariyên jêrîn bike. Pêşîn, çarçoveya LightAutoML di serî de ji bo ekosîstema saziyek mezin a darayî û bankingê ya Ewropî hate pêşve xistin. Ji ber çarçove û mîmariya xwe, çarçoweya LightAutoML dikare di nav çend pîvanên vekirî û her weha serîlêdanên ekosîstemê de ji çarçoveyên hunerî yên AutoML-ê pêşdetir bike. Performansa çarçoweya LightAutoML di heman demê de li hember modelên ku ji hêla zanyarên daneyê ve bi destan têne guheztin têne berhev kirin, û encam ji hêla çarçoweya LightAutoML ve performansa bihêztir destnîşan kir. 

"Bi pîşeyê endezyar, bi dil nivîskar". Kunal nivîskarek teknîkî ye ku bi evîn û têgihîştina kûr a AI û ML-ê ye, ku ji bo hêsankirina têgehên tevlihev di van waran de bi navgîniya belgeyên xwe yên balkêş û agahdar ve hatî veqetandin.