Faisnéise Saorga
LightAutoML: Réiteach AutoML d’Éiceachóras Mór Seirbhísí Airgeadais
Cé gur tháinig méadú ar an éileamh ar AutoML cúpla bliain ó shin, tá an obair ar Téann AutoML siar go dtí na 90idí luatha nuair a d'fhoilsigh eolaithe na chéad pháipéir ar optamú hyperparameter. Ba in 2014 a d’eagraigh ICML an chéad cheardlann AutoML a tharraing AutoML aird fhorbróirí ML. Ar cheann de na príomhfhócais thar na blianta atá ag AutoML tá an fhadhb cuardaigh hipearpharaiméadair, áit a gcuireann an tsamhail raon modhanna optamaithe i bhfeidhm chun na hipearpharaiméadair is fearr feidhmíochta a chinneadh i spás mór hipearpharaiméadair do mhúnla meaisínfhoghlama ar leith. Modh eile a chuireann samhlacha AutoML i bhfeidhm go coitianta ná meastachán a dhéanamh ar an dóchúlacht gurb é hipearpharaiméadar ar leith an hipearpharaiméadar is fearr do mhúnla meaisínfhoghlama ar leith. Baineann an tsamhail é seo amach trí mhodhanna Bayesian a chur i bhfeidhm a úsáideann go traidisiúnta sonraí stairiúla ó shamhlacha a measadh roimhe seo, agus tacair shonraí eile. Chomh maith le leas iomlán a bhaint hyperparameter, déanann modhanna eile iarracht na samhlacha is fearr a roghnú ó spás roghanna eile samhaltú.
San Airteagal seo, clúdóimid LightAutoML, córas AutoML a forbraíodh go príomha do chuideachta Eorpach a oibríonn san earnáil airgeadais in éineacht lena héiceachóras. Imscartar creat LightAutoML thar fheidhmchláir éagsúla, agus léirigh na torthaí feidhmíocht níos fearr, inchomparáide le leibhéal na n-eolaithe sonraí, fiú agus múnlaí foghlama meaisín ardchaighdeáin á dtógáil. Déanann creat LightAutoML iarracht na ranníocaíochtaí seo a leanas a dhéanamh. Ar an gcéad dul síos, forbraíodh creat LightAutoML go príomha le haghaidh éiceachóras institiúide airgeadais agus baincéireachta mhór Eorpach. Mar gheall ar a chreat agus a ailtireacht, tá creat LightAutoML in ann feidhmiú níos fearr ná creataí AutoML den scoth thar roinnt tagarmharcanna oscailte chomh maith le feidhmchláir éiceachórais. Cuirtear feidhmíocht chreat LightAutoML i gcomparáid freisin le samhlacha atá tiúnta de láimh ag eolaithe sonraí, agus léirigh na torthaí feidhmíocht níos láidre ag creat LightAutoML.
Tá sé mar aidhm ag an alt seo creat LightAutoML a chlúdach go domhain, agus déanaimid iniúchadh ar an meicníocht, ar an modheolaíocht, ar ailtireacht an chreata mar aon lena chomparáid leis na creataí úrscothacha. Mar sin a ligean ar tús a chur leis.
LightAutoML: Creat AutoML le haghaidh Seirbhísí Airgeadais
Cé gur thosaigh taighdeoirí ag obair ar AutoML ar dtús i lár agus sna 90idí go luath, tharraing AutoML cuid mhór den aird le blianta beaga anuas, agus cuid de na réitigh thionsclaíocha feiceálach á gcur i bhfeidhm ag cur i bhfeidhm samhlacha Machine Learning atá tógtha go huathoibríoch ná AutoGluon Amazon, DarwinAI, H20.ai , IBM Watson AI, Microsoft AzureML, agus go leor eile. Cuireann tromlach de na creataí seo réiteach AutoML ginearálta i bhfeidhm a fhorbraíonn samhlacha ML-bhunaithe go huathoibríoch thar aicmí éagsúla feidhmchlár thar seirbhísí airgeadais, cúram sláinte, oideachas, agus go leor eile. Is é an príomhthoimhde atá taobh thiar den chur chuige cineálach cothrománach seo ná go bhfuil an próiseas chun samhlacha uathoibríocha a fhorbairt mar an gcéanna i ngach feidhmchlár. Mar sin féin, cuireann creat LightAutoML cur chuige ingearach i bhfeidhm chun réiteach AutoML a fhorbairt nach bhfuil cineálach, ach a fhreastalaíonn ar riachtanais na n-iarratas aonair, institiúid mhór airgeadais sa chás seo. Is réiteach AutoML ingearach é creat LightAutoML a dhíríonn ar riachtanais an éiceachórais chasta mar aon lena saintréithe. Ar an gcéad dul síos, soláthraíonn an creat LightAutoML cuardach hipearpharaiméadair tapa agus gar is fearr. Cé nach ndéanann an tsamhail na hipearpharaiméadair seo a bharrfheabhsú go díreach, éiríonn leis torthaí sásúla a sheachadadh. Ina theannta sin, coinníonn an tsamhail an t-iarmhéid idir luas agus leas iomlán a bhaint hyperparaiméadar dinimiciúil, chun a chinntiú go bhfuil an tsamhail optamach ar fhadhbanna beaga, agus go tapa go leor ar na cinn níos mó. Ar an dara dul síos, cuireann creat LightAutoML teorainn le raon na múnlaí meaisínfhoghlama d’aon ghnó go dtí dhá chineál: samhlacha líneacha, agus GBManna nó crainn chinnidh treisithe le grádán, in ionad ensembles móra de halgartaim éagsúla a chur i bhfeidhm. Is é an phríomhchúis atá taobh thiar de theorannú raon na múnlaí meaisínfhoghlama ná am forghníomhaithe an chreata LightAutoML a bhrostú gan tionchar diúltach a imirt ar fheidhmíocht don chineál faidhbe agus sonraí a thugtar. Ar an tríú dul síos, cuirtear modh uathúil i láthair i gcreat LightAutoML chun scéimeanna réamhphróiseála a roghnú le haghaidh gnéithe éagsúla a úsáidtear sna samhlacha ar bhonn rialacha roghnúcháin agus meitistaitisticí áirithe. Déantar creat LightAutoML a mheas ar raon leathan foinsí sonraí oscailte thar raon leathan feidhmchlár.
LightAutoML : Modheolaíocht agus Ailtireacht
Is éard atá i gcreat LightAutoML modúil ar a dtugtar Réamhshocruithe atá tiomnaithe d'fhorbairt mhúnla ó cheann ceann go ceann do thascanna meaisínfhoghlama tipiciúla. Faoi láthair, tacaíonn creat LightAutoML le modúil Réamhshocraithe. Ar an gcéad dul síos, díríonn an Réamhshocrú TabularAutoML ar fhadhbanna meaisínfhoghlama clasaiceacha a réiteach a shainítear ar thacair sonraí táblaí. Ar an dara dul síos, cuireann Réamhshocrú an Bhosca Gheal algartaim shimplí inmhínithe i bhfeidhm ar nós Aischéimniú Lóistíochta in ionad ionchódú WoE nó Meáchan na Fianaise agus gnéithe discréidithe chun tascanna aicmithe dhénártha ar shonraí táblaí a réiteach. Is cleachtas coitianta é halgartaim inmhínithe simplí a chur i bhfeidhm chun dóchúlacht feidhmchláir a shamhaltú mar gheall ar na srianta inléirmhínithe a bhaineann le fachtóirí éagsúla. Ar an tríú dul síos, tá an Réamhshocrú NLP in ann sonraí táblaí a chomhcheangal le NLP nó Próiseáil Teanga Nádúrtha uirlisí lena n-áirítear múnlaí domhainfhoghlama réamhoilte agus sainfháiscirí. Ar deireadh, oibríonn an Réamhshocrú CV le sonraí íomhá le cabhair ó roinnt uirlisí bunúsacha. Tá sé tábhachtach a thabhairt faoi deara, cé go dtacaíonn an tsamhail LightAutoML leis na ceithre Réamhshocruithe, ní úsáideann an creat ach an TabularAutoML sa chóras leibhéal táirgeachta.
Tá píblíne tipiciúil an chreata LightAutoML san áireamh san íomhá seo a leanas.
Tá trí chomhpháirt i ngach píblíne. Ar an gcéad dul síos, déanann Reader, rud a fhaigheann cineál tasc agus sonraí amh mar ionchur, ríomhaireachtaí ríthábhachtacha meiteashonraí, glanann sé na sonraí tosaigh, agus déanann sé amach na hionramhálacha sonraí atá le déanamh sula bhfeistítear múnlaí éagsúla. Ina dhiaidh sin, tá atrialltóirí CV agus meiteashonraí sna tacair sonraí LightAutoML a chuireann scéimeanna bailíochtaithe i bhfeidhm do na tacair shonraí. Is é an tríú comhpháirt na píblínte meaisínfhoghlama iolracha atá cruachta agus/nó cumaiscthe chun tuar amháin a fháil. Tá píblíne foghlama meaisín laistigh d'ailtireacht chreat LightAutoML ar cheann de na samhlacha ilfhoghlama meaisín a roinneann scéim amháin bailíochtaithe agus réamhphróiseála sonraí. Féadfaidh suas le dhá chéim roghnúcháin gné a bheith sa chéim réamhphróiseála, céim innealtóireachta gné nó féadfaidh sé a bheith folamh mura bhfuil gá le réamhphróiseáil. Is féidir na píblínte ML a ríomh go neamhspleách ar na tacair sonraí céanna agus ansin iad a chumasc le chéile trí mheánú (nó meánú ualaithe). De rogha air sin, is féidir scéim cruachta ensemble a úsáid chun ailtireachtaí ensemble illeibhéil a thógáil.
Réamhshocrú Tábla LightAutoML
Laistigh de chreat LightAutoML, is é TabularAutoML an píblíne réamhshocraithe, agus cuirtear i bhfeidhm é sa mhúnla chun trí chineál tascanna a réiteach ar shonraí tábla: aicmiú dénártha, aischéimniú, agus aicmiú ilaicme le haghaidh raon leathan de mhéadracht feidhmíochta agus feidhmeanna caillteanais. Cothaítear tábla leis na ceithre cholún seo a leanas: gnéithe catagóiriúla, gnéithe uimhriúla, stampaí ama, agus colún sprice amháin le lipéid ranga nó luach leanúnach don chomhpháirt TabularAutoML mar ionchur. Ar cheann de na príomhchuspóirí a bhí taobh thiar de dhearadh chreat LightAutoML bhí uirlis a dhearadh le haghaidh tástála hipitéise tapa, cúis mhór a sheachnaíonn an creat úsáid a bhaint as modhanna brúidiúla chun leas iomlán a bhaint as píblíne, agus nach ndíríonn sé ach ar theicnící agus ar mhúnlaí éifeachtúlachta a oibríonn ar fud a raon leathan tacair sonraí.
Uathchlóscríobh agus Réamhphróiseáil Sonraí
Chun cineálacha éagsúla gnéithe a láimhseáil ar bhealaí éagsúla, ní mór go mbeadh a fhios ag an tsamhail gach cineál gné. Sa chás ina bhfuil tasc amháin le tacar sonraí beag, is féidir leis an úsáideoir gach cineál gné a shonrú de láimh. Mar sin féin, ní rogha inmharthana a thuilleadh é gach cineál gné a shonrú de láimh i gcásanna a chuimsíonn na céadta tascanna le tacair shonraí ina bhfuil na mílte gnéithe. Le haghaidh Réamhshocraithe TabularAutoML, ní mór don chreat LightAutoML gnéithe a mhapáil i dtrí rang: uimhriúil, catagóir, agus dáta dáta. Réiteach simplí agus soiléir amháin is ea cineálacha sonraí eagar colún a úsáid mar chineálacha gné iarbhír, is é sin, colúin snámhphointe/int a mhapáil go gnéithe uimhriúla, stampa ama nó téad, a d’fhéadfaí a pharsáil mar stampa ama — go ham dáta, agus cinn eile go catagóir. Mar sin féin, níl an léarscáiliú seo ar an mbealach is fearr toisc go dtarlaíonn go minic cineálacha sonraí uimhriúla i gcolúin na gcatagóirí.
Scéimeanna Bailíochtaithe
Tá scéimeanna bailíochtaithe ina gcuid ríthábhachtach de chreataí AutoML ós rud é go bhfuil sonraí sa tionscal faoi réir athraithe le himeacht ama, agus fágann an ghné seo den athrú go bhfuil toimhdí IID nó Neamhspleách Dáilte go Comhionann neamhábhartha agus an tsamhail á forbairt. Fostaíonn samhlacha AutoML scéimeanna bailíochtaithe chun a bhfeidhmíocht a mheas, hipearpharaiméadair a chuardach, agus giniúint réamh-mheastacháin as dáta. Cuireann píblíne TabularAutoML trí scéim bailíochtaithe i bhfeidhm:
- Crosbhailíochtú KFold: Is é KFold Cross Validation an scéim bhailíochtaithe réamhshocraithe don phíblíne TabularAutoML lena n-áirítear GroupKFold le haghaidh samhlacha iompraíochta, agus KFold srathaithe le haghaidh tascanna aicmithe.
- Bailíochtú Sealbhaíochta : Cuirtear an scéim bailíochtaithe Sealbhaíochta i bhfeidhm má shonraítear an tacar coinneála.
- Scéimeanna Bailíochtaithe Saincheaptha: Is féidir le húsáideoirí scéimeanna bailíochtaithe saincheaptha a chruthú ag brath ar a gcuid riachtanas aonair. Áirítear le Scéimeanna Bailíochtaithe Custaim tras-bhailíochtú, agus scéimeanna scoilte amsraithe.
Roghnú Gné
Cé gur gné ríthábhachtach é roghnú gnéithe d'fhorbairt samhlacha de réir chaighdeáin an tionscail ós rud é go n-éascaíonn sé laghdú ar thátail agus ar chostais chur chun feidhme na samhla, ní dhíríonn tromlach réitigh AutoML mórán ar an bhfadhb seo. Os a choinne sin, cuireann píblíne TabularAutoML trí straitéis roghnúcháin gné i bhfeidhm: Gan roghnú, roghnú scoite Tábhacht, agus Roghnú ar aghaidh bunaithe ar thábhacht. As na trí cinn, tá straitéis roghnúcháin gné scoite Tábhacht réamhshocraithe. Ina theannta sin, tá dhá phríomhbhealach ann le tábhacht na ngnéithe a mheas: tábhacht crann scoilte, agus tábhacht iomalartaithe shamhail GBM nó grádán treisithe. crainn chinnidh. Is é príomhaidhm roghnú scoite tábhachta diúltú do ghnéithe nach gcuidíonn leis an tsamhail, rud a ligeann don tsamhail líon na ngnéithe a laghdú gan tionchar diúltach a imirt ar fheidhmíocht, cur chuige a d’fhéadfadh tátal agus oiliúint na samhla a bhrostú.
Déanann an íomhá thuas comparáid idir straitéisí roghnúcháin éagsúla ar thacair shonraí bainc dhénártha.
Tiúnadh Hyperparameter
Cuireann píblíne TabularAutoML cineálacha cur chuige éagsúla i bhfeidhm chun hipearpharaiméadair a tiúnadh ar bhonn a bhfuil tiúnta.
- Tiúnadh Hyperparameter a Stopadh go Luath roghnaíonn sé líon na n-atriallta do na samhlacha go léir le linn na céime oiliúna.
- Tiúnadh Hyperparameter Córas Saineolaithe Is bealach simplí é hipearpharaiméadair do mhúnlaí a shocrú ar bhealach sásúil. Cuireann sé cosc ar an tsamhail deiridh ó laghdú ard ar scór i gcomparáid le samhlacha crua-tiúnta.
- Meastachán Parzen Struchtúrtha Crann nó TPE le haghaidh samhlacha crann cinnteoireachta treisithe GBM nó grádán. Is straitéis tiúnála measctha é TPE atá mar an rogha réamhshocraithe sa phíblíne LightAutoML. I gcás gach creatlach GMB, cuireann an creat LightAutoML oiliúint ar dhá mhúnla: faigheann an chéad cheann hipearpharaiméadair shaineolach, déantar an dara ceann a mhionchoigeartú chun luí isteach sa bhuiséad ama.
- Tiúnadh Hipirparaiméadar Cuardach Eangaí a chur i bhfeidhm sa phíblíne TabularAutoML chun mionchoigeartú a dhéanamh ar pharaiméadair rialtachta samhail líneach taobh le stad luath, agus tús te.
Cloíonn an tsamhail na paraiméadair go léir tríd an bhfeidhm mhéadrach a uasmhéadú, a shainíonn an t-úsáideoir nó atá réamhshocraithe don tasc réitithe.
LightAutoML : Turgnamh agus Feidhmíocht
Chun an fheidhmíocht a mheas, déantar comparáid idir Réamhshocrú TabularAutoML laistigh de chreat LightAutoML agus réitigh foinse oscailte atá ann cheana féin thar thascanna éagsúla, agus daingnítear feidhmíocht níos fearr chreat LightAutoML. Ar an gcéad dul síos, déantar an chomparáid ar thagarmharc OpenML a ndéantar meastóireacht air ar 35 tacar sonraí tasc aicmithe dénártha agus ilranga. Tugann an tábla seo a leanas achoimre ar chomparáid chreat LightAutoML le córais AutoML atá ann cheana féin.
Mar is léir, sáraíonn creat LightAutoML gach córas AutoML eile ar 20 tacar sonraí laistigh den tagarmharc. Sa tábla seo a leanas tá an chomparáid mhionsonraithe i gcomhthéacs an tacair sonraí a thugann le fios go seachadann an LightAutoML feidhmíocht dhifriúil ar aicmí éagsúla tascanna. Maidir le tascanna aicmithe dhénártha, ní bhíonn an LightAutoML ach i bhfeidhmíocht, ach i gcás tascanna a bhfuil méid ard sonraí acu, seachadann creat LightAutoML feidhmíocht níos fearr.
Déanann an tábla seo a leanas comparáid idir feidhmíocht chreat LightAutoML agus córais AutoML ar 15 thacar sonraí bainc ina bhfuil sraith tascanna éagsúla aicmithe dénártha. Mar is féidir a thabhairt faoi deara, sáraíonn an LightAutoML gach réiteach AutoML ar 12 as 15 tacar sonraí, céatadán buaite de 80.
Smaointe Deiridh
San Airteagal seo labhair muid faoi LightAutoML, córas AutoML a forbraíodh go príomha do chuideachta Eorpach a oibríonn san earnáil airgeadais in éineacht lena éiceachóras. Imscartar creat LightAutoML thar fheidhmchláir éagsúla, agus léirigh na torthaí feidhmíocht níos fearr, inchomparáide le leibhéal na n-eolaithe sonraí, fiú agus múnlaí foghlama meaisín ardchaighdeáin á dtógáil. Déanann creat LightAutoML iarracht na ranníocaíochtaí seo a leanas a dhéanamh. Ar an gcéad dul síos, forbraíodh creat LightAutoML go príomha le haghaidh éiceachóras institiúide airgeadais agus baincéireachta mhór Eorpach. Mar gheall ar a chreat agus a ailtireacht, tá creat LightAutoML in ann feidhmiú níos fearr ná creataí AutoML den scoth thar roinnt tagarmharcanna oscailte chomh maith le feidhmchláir éiceachórais. Cuirtear feidhmíocht chreat LightAutoML i gcomparáid freisin le samhlacha atá tiúnta de láimh ag eolaithe sonraí, agus léirigh na torthaí feidhmíocht níos láidre ag creat LightAutoML.