Lidhu me ne

Inteligjenca artificiale

LightAutoML: Zgjidhje AutoML për një ekosistem të madh të shërbimeve financiare

mm
Përditësuar on

Edhe pse AutoML u rrit në popullaritet disa vite më parë, puna e thjeshtë AutoML daton në fillim të viteve '90 kur shkencëtarët publikuan punimet e para mbi optimizimin e hiperparametrave. Ishte në vitin 2014 kur ICML organizoi punëtorinë e parë të AutoML që AutoML tërhoqi vëmendjen e zhvilluesve të ML. Një nga fokuset kryesore gjatë viteve të AutoML është problemi i kërkimit të hiperparametrave, ku modeli zbaton një sërë metodash optimizimi për të përcaktuar hiperparametrat me performancën më të mirë në një hapësirë ​​të madhe hiperparametrash për një model të veçantë të mësimit të makinës. Një metodë tjetër e zbatuar zakonisht nga modelet AutoML është vlerësimi i probabilitetit që një hiperparametër i veçantë të jetë hiperparametri optimal për një model të caktuar të mësimit të makinës. Modeli e arrin këtë duke zbatuar metoda Bayesiane që përdorin tradicionalisht të dhëna historike nga modelet e vlerësuara më parë dhe grupe të tjera të dhënash. Përveç optimizimit të hiperparametrave, metoda të tjera përpiqen të zgjedhin modelet më të mira nga një hapësirë ​​e alternativave të modelimit. 

Në këtë artikull, ne do të trajtojmë LightAutoML, një sistem AutoML i zhvilluar kryesisht për një kompani evropiane që operon në sektorin e financave së bashku me ekosistemin e saj. Korniza LightAutoML shpërndahet në aplikacione të ndryshme dhe rezultatet treguan performancë superiore, të krahasueshme me nivelin e shkencëtarëve të të dhënave, edhe kur ndërtohen modele të mësimit të makinerive me cilësi të lartë. Korniza LightAutoML përpiqet të japë kontributet e mëposhtme. Së pari, korniza LightAutoML u zhvillua kryesisht për ekosistemin e një institucioni të madh financiar dhe bankar evropian. Për shkak të kornizës dhe arkitekturës së tij, korniza LightAutoML është në gjendje të tejkalojë kornizat më të fundit të teknologjisë AutoML në disa standarde të hapura, si dhe aplikacione të ekosistemit. Performanca e kornizës LightAutoML krahasohet gjithashtu me modelet që akordohen manualisht nga shkencëtarët e të dhënave, dhe rezultatet treguan performancë më të fortë nga kuadri LightAutoML. 

Ky artikull synon të mbulojë në thellësi kornizën LightAutoML dhe ne eksplorojmë mekanizmin, metodologjinë, arkitekturën e kornizës së bashku me krahasimin e tij me kornizat më moderne. Pra, le të fillojmë. 

LightAutoML: Një Kuadër AutoML për Shërbimet Financiare

Megjithëse studiuesit filluan fillimisht të punojnë në AutoML në mesin dhe fillimin e viteve '90, AutoML tërhoqi një pjesë të madhe të vëmendjes gjatë viteve të fundit, me disa nga zgjidhjet e spikatura industriale që zbatojnë modele të mësimit të makinave të ndërtuara automatikisht, janë AutoGluon, DarwinAI, H20.ai i Amazon. , IBM Watson AI, Microsoft AzureML, dhe shumë më tepër. Shumica e këtyre kornizave zbatojnë një zgjidhje AutoML me qëllim të përgjithshëm që zhvillon modele të bazuara në ML automatikisht nëpër klasa të ndryshme aplikacionesh në shërbimet financiare, kujdesin shëndetësor, arsimin dhe më shumë. Supozimi kryesor pas kësaj qasjeje gjenerike horizontale është se procesi i zhvillimit të modeleve automatike mbetet identik në të gjitha aplikacionet. Megjithatë, korniza LightAutoML zbaton një qasje vertikale për të zhvilluar një zgjidhje AutoML që nuk është e përgjithshme, por përkundrazi plotëson nevojat e aplikacioneve individuale, në këtë rast të një institucioni të madh financiar. Korniza LightAutoML është një zgjidhje vertikale AutoML që fokusohet në kërkesat e ekosistemit kompleks së bashku me karakteristikat e tij. Së pari, korniza LightAutoML ofron kërkim të shpejtë dhe afërsisht optimal të hiperparametrave. Megjithëse modeli nuk i optimizon drejtpërdrejt këta hiperparametra, ai arrin të japë rezultate të kënaqshme. Për më tepër, modeli ruan ekuilibrin midis shpejtësisë dhe dinamikës së optimizimit të hiperparametrit, për të siguruar që modeli të jetë optimal për problemet e vogla dhe mjaftueshëm i shpejtë në ato më të mëdha. Së dyti, korniza LightAutoML kufizon qëllimisht gamën e modeleve të mësimit të makinerive vetëm në dy lloje: modele lineare dhe GBM ose pemë vendimesh të rritura me gradient, në vend që të zbatojë ansamble të mëdha të algoritmeve të ndryshme. Arsyeja kryesore pas kufizimit të gamës së modeleve të mësimit të makinerive është përshpejtimi i kohës së ekzekutimit të kornizës LightAutoML pa ndikuar negativisht në performancën për llojin e caktuar të problemit dhe të dhënave. Së treti, korniza LightAutoML paraqet një metodë unike të zgjedhjes së skemave të parapërpunimit për veçori të ndryshme të përdorura në modele në bazë të rregullave të caktuara të përzgjedhjes dhe meta-statistikave. Korniza LightAutoML vlerësohet në një gamë të gjerë burimesh të hapura të dhënash në një gamë të gjerë aplikacionesh. 

LightAutoML: Metodologjia dhe Arkitektura

Korniza LightAutoML përbëhet nga module të njohura si Paracaktime që janë të dedikuara për zhvillimin e modelit nga fundi në fund për detyrat tipike të mësimit të makinerive. Aktualisht, korniza LightAutoML mbështet modulet e paracaktuara. Së pari, paracaktimi TabularAutoML fokusohet në zgjidhjen e problemeve klasike të mësimit të makinerive të përcaktuara në grupet e të dhënave tabelare. Së dyti, "White-Box Preset" zbaton algoritme të thjeshta të interpretueshme si Regresioni Logjistik në vend të kodimit të WoE ose Weight of Evidence dhe veçorive të diskretizuara për të zgjidhur detyrat e klasifikimit binar në të dhënat tabelare. Zbatimi i algoritmeve të thjeshta të interpretueshme është një praktikë e zakonshme për të modeluar probabilitetin e një aplikacioni për shkak të kufizimeve të interpretueshmërisë të paraqitura nga faktorë të ndryshëm. Së treti, paracaktimi NLP është i aftë të kombinojë të dhënat tabelare me NLP ose Përpunimi i gjuhës natyrore mjete duke përfshirë modele të para-trajnuara të mësimit të thellë dhe nxjerrës të veçorive specifike. Së fundi, CV Preset punon me të dhënat e imazhit me ndihmën e disa mjeteve bazë. Është e rëndësishme të theksohet se megjithëse modeli LightAutoML mbështet të katër Paracaktimet, korniza përdor vetëm TabularAutoML në sistemin e nivelit të prodhimit. 

Tubacioni tipik i kornizës LightAutoML përfshihet në imazhin e mëposhtëm. 

Çdo tubacion përmban tre komponentë. Së pari, Reader, një objekt që merr llojin e detyrës dhe të dhëna të papërpunuara si hyrje, kryen llogaritjet thelbësore të meta të dhënave, pastron të dhënat fillestare dhe zbulon manipulimet e të dhënave që duhen kryer përpara se të vendosë modele të ndryshme. Më pas, grupet e brendshme të të dhënave LightAutoML përmbajnë përsëritës të CV dhe meta të dhëna që zbatojnë skemat e vlefshmërisë për grupet e të dhënave. Komponenti i tretë janë tubacionet e shumta të mësimit të makinerive të grumbulluara dhe/ose të përziera për të marrë një parashikim të vetëm. Një tubacion i mësimit të makinerive brenda arkitekturës së kornizës LightAutoML është një nga modelet e shumta të mësimit të makinerive që ndajnë një skemë të vetme të vërtetimit dhe përpunimit të të dhënave. Hapi i parapërpunimit mund të ketë deri në dy hapa të përzgjedhjes së veçorive, një hap të inxhinierisë së veçorive ose mund të jetë bosh nëse nuk nevojitet parapërpunim. Tubacionet ML mund të llogariten në mënyrë të pavarur në të njëjtat grupe të dhënash dhe më pas të përzihen së bashku duke përdorur mesataren (ose mesataren e ponderuar). Përndryshe, një skemë e ansamblit të grumbullimit mund të përdoret për të ndërtuar arkitektura ansamblesh me shumë nivele. 

Paracaktimi tabelor i LightAutoML

Brenda kornizës LightAutoML, TabularAutoML është tubacioni i paracaktuar dhe zbatohet në model për të zgjidhur tre lloje detyrash në të dhënat tabelare: klasifikimi binar, regresioni dhe klasifikimi me shumë klasa për një gamë të gjerë metrikash të performancës dhe funksionet e humbjes. Një tabelë me katër kolonat e mëposhtme: veçoritë kategorike, veçoritë numerike, stampat kohore dhe një kolonë e vetme objektive me etiketat e klasave ose vlerë të vazhdueshme i jepet komponentit TabularAutoML si hyrje. Një nga objektivat kryesore pas dizajnimit të kornizës LightAutoML ishte të hartonte një mjet për testimin e shpejtë të hipotezave, një arsye kryesore pse korniza shmang përdorimin e metodave të forcës brutale për optimizimin e tubacionit dhe fokusohet vetëm në teknikat dhe modelet e efikasitetit që funksionojnë në një gamë të gjerë të të dhënave. 

Shtypja automatike dhe parapërpunimi i të dhënave

Për të trajtuar lloje të ndryshme veçorish në mënyra të ndryshme, modeli duhet të njohë çdo lloj veçorie. Në situatën kur ekziston një detyrë e vetme me një grup të vogël të dhënash, përdoruesi mund të specifikojë manualisht çdo lloj funksioni. Megjithatë, specifikimi manual i secilit tip funksioni nuk është më një opsion i zbatueshëm në situata që përfshijnë qindra detyra me grupe të dhënash që përmbajnë mijëra veçori. Për paracaktimin TabularAutoML, kuadri LightAutoML duhet të hartojë veçoritë në tre klasa: numerike, kategori dhe datë. Një zgjidhje e thjeshtë dhe e dukshme është përdorimi i llojeve të të dhënave të grupit të kolonave si tipare aktuale të veçorive, domethënë, për të hartuar kolonat float/int me veçoritë numerike, vulën kohore ose vargun, që mund të analizohen si një vulë kohore - në kohën e datës dhe të tjera në kategori. Megjithatë, kjo hartë nuk është më e mira për shkak të shfaqjes së shpeshtë të llojeve të të dhënave numerike në kolonat e kategorive. 

Skemat e Validimit

Skemat e vlefshmërisë janë një komponent jetik i kornizave AutoML pasi të dhënat në industri janë subjekt i ndryshimit me kalimin e kohës dhe ky element ndryshimi i bën IID ose supozimet e pavarura identike të shpërndara të parëndësishme gjatë zhvillimit të modelit. Modelet AutoML përdorin skemat e vlefshmërisë për të vlerësuar performancën e tyre, për të kërkuar hiperparametra dhe për gjenerimin e parashikimit të jashtëzakonshëm. Gazsjellësi TabularAutoML zbaton tre skema vërtetimi:

  • KFold Cross Validation: KFold Cross Validation është skema e verifikimit të paracaktuar për tubacionin TabularAutoML duke përfshirë GroupKFold për modelet e sjelljes dhe KFold të shtresuar për detyrat e klasifikimit. 
  • Vleresimi i Holdout: Skema e vlefshmërisë Holdout zbatohet nëse specifikohet grupi mbajtës. 
  • Skemat e personalizuara të verifikimit: Skemat e personalizuara të vlefshmërisë mund të krijohen nga përdoruesit në varësi të kërkesave të tyre individuale. Skemat e personalizuara të verifikimit përfshijnë skemat e verifikimit të kryqëzuar dhe skemave të ndarjes së serive kohore. 

Zgjedhja e veçorive

Megjithëse përzgjedhja e veçorive është një aspekt thelbësor i zhvillimit të modeleve sipas standardeve të industrisë, pasi lehtëson uljen e kostove të përfundimit dhe zbatimit të modelit, shumica e zgjidhjeve AutoML nuk fokusohen shumë në këtë problem. Përkundrazi, tubacioni TabularAutoML zbaton tre strategji të përzgjedhjes së veçorive: Pa përzgjedhje, Zgjedhja e ndërprerjes së rëndësisë dhe përzgjedhja përpara e bazuar në rëndësi. Nga të treja, strategjia e përzgjedhjes së veçorive të përzgjedhjes së ndërprerjes së rëndësisë është e paracaktuar. Për më tepër, ekzistojnë dy mënyra kryesore për të vlerësuar rëndësinë e veçorive: rëndësia e pemës së bazuar në ndarje dhe rëndësia e ndërrimit të modelit GBM ose gradientit të rritur. pemët e vendimit. Qëllimi kryesor i përzgjedhjes së ndërprerjes së rëndësisë është të refuzojë veçoritë që nuk janë të dobishme për modelin, duke e lejuar modelin të zvogëlojë numrin e veçorive pa ndikuar negativisht në performancën, një qasje që mund të përshpejtojë përfundimin dhe trajnimin e modelit. 

Imazhi i mësipërm krahason strategji të ndryshme përzgjedhjeje në grupet e të dhënave binare të bankave. 

Akordimi i hiperparametrit

Gazsjellësi TabularAutoML zbaton qasje të ndryshme për të rregulluar hiperparametrat në bazë të asaj që është akorduar. 

  • Sintonizimi i hiperparametrit të ndalimit të hershëm zgjedh numrin e përsëritjeve për të gjitha modelet gjatë fazës së trajnimit. 
  • Rregullimi i hiperparametrit të sistemit të ekspertëve është një mënyrë e thjeshtë për të vendosur hiperparametrat për modelet në mënyrë të kënaqshme. Ai parandalon modelin përfundimtar nga një rënie e lartë e rezultatit në krahasim me modelet me akordim të vështirë.
  • Vlerësimi i Parzenit të Strukturuar nga Pema ose TPE për GBM ose modelet e pemës së vendimit të rritur me gradient. TPE është një strategji e përzier akordimi që është zgjedhja e paracaktuar në tubacionin LightAutoML. Për çdo kornizë GMB, korniza LightAutoML trajnon dy modele: i pari merr hiperparametrat e ekspertëve, i dyti rregullohet mirë për t'u përshtatur me buxhetin kohor. 
  • Sintonizimi i hiperparametrit të kërkimit në rrjet është zbatuar në tubacionin TabularAutoML për të rregulluar parametrat e rregullimit të një modeli linear krahas ndalimit të hershëm dhe fillimit të ngrohtë. 

Modeli akordon të gjithë parametrat duke maksimizuar funksionin metrikë, ose të përcaktuar nga përdoruesi ose është i paracaktuar për detyrën e zgjidhur. 

LightAutoML: Eksperimenti dhe Performanca

Për të vlerësuar performancën, paracaktimi i TabularAutoML brenda kornizës LightAutoML krahasohet me zgjidhjet tashmë ekzistuese me burim të hapur nëpër detyra të ndryshme dhe forcon performancën superiore të kornizës LightAutoML. Së pari, krahasimi kryhet në standardin OpenML që vlerësohet në 35 grupe të dhënash të detyrave të klasifikimit binar dhe shumëklasësh. Tabela e mëposhtme përmbledh krahasimin e kornizës LightAutoML me sistemet ekzistuese AutoML. 

Siç mund të shihet, korniza LightAutoML tejkalon të gjitha sistemet e tjera AutoML në 20 grupe të dhënash brenda standardit. Tabela e mëposhtme përmban krahasimin e detajuar në kontekstin e të dhënave që tregon se LightAutoML ofron performancë të ndryshme në klasa të ndryshme detyrash. Për detyrat e klasifikimit binar, LightAutoML nuk ka performancë, ndërsa për detyrat me një sasi të madhe të dhënash, korniza LightAutoML ofron performancë superiore.

Tabela e mëposhtme krahason performancën e kornizës LightAutoML kundrejt sistemeve AutoML në 15 grupe të dhënash bankare që përmbajnë një grup detyrash të ndryshme klasifikimi binar. Siç mund të vërehet, LightAutoML tejkalon të gjitha zgjidhjet AutoML në 12 nga 15 grupe të dhënash, një përqindje fitimi prej 80. 

Mendime përfundimtare

Në këtë artikull kemi folur për LightAutoML, një sistem AutoML i zhvilluar kryesisht për një kompani evropiane që operon në sektorin e financave së bashku me ekosistemin e saj. Korniza LightAutoML shpërndahet në aplikacione të ndryshme dhe rezultatet treguan performancë superiore, të krahasueshme me nivelin e shkencëtarëve të të dhënave, edhe kur ndërtohen modele të mësimit të makinerive me cilësi të lartë. Korniza LightAutoML përpiqet të japë kontributet e mëposhtme. Së pari, korniza LightAutoML u zhvillua kryesisht për ekosistemin e një institucioni të madh financiar dhe bankar evropian. Për shkak të kornizës dhe arkitekturës së tij, korniza LightAutoML është në gjendje të tejkalojë kornizat më të fundit të teknologjisë AutoML në disa standarde të hapura, si dhe aplikacione të ekosistemit. Performanca e kornizës LightAutoML krahasohet gjithashtu me modelet që akordohen manualisht nga shkencëtarët e të dhënave, dhe rezultatet treguan performancë më të fortë nga kuadri LightAutoML. 

“Me profesion inxhinier, me zemër shkrimtar”. Kunal është një shkrimtar teknik me një dashuri dhe kuptim të thellë të AI dhe ML, i përkushtuar ndaj thjeshtimit të koncepteve komplekse në këto fusha përmes dokumentacionit të tij tërheqës dhe informues.