ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

LightAutoML: ການແກ້ໄຂ AutoML ສໍາລັບລະບົບນິເວດການບໍລິການທາງດ້ານການເງິນຂະຫນາດໃຫຍ່

mm
ການປັບປຸງ on

ເຖິງແມ່ນວ່າ AutoML ເພີ່ມຂຶ້ນເປັນຄວາມນິຍົມສອງສາມປີກ່ອນຫນ້ານີ້, ealy ເຮັດວຽກ AutoML ມີມາຕັ້ງແຕ່ຕົ້ນປີ 90s ເມື່ອນັກວິທະຍາສາດຕີພິມເອກະສານທໍາອິດກ່ຽວກັບການເພີ່ມປະສິດທິພາບ hyperparameter. ມັນແມ່ນໃນປີ 2014 ເມື່ອ ICML ໄດ້ຈັດກອງປະຊຸມ AutoML ທໍາອິດທີ່ AutoML ໄດ້ຮັບຄວາມສົນໃຈຈາກນັກພັດທະນາ ML. ຫນຶ່ງໃນຈຸດສຸມທີ່ສໍາຄັນໃນໄລຍະຫລາຍປີຂອງ AutoML ແມ່ນບັນຫາການຊອກຫາ hyperparameter, ບ່ອນທີ່ຕົວແບບປະຕິບັດວິທີການເພີ່ມປະສິດທິພາບເພື່ອກໍານົດ hyperparameters ທີ່ມີປະສິດທິພາບທີ່ດີທີ່ສຸດໃນພື້ນທີ່ hyperparameter ຂະຫນາດໃຫຍ່ສໍາລັບຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກໂດຍສະເພາະ. ວິທີການອື່ນທີ່ຖືກນໍາໃຊ້ໂດຍທົ່ວໄປໂດຍຕົວແບບ AutoML ແມ່ນການປະເມີນຄວາມເປັນໄປໄດ້ຂອງ hyperparameter ໂດຍສະເພາະເປັນ hyperparameter ທີ່ດີທີ່ສຸດສໍາລັບຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ. ຮູບແບບດັ່ງກ່າວບັນລຸໄດ້ໂດຍການປະຕິບັດວິທີການ Bayesian ທີ່ປະເພນີໃຊ້ຂໍ້ມູນປະຫວັດສາດຈາກແບບຈໍາລອງທີ່ຄາດຄະເນກ່ອນຫນ້ານີ້, ແລະຊຸດຂໍ້ມູນອື່ນໆ. ນອກເຫນືອຈາກການເພີ່ມປະສິດທິພາບ hyperparameter, ວິທີການອື່ນໆພະຍາຍາມເລືອກແບບຈໍາລອງທີ່ດີທີ່ສຸດຈາກພື້ນທີ່ຂອງຕົວແບບທາງເລືອກ. 

ໃນບົດຄວາມນີ້, ພວກເຮົາຈະກວມເອົາ LightAutoML, ລະບົບ AutoML ທີ່ພັດທະນາຕົ້ນຕໍສໍາລັບບໍລິສັດເອີຣົບທີ່ດໍາເນີນການໃນຂະແຫນງການເງິນພ້ອມກັບລະບົບນິເວດຂອງມັນ. ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກນໍາໄປໃຊ້ໃນທົ່ວຄໍາຮ້ອງສະຫມັກຕ່າງໆ, ແລະຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຫນືອກວ່າ, ທຽບກັບລະດັບຂອງນັກວິທະຍາສາດຂໍ້ມູນ, ເຖິງແມ່ນວ່າໃນຂະນະທີ່ສ້າງຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ມີຄຸນນະພາບສູງ. ໂຄງຮ່າງການ LightAutoML ພະຍາຍາມປະກອບສ່ວນຕໍ່ໄປນີ້. ຫນ້າທໍາອິດ, ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກພັດທະນາຕົ້ນຕໍສໍາລັບລະບົບນິເວດຂອງສະຖາບັນການເງິນແລະການທະນາຄານຂະຫນາດໃຫຍ່ຂອງເອີຣົບ. ເນື່ອງຈາກໂຄງຮ່າງການແລະສະຖາປັດຕະຍະກໍາຂອງມັນ, ກອບ LightAutoML ສາມາດປະຕິບັດໄດ້ດີກວ່າກອບວຽກ AutoML ໃນທົ່ວມາດຕະຖານທີ່ເປີດຫຼາຍເຊັ່ນດຽວກັນກັບຄໍາຮ້ອງສະຫມັກລະບົບນິເວດ. ປະສິດທິພາບຂອງໂຄງຮ່າງການ LightAutoML ຍັງຖືກປຽບທຽບກັບຕົວແບບທີ່ຖືກປັບດ້ວຍມືໂດຍນັກວິທະຍາສາດຂໍ້ມູນ, ແລະຜົນໄດ້ຮັບຊີ້ໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຂັ້ມແຂງໂດຍກອບ LightAutoML. 

ບົດຂຽນນີ້ມີຈຸດປະສົງເພື່ອໃຫ້ກວມເອົາກອບ LightAutoML ໃນຄວາມເລິກ, ແລະພວກເຮົາຄົ້ນຫາກົນໄກ, ວິທີການ, ຖາປັດຕະຍະຂອງກອບພ້ອມກັບການປຽບທຽບກັບໂຄງສ້າງຂອງລັດ. ສະນັ້ນໃຫ້ເລີ່ມຕົ້ນ. 

LightAutoML: ໂຄງຮ່າງການ AutoML ສໍາລັບການບໍລິການທາງດ້ານການເງິນ

ເຖິງແມ່ນວ່ານັກຄົ້ນຄວ້າໄດ້ເລີ່ມຕົ້ນເຮັດວຽກກ່ຽວກັບ AutoML ໃນກາງປີ 90 ແລະຕົ້ນປີ, AutoML ໄດ້ດຶງດູດຄວາມສົນໃຈອັນໃຫຍ່ຫຼວງໃນສອງສາມປີຜ່ານມາ, ດ້ວຍວິທີແກ້ໄຂອຸດສາຫະກໍາທີ່ໂດດເດັ່ນບາງຢ່າງທີ່ປະຕິບັດຕົວແບບອັດຕະໂນມັດສ້າງເຄື່ອງຈັກການຮຽນຮູ້ແມ່ນ AutoGluon, DarwinAI, H20.ai ຂອງ Amazon. , IBM Watson AI, Microsoft AzureML, ແລະອື່ນໆອີກ. ສ່ວນໃຫຍ່ຂອງກອບເຫຼົ່ານີ້ປະຕິບັດການແກ້ໄຂ AutoML ທີ່ມີຈຸດປະສົງທົ່ວໄປທີ່ພັດທະນາຕົວແບບທີ່ອີງໃສ່ ML ໂດຍອັດຕະໂນມັດໃນທົ່ວປະເພດຕ່າງໆຂອງຄໍາຮ້ອງສະຫມັກໃນທົ່ວການບໍລິການທາງດ້ານການເງິນ, ການດູແລສຸຂະພາບ, ການສຶກສາ, ແລະອື່ນໆ. ການສົມມຸດຕິຖານທີ່ສໍາຄັນທີ່ຢູ່ເບື້ອງຫລັງວິທີການທົ່ວໄປແນວນອນນີ້ແມ່ນວ່າຂະບວນການຂອງການພັດທະນາແບບອັດຕະໂນມັດຍັງຄົງຄືກັນໃນທົ່ວທຸກຄໍາຮ້ອງສະຫມັກ. ຢ່າງໃດກໍຕາມ, ໂຄງຮ່າງການ LightAutoML ປະຕິບັດວິທີການຕັ້ງເພື່ອພັດທະນາການແກ້ໄຂ AutoML ທີ່ບໍ່ແມ່ນທົ່ວໄປ, ແຕ່ແທນທີ່ຈະຕອບສະຫນອງຄວາມຕ້ອງການຂອງຄໍາຮ້ອງສະຫມັກສ່ວນບຸກຄົນ, ໃນກໍລະນີນີ້ສະຖາບັນການເງິນຂະຫນາດໃຫຍ່. ໂຄງຮ່າງການ LightAutoML ແມ່ນການແກ້ໄຂ AutoML ແບບຕັ້ງທີ່ເນັ້ນໃສ່ຄວາມຕ້ອງການຂອງລະບົບນິເວດທີ່ສັບສົນພ້ອມກັບຄຸນລັກສະນະຂອງມັນ. ຫນ້າທໍາອິດ, ໂຄງຮ່າງການ LightAutoML ສະຫນອງການຊອກຫາ hyperparameter ໄວແລະໃກ້ທີ່ດີທີ່ສຸດ. ເຖິງແມ່ນວ່າຕົວແບບບໍ່ໄດ້ເພີ່ມປະສິດທິພາບ hyperparameters ເຫຼົ່ານີ້ໂດຍກົງ, ມັນຄຸ້ມຄອງເພື່ອໃຫ້ຜົນໄດ້ຮັບທີ່ຫນ້າພໍໃຈ. ຍິ່ງໄປກວ່ານັ້ນ, ຮູບແບບຮັກສາຄວາມສົມດຸນລະຫວ່າງຄວາມໄວແລະການເພີ່ມປະສິດທິພາບ hyperparameter ແບບເຄື່ອນໄຫວ, ເພື່ອຮັບປະກັນວ່າຕົວແບບແມ່ນດີທີ່ສຸດໃນບັນຫາຂະຫນາດນ້ອຍ, ແລະໄວພຽງພໍກັບຂະຫນາດໃຫຍ່. ອັນທີສອງ, ໂຄງຮ່າງການ LightAutoML ຈໍາກັດຂອບເຂດຂອງຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກໂດຍມີຈຸດປະສົງພຽງແຕ່ສອງປະເພດ: ຮູບແບບເສັ້ນ, ແລະ GBMs ຫຼືຕົ້ນໄມ້ການຕັດສິນໃຈ gradient boosted, ແທນທີ່ຈະປະຕິບັດກຸ່ມຂະຫນາດໃຫຍ່ຂອງ algorithms ທີ່ແຕກຕ່າງກັນ. ເຫດຜົນຕົ້ນຕໍທີ່ຢູ່ເບື້ອງຫລັງການຈໍາກັດຂອບເຂດຂອງຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນເພື່ອເລັ່ງເວລາການປະຕິບັດຂອງກອບ LightAutoML ໂດຍບໍ່ມີຜົນກະທົບຕໍ່ການປະຕິບັດທາງລົບຕໍ່ປະເພດຂອງບັນຫາແລະຂໍ້ມູນ. ອັນທີສາມ, ໂຄງຮ່າງການ LightAutoML ສະເຫນີວິທີການທີ່ເປັນເອກະລັກຂອງການເລືອກໂຄງການ preprocessing ສໍາລັບລັກສະນະທີ່ແຕກຕ່າງກັນທີ່ໃຊ້ໃນແບບຈໍາລອງໂດຍອີງໃສ່ກົດລະບຽບການຄັດເລືອກທີ່ແນ່ນອນແລະສະຖິຕິ meta. ໂຄງຮ່າງການ LightAutoML ແມ່ນຖືກປະເມີນຢູ່ໃນແຫຼ່ງຂໍ້ມູນທີ່ເປີດກ້ວາງໃນທົ່ວແອັບພລິເຄຊັນທີ່ຫຼາກຫຼາຍ. 

LightAutoML : ວິທີການ ແລະສະຖາປັດຕະຍະກໍາ

ໂຄງຮ່າງການ LightAutoML ປະກອບດ້ວຍໂມດູນທີ່ເອີ້ນວ່າ Presets ທີ່ອຸທິດຕົນເພື່ອການພັດທະນາແບບຈໍາລອງໃນຕອນທ້າຍສໍາລັບວຽກງານການຮຽນຮູ້ເຄື່ອງຈັກທົ່ວໄປ. ໃນປັດຈຸບັນ, ໂຄງຮ່າງການ LightAutoML ສະຫນັບສະຫນູນໂມດູນ Preset. ທໍາອິດ, TabularAutoML Preset ສຸມໃສ່ການແກ້ໄຂບັນຫາການຮຽນຮູ້ເຄື່ອງຈັກຄລາສສິກທີ່ກໍານົດໄວ້ໃນຊຸດຂໍ້ມູນຕາຕະລາງ. ອັນທີສອງ, White-Box Preset ປະຕິບັດຂັ້ນຕອນການຕີຄວາມງ່າຍເຊັ່ນ: Logistic Regression ແທນ WoE ຫຼື Weight of Evidence encoding and discretized features to solve the binary classification tasks on data tabular. ການປະຕິບັດສູດການຄິດໄລ່ແບບງ່າຍໆແມ່ນເປັນການປະຕິບັດທົ່ວໄປເພື່ອສ້າງແບບຈໍາລອງຄວາມເປັນໄປໄດ້ຂອງຄໍາຮ້ອງສະຫມັກເນື່ອງຈາກຂໍ້ຈໍາກັດການຕີຄວາມຫມາຍທີ່ເກີດຂື້ນໂດຍປັດໃຈທີ່ແຕກຕ່າງກັນ. ອັນທີສາມ, NLP Preset ສາມາດລວມຂໍ້ມູນຕາຕະລາງກັບ NLP ຫຼື Natural Language Processing ເຄື່ອງ​ມື​ລວມ​ທັງ​ຕົວ​ແບບ​ການ​ຮຽນ​ຮູ້​ເລິກ​ທາງ​ສ່ວນ​ຫນ້າ​ຂອງ​ການ​ຝຶກ​ອົບ​ຮົມ​ແລະ​ການ​ສະ​ກັດ​ຄຸນ​ນະ​ສົມ​ບັດ​ສະ​ເພາະ​. ສຸດທ້າຍ, CV Preset ເຮັດວຽກກັບຂໍ້ມູນຮູບພາບໂດຍການຊ່ວຍເຫຼືອຂອງບາງເຄື່ອງມືພື້ນຖານ. ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະສັງເກດວ່າເຖິງແມ່ນວ່າຮູບແບບ LightAutoML ສະຫນັບສະຫນູນທັງສີ່ Presets, ກອບພຽງແຕ່ໃຊ້ TabularAutoML ໃນລະບົບການຜະລິດລະດັບ. 

ທໍ່ປົກກະຕິຂອງກອບ LightAutoML ແມ່ນລວມຢູ່ໃນຮູບຕໍ່ໄປນີ້. 

ແຕ່ລະທໍ່ມີສາມອົງປະກອບ. ກ່ອນອື່ນ ໝົດ, Reader, ວັດຖຸທີ່ໄດ້ຮັບປະເພດວຽກແລະຂໍ້ມູນດິບເປັນວັດສະດຸປ້ອນ, ປະຕິບັດການຄິດໄລ່ metadata ທີ່ສໍາຄັນ, ເຮັດຄວາມສະອາດຂໍ້ມູນເບື້ອງຕົ້ນ, ແລະຄິດໄລ່ການຫມູນໃຊ້ຂໍ້ມູນທີ່ຈະປະຕິບັດກ່ອນທີ່ຈະເຫມາະສົມກັບຕົວແບບຕ່າງໆ. ຕໍ່ໄປ, ຊຸດຂໍ້ມູນພາຍໃນ LightAutoML ປະກອບດ້ວຍ CV iterators ແລະ metadata ທີ່ປະຕິບັດລະບົບການກວດສອບສໍາລັບຊຸດຂໍ້ມູນ. ອົງປະກອບທີສາມແມ່ນທໍ່ການຮຽນຮູ້ເຄື່ອງຈັກຫຼາຍອັນທີ່ວາງຊ້ອນກັນ ແລະ/ຫຼືປະສົມກັນເພື່ອໃຫ້ໄດ້ການຄາດຄະເນອັນດຽວ. ທໍ່ການຮຽນຮູ້ເຄື່ອງຈັກພາຍໃນສະຖາປັດຕະຍະກຳຂອງໂຄງຮ່າງການ LightAutoML ແມ່ນໜຶ່ງໃນຫຼາຍຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ແບ່ງປັນການຢືນຢັນຂໍ້ມູນອັນດຽວ ແລະລະບົບການປະມວນຜົນກ່ອນ. ຂັ້ນ​ຕອນ​ການ​ປຸງ​ແຕ່ງ​ກ່ອນ​ອາດ​ຈະ​ມີ​ເຖິງ​ສອງ​ຂັ້ນ​ຕອນ​ການ​ຄັດ​ເລືອກ​ຄຸນ​ສົມ​ບັດ​, ຂັ້ນ​ຕອນ​ວິ​ສະ​ວະ​ກໍາ​ຄຸນ​ສົມ​ບັດ​ຫຼື​ອາດ​ຈະ​ຫວ່າງ​ເປົ່າ​ຖ້າ​ຫາກ​ວ່າ​ບໍ່​ຈໍາ​ເປັນ​ຕ້ອງ​ການ​ປຸງ​ແຕ່ງ​ກ່ອນ​. ທໍ່ ML ສາມາດຖືກຄິດໄລ່ເປັນເອກະລາດໃນຊຸດຂໍ້ມູນດຽວກັນແລະຫຼັງຈາກນັ້ນປະສົມເຂົ້າກັນໂດຍໃຊ້ຄ່າສະເລ່ຍ (ຫຼືນ້ໍາຫນັກສະເລ່ຍ). ອີກທາງເລືອກ, ໂຄງປະກອບການ stacking ສາມາດຖືກນໍາໃຊ້ເພື່ອສ້າງສະຖາປັດຕະ ensemble ຫຼາຍລະດັບ. 

LightAutoML Tabular Preset

ພາຍໃນກອບຂອງ LightAutoML, TabularAutoML ແມ່ນທໍ່ເລີ່ມຕົ້ນ, ແລະມັນຖືກປະຕິບັດໃນຮູບແບບເພື່ອແກ້ໄຂບັນຫາສາມປະເພດກ່ຽວກັບຂໍ້ມູນຕາຕະລາງ: ການຈັດປະເພດຄູ່, regression, ແລະການຈັດປະເພດຫຼາຍຊັ້ນສໍາລັບ array ກ້ວາງຂອງ metrics ການປະຕິບັດແລະຫນ້າທີ່ສູນເສຍ. ຕາຕະລາງທີ່ມີສີ່ຖັນຕໍ່ໄປນີ້: ລັກສະນະໝວດໝູ່, ລັກສະນະຕົວເລກ, ເວລາ, ແລະຖັນເປົ້າໝາຍດຽວທີ່ມີປ້າຍກຳກັບ ຫຼືຄ່າຕໍ່ເນື່ອງຈະຖືກປ້ອນໃສ່ອົງປະກອບ TabularAutoML ເປັນການປ້ອນຂໍ້ມູນ. ຫນຶ່ງໃນຈຸດປະສົງຕົ້ນຕໍທີ່ຢູ່ເບື້ອງຫລັງການອອກແບບຂອງກອບ LightAutoML ແມ່ນການອອກແບບເຄື່ອງມືສໍາລັບການທົດສອບການສົມມຸດຕິຖານທີ່ໄວ, ເຫດຜົນທີ່ສໍາຄັນທີ່ກອບດັ່ງກ່າວຫຼີກເວັ້ນການນໍາໃຊ້ວິທີການ brute-force ສໍາລັບການເພີ່ມປະສິດທິພາບທໍ່, ແລະສຸມໃສ່ພຽງແຕ່ເຕັກນິກປະສິດທິພາບແລະຕົວແບບທີ່ເຮັດວຽກໃນທົ່ວ. ລະດັບຄວາມກ້ວາງຂອງຊຸດຂໍ້ມູນ. 

ການພິມອັດຕະໂນມັດ ແລະ ການປະມວນຜົນຂໍ້ມູນລ່ວງໜ້າ

ເພື່ອຈັດການປະເພດຕ່າງໆໃນລັກສະນະຕ່າງໆ, ຮູບແບບຈໍາເປັນຕ້ອງຮູ້ແຕ່ລະປະເພດຄຸນສົມບັດ. ໃນສະຖານະການທີ່ມີວຽກງານດຽວທີ່ມີຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ, ຜູ້ໃຊ້ສາມາດກໍານົດແຕ່ລະປະເພດຄຸນນະສົມບັດດ້ວຍຕົນເອງ. ຢ່າງໃດກໍ່ຕາມ, ການລະບຸແຕ່ລະປະເພດຄຸນສົມບັດດ້ວຍຕົນເອງບໍ່ແມ່ນທາງເລືອກທີ່ເປັນໄປໄດ້ໃນສະຖານະການທີ່ປະກອບມີຫຼາຍຮ້ອຍຫນ້າວຽກທີ່ມີຊຸດຂໍ້ມູນທີ່ມີຫລາຍພັນລັກສະນະ. ສໍາລັບ TabularAutoML Preset, ກອບ LightAutoML ຕ້ອງການແຜນທີ່ລັກສະນະເປັນສາມຊັ້ນ: ຕົວເລກ, ປະເພດ, ແລະວັນທີ. ການແກ້ໄຂທີ່ງ່າຍດາຍແລະຈະແຈ້ງແມ່ນການນໍາໃຊ້ປະເພດຂໍ້ມູນຖັນເປັນປະເພດຄຸນສົມບັດຕົວຈິງ, ນັ້ນແມ່ນ, ແຜນທີ່ float / int columns ກັບລັກສະນະຕົວເລກ, timestamp ຫຼື string, ທີ່ສາມາດແຍກເປັນ timestamp - to datetime, ແລະອື່ນໆໃນຫມວດຫມູ່. ຢ່າງໃດກໍ່ຕາມ, ການສ້າງແຜນທີ່ນີ້ບໍ່ແມ່ນດີທີ່ສຸດເນື່ອງຈາກການປະກົດຕົວເລື້ອຍໆຂອງປະເພດຂໍ້ມູນຕົວເລກໃນຖັນປະເພດ. 

ໂຄງ​ການ​ການ​ກວດ​ສອບ

ລະບົບການກວດສອບຄວາມຖືກຕ້ອງແມ່ນອົງປະກອບທີ່ສໍາຄັນຂອງກອບ AutoML ນັບຕັ້ງແຕ່ຂໍ້ມູນໃນອຸດສາຫະກໍາແມ່ນມີການປ່ຽນແປງຕາມເວລາ, ແລະອົງປະກອບຂອງການປ່ຽນແປງນີ້ເຮັດໃຫ້ການສົມມຸດຕິຖານຂອງ IID ຫຼື Independent Identically Distributed ບໍ່ກ່ຽວຂ້ອງໃນເວລາທີ່ການພັດທະນາຮູບແບບ. ແບບຈໍາລອງ AutoML ໃຊ້ລະບົບການກວດສອບເພື່ອປະເມີນປະສິດທິພາບຂອງເຂົາເຈົ້າ, ຄົ້ນຫາພາຣາມິເຕີ hyperparameters ແລະການຜະລິດການຄາດຄະເນນອກຂອບເຂດ. ທໍ່ TabularAutoML ປະຕິບັດສາມລະບົບການກວດສອບ:

  • KFold Cross Validation: KFold Cross Validation ແມ່ນລະບົບການກວດສອບມາດຕະຖານສໍາລັບທໍ່ TabularAutoML ລວມທັງ GroupKFold ສໍາລັບຕົວແບບພຶດຕິກໍາ, ແລະ KFold stratified ສໍາລັບວຽກງານການຈັດປະເພດ. 
  • ການກວດສອບການຢຸດ: ໂຄງການການຢັ້ງຢືນ Holdout ໄດ້ຖືກປະຕິບັດຖ້າຫາກວ່າຊຸດການຖືເອົາຖືກລະບຸໄວ້. 
  • ລະບົບການກວດສອບແບບກຳນົດເອງ: ລະບົບການກວດສອບແບບກຳນົດເອງສາມາດຖືກສ້າງຂື້ນໂດຍຜູ້ໃຊ້ຂຶ້ນກັບຄວາມຕ້ອງການສ່ວນບຸກຄົນຂອງເຂົາເຈົ້າ. ລະບົບການກວດສອບແບບກຳນົດເອງລວມມີການກວດສອບຂ້າມຜ່ານ, ແລະລະບົບການແບ່ງຊຸດເວລາ. 

ການເລືອກຄຸນສົມບັດ

ເຖິງແມ່ນວ່າການເລືອກຄຸນສົມບັດເປັນລັກສະນະທີ່ສໍາຄັນຂອງການພັດທະນາແບບຈໍາລອງຕາມມາດຕະຖານອຸດສາຫະກໍານັບຕັ້ງແຕ່ມັນອໍານວຍຄວາມສະດວກໃນການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການປະຕິບັດຕົວແບບ, ການແກ້ໄຂ AutoML ສ່ວນໃຫຍ່ບໍ່ໄດ້ສຸມໃສ່ບັນຫານີ້ຫຼາຍ. ໃນທາງກົງກັນຂ້າມ, ທໍ່ TabularAutoML ປະຕິບັດສາມຍຸດທະສາດການຄັດເລືອກຄຸນນະສົມບັດ: ບໍ່ມີການຄັດເລືອກ, ຄວາມສໍາຄັນຕັດອອກຈາກການຄັດເລືອກ, ແລະການເລືອກຕໍ່ຫນ້າໂດຍອີງໃສ່ຄວາມສໍາຄັນ. ອອກຈາກສາມ, ຄວາມສໍາຄັນຕັດອອກຍຸດທະສາດການຄັດເລືອກຄຸນນະສົມບັດເປັນຄ່າເລີ່ມຕົ້ນ. ຍິ່ງໄປກວ່ານັ້ນ, ມັນມີສອງວິທີຕົ້ນຕໍເພື່ອປະເມີນຄວາມສໍາຄັນຂອງຄຸນນະສົມບັດ: ຄວາມສໍາຄັນຂອງຕົ້ນໄມ້ທີ່ແບ່ງອອກ, ແລະຄວາມສໍາຄັນຂອງການປ່ຽນຕົວແບບ GBM ຫຼື gradient ເພີ່ມຂຶ້ນ. ຕົ້ນໄມ້ຕັດສິນໃຈ. ຈຸດປະສົງຕົ້ນຕໍຂອງການເລືອກການຕັດຄວາມສໍາຄັນແມ່ນເພື່ອປະຕິເສດລັກສະນະທີ່ບໍ່ເປັນປະໂຫຍດຕໍ່ຕົວແບບ, ອະນຸຍາດໃຫ້ຕົວແບບຫຼຸດຜ່ອນຈໍານວນລັກສະນະໂດຍບໍ່ມີຜົນກະທົບຕໍ່ການປະຕິບັດທາງລົບ, ວິທີການທີ່ອາດຈະເລັ່ງການ inference ຂອງຕົວແບບແລະການຝຶກອົບຮົມ. 

ຮູບພາບຂ້າງເທິງນີ້ປຽບທຽບຍຸດທະສາດການຄັດເລືອກທີ່ແຕກຕ່າງກັນກ່ຽວກັບຊຸດຂໍ້ມູນທະນາຄານຄູ່. 

ການປັບຄ່າ Hyperparameter

ທໍ່ TabularAutoML ປະຕິບັດວິທີການທີ່ແຕກຕ່າງກັນເພື່ອປບັ hyperparameters ບົນພື້ນຖານຂອງສິ່ງທີ່ຖືກປັບ. 

  • ການຢຸດການປັບ Hyperparameter ໃນຕອນຕົ້ນ ເລືອກ​ຈໍາ​ນວນ​ຂອງ iterations ສໍາ​ລັບ​ທຸກ​ແບບ​ໃນ​ໄລ​ຍະ​ການ​ຝຶກ​ອົບ​ຮົມ​. 
  • ການປັບແຕ່ງ Hyperparameter ລະບົບຜູ້ຊ່ຽວຊານ ເປັນວິທີທີ່ງ່າຍດາຍທີ່ຈະກໍານົດ hyperparameters ສໍາລັບຕົວແບບໃນແບບທີ່ຫນ້າພໍໃຈ. ມັນປ້ອງກັນຕົວແບບສຸດທ້າຍຈາກການຫຼຸດລົງສູງຂອງຄະແນນເມື່ອທຽບກັບຕົວແບບທີ່ມີສຽງແຂງ.
  • Tree Structured Parzen Estimation ຫຼື TPE ສໍາລັບ GBM ຫຼື gradient boosted ຮູບແບບການຕັດສິນໃຈຕົ້ນໄມ້. TPE ແມ່ນຍຸດທະສາດການປັບແຕ່ງແບບປະສົມທີ່ເປັນທາງເລືອກເລີ່ມຕົ້ນໃນທໍ່ LightAutoML. ສໍາລັບແຕ່ລະກອບ GMB, ໂຄງຮ່າງການ LightAutoML ຝຶກອົບຮົມສອງແບບ: ແບບທໍາອິດໄດ້ຮັບ hyperparameters ຜູ້ຊ່ຽວຊານ, ອັນທີສອງແມ່ນການປັບປຸງໃຫ້ເຫມາະສົມກັບງົບປະມານທີ່ໃຊ້ເວລາ. 
  • Grid Search Hyperparameter Tuning ຖືກປະຕິບັດຢູ່ໃນທໍ່ TabularAutoML ເພື່ອປັບຄ່າພາລາມິເຕີການປັບຕົວແບບປົກກະຕິຂອງຮູບແບບເສັ້ນຄຽງຄູ່ກັບການຢຸດໄວ, ແລະການເລີ່ມຕົ້ນທີ່ອົບອຸ່ນ. 

ໂມເດວປັບຕົວກໍານົດການທັງຫມົດໂດຍການເພີ່ມປະສິດທິພາບການທໍາງານຂອງ metric, ບໍ່ວ່າຈະຖືກກໍານົດໂດຍຜູ້ໃຊ້ຫຼືເປັນຄ່າເລີ່ມຕົ້ນສໍາລັບວຽກງານທີ່ແກ້ໄຂ. 

LightAutoML : ການທົດລອງ ແລະປະສິດທິພາບ

ເພື່ອປະເມີນປະສິດທິພາບ, TabularAutoML Preset ພາຍໃນກອບ LightAutoML ແມ່ນຖືກປຽບທຽບກັບການແກ້ໄຂແຫຼ່ງເປີດທີ່ມີຢູ່ແລ້ວໃນທົ່ວວຽກງານຕ່າງໆ, ແລະເສີມສ້າງປະສິດທິພາບທີ່ດີກວ່າຂອງກອບ LightAutoML. ຫນ້າທໍາອິດ, ການປຽບທຽບແມ່ນດໍາເນີນຢູ່ໃນມາດຕະຖານ OpenML ທີ່ຖືກປະເມີນຢູ່ໃນ 35 ຊຸດຂໍ້ມູນການຈັດປະເພດຄູ່ແລະຫຼາຍປະເພດ. ຕາຕະລາງຕໍ່ໄປນີ້ສະຫຼຸບການປຽບທຽບຂອງກອບ LightAutoML ກັບລະບົບ AutoML ທີ່ມີຢູ່. 

ດັ່ງທີ່ມັນສາມາດເຫັນໄດ້, ໂຄງຮ່າງການ LightAutoML ປະຕິບັດໄດ້ດີກວ່າລະບົບ AutoML ອື່ນໆທັງໝົດໃນ 20 ຊຸດຂໍ້ມູນພາຍໃນມາດຕະຖານ. ຕາຕະລາງຕໍ່ໄປນີ້ປະກອບດ້ວຍການປຽບທຽບລະອຽດໃນບໍລິບົດຂອງຊຸດຂໍ້ມູນທີ່ຊີ້ໃຫ້ເຫັນວ່າ LightAutoML ສະຫນອງການປະຕິບັດທີ່ແຕກຕ່າງກັນໃນຫ້ອງຮຽນທີ່ແຕກຕ່າງກັນຂອງວຽກງານ. ສໍາລັບວຽກງານການຈັດປະເພດຄູ່, LightAutoML ຫຼຸດລົງໃນການປະຕິບັດ, ໃນຂະນະທີ່ສໍາລັບວຽກງານທີ່ມີຈໍານວນຂໍ້ມູນສູງ, ກອບ LightAutoML ສະຫນອງການປະຕິບັດທີ່ດີກວ່າ.

ຕາຕະລາງຕໍ່ໄປນີ້ປຽບທຽບການປະຕິບັດຂອງກອບ LightAutoML ຕໍ່ກັບລະບົບ AutoML ໃນ 15 ຊຸດຂໍ້ມູນທະນາຄານທີ່ປະກອບດ້ວຍຊຸດຂອງວຽກງານການຈັດປະເພດຄູ່ຕ່າງໆ. ຍ້ອນວ່າມັນສາມາດສັງເກດເຫັນໄດ້, LightAutoML ປະຕິບັດໄດ້ດີກວ່າການແກ້ໄຂ AutoML ທັງຫມົດໃນ 12 ອອກຈາກ 15 ຊຸດຂໍ້ມູນ, ອັດຕາສ່ວນຊະນະຂອງ 80. 

ຄວາມຄິດສຸດທ້າຍ

ໃນບົດຄວາມນີ້ພວກເຮົາໄດ້ເວົ້າກ່ຽວກັບ LightAutoML, ລະບົບ AutoML ທີ່ພັດທະນາຕົ້ນຕໍສໍາລັບບໍລິສັດເອີຣົບທີ່ດໍາເນີນທຸລະກິດໃນຂະແຫນງການເງິນພ້ອມກັບລະບົບນິເວດຂອງມັນ. ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກນໍາໄປໃຊ້ໃນທົ່ວຄໍາຮ້ອງສະຫມັກຕ່າງໆ, ແລະຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຫນືອກວ່າ, ທຽບກັບລະດັບຂອງນັກວິທະຍາສາດຂໍ້ມູນ, ເຖິງແມ່ນວ່າໃນຂະນະທີ່ສ້າງຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ມີຄຸນນະພາບສູງ. ໂຄງຮ່າງການ LightAutoML ພະຍາຍາມປະກອບສ່ວນຕໍ່ໄປນີ້. ຫນ້າທໍາອິດ, ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກພັດທະນາຕົ້ນຕໍສໍາລັບລະບົບນິເວດຂອງສະຖາບັນການເງິນແລະການທະນາຄານຂະຫນາດໃຫຍ່ຂອງເອີຣົບ. ເນື່ອງຈາກໂຄງຮ່າງການແລະສະຖາປັດຕະຍະກໍາຂອງມັນ, ກອບ LightAutoML ສາມາດປະຕິບັດໄດ້ດີກວ່າກອບວຽກ AutoML ໃນທົ່ວມາດຕະຖານທີ່ເປີດຫຼາຍເຊັ່ນດຽວກັນກັບຄໍາຮ້ອງສະຫມັກລະບົບນິເວດ. ປະສິດທິພາບຂອງໂຄງຮ່າງການ LightAutoML ຍັງຖືກປຽບທຽບກັບຕົວແບບທີ່ຖືກປັບດ້ວຍມືໂດຍນັກວິທະຍາສາດຂໍ້ມູນ, ແລະຜົນໄດ້ຮັບຊີ້ໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຂັ້ມແຂງໂດຍກອບ LightAutoML. 

"ວິສະວະກອນໂດຍອາຊີບ, ນັກຂຽນດ້ວຍຫົວໃຈ". Kunal ເປັນນັກຂຽນດ້ານວິຊາການທີ່ມີຄວາມຮັກແລະຄວາມເຂົ້າໃຈຢ່າງເລິກເຊິ່ງກ່ຽວກັບ AI ແລະ ML, ອຸທິດຕົນເພື່ອງ່າຍແນວຄວາມຄິດທີ່ສັບສົນໃນຂົງເຂດເຫຼົ່ານີ້ໂດຍຜ່ານເອກະສານທີ່ມີສ່ວນຮ່ວມແລະໃຫ້ຂໍ້ມູນຂອງລາວ.