ປັນຍາປະດິດ
LightAutoML: ການແກ້ໄຂ AutoML ສໍາລັບລະບົບນິເວດການບໍລິການທາງດ້ານການເງິນຂະຫນາດໃຫຍ່
ເຖິງແມ່ນວ່າ AutoML ເພີ່ມຂຶ້ນເປັນຄວາມນິຍົມສອງສາມປີກ່ອນຫນ້ານີ້, ealy ເຮັດວຽກ AutoML ມີມາຕັ້ງແຕ່ຕົ້ນປີ 90s ເມື່ອນັກວິທະຍາສາດຕີພິມເອກະສານທໍາອິດກ່ຽວກັບການເພີ່ມປະສິດທິພາບ hyperparameter. ມັນແມ່ນໃນປີ 2014 ເມື່ອ ICML ໄດ້ຈັດກອງປະຊຸມ AutoML ທໍາອິດທີ່ AutoML ໄດ້ຮັບຄວາມສົນໃຈຈາກນັກພັດທະນາ ML. ຫນຶ່ງໃນຈຸດສຸມທີ່ສໍາຄັນໃນໄລຍະຫລາຍປີຂອງ AutoML ແມ່ນບັນຫາການຊອກຫາ hyperparameter, ບ່ອນທີ່ຕົວແບບປະຕິບັດວິທີການເພີ່ມປະສິດທິພາບເພື່ອກໍານົດ hyperparameters ທີ່ມີປະສິດທິພາບທີ່ດີທີ່ສຸດໃນພື້ນທີ່ hyperparameter ຂະຫນາດໃຫຍ່ສໍາລັບຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກໂດຍສະເພາະ. ວິທີການອື່ນທີ່ຖືກນໍາໃຊ້ໂດຍທົ່ວໄປໂດຍຕົວແບບ AutoML ແມ່ນການປະເມີນຄວາມເປັນໄປໄດ້ຂອງ hyperparameter ໂດຍສະເພາະເປັນ hyperparameter ທີ່ດີທີ່ສຸດສໍາລັບຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ. ຮູບແບບດັ່ງກ່າວບັນລຸໄດ້ໂດຍການປະຕິບັດວິທີການ Bayesian ທີ່ປະເພນີໃຊ້ຂໍ້ມູນປະຫວັດສາດຈາກແບບຈໍາລອງທີ່ຄາດຄະເນກ່ອນຫນ້ານີ້, ແລະຊຸດຂໍ້ມູນອື່ນໆ. ນອກເຫນືອຈາກການເພີ່ມປະສິດທິພາບ hyperparameter, ວິທີການອື່ນໆພະຍາຍາມເລືອກແບບຈໍາລອງທີ່ດີທີ່ສຸດຈາກພື້ນທີ່ຂອງຕົວແບບທາງເລືອກ.
ໃນບົດຄວາມນີ້, ພວກເຮົາຈະກວມເອົາ LightAutoML, ລະບົບ AutoML ທີ່ພັດທະນາຕົ້ນຕໍສໍາລັບບໍລິສັດເອີຣົບທີ່ດໍາເນີນການໃນຂະແຫນງການເງິນພ້ອມກັບລະບົບນິເວດຂອງມັນ. ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກນໍາໄປໃຊ້ໃນທົ່ວຄໍາຮ້ອງສະຫມັກຕ່າງໆ, ແລະຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຫນືອກວ່າ, ທຽບກັບລະດັບຂອງນັກວິທະຍາສາດຂໍ້ມູນ, ເຖິງແມ່ນວ່າໃນຂະນະທີ່ສ້າງຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ມີຄຸນນະພາບສູງ. ໂຄງຮ່າງການ LightAutoML ພະຍາຍາມປະກອບສ່ວນຕໍ່ໄປນີ້. ຫນ້າທໍາອິດ, ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກພັດທະນາຕົ້ນຕໍສໍາລັບລະບົບນິເວດຂອງສະຖາບັນການເງິນແລະການທະນາຄານຂະຫນາດໃຫຍ່ຂອງເອີຣົບ. ເນື່ອງຈາກໂຄງຮ່າງການແລະສະຖາປັດຕະຍະກໍາຂອງມັນ, ກອບ LightAutoML ສາມາດປະຕິບັດໄດ້ດີກວ່າກອບວຽກ AutoML ໃນທົ່ວມາດຕະຖານທີ່ເປີດຫຼາຍເຊັ່ນດຽວກັນກັບຄໍາຮ້ອງສະຫມັກລະບົບນິເວດ. ປະສິດທິພາບຂອງໂຄງຮ່າງການ LightAutoML ຍັງຖືກປຽບທຽບກັບຕົວແບບທີ່ຖືກປັບດ້ວຍມືໂດຍນັກວິທະຍາສາດຂໍ້ມູນ, ແລະຜົນໄດ້ຮັບຊີ້ໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຂັ້ມແຂງໂດຍກອບ LightAutoML.
ບົດຂຽນນີ້ມີຈຸດປະສົງເພື່ອໃຫ້ກວມເອົາກອບ LightAutoML ໃນຄວາມເລິກ, ແລະພວກເຮົາຄົ້ນຫາກົນໄກ, ວິທີການ, ຖາປັດຕະຍະຂອງກອບພ້ອມກັບການປຽບທຽບກັບໂຄງສ້າງຂອງລັດ. ສະນັ້ນໃຫ້ເລີ່ມຕົ້ນ.
LightAutoML: ໂຄງຮ່າງການ AutoML ສໍາລັບການບໍລິການທາງດ້ານການເງິນ
ເຖິງແມ່ນວ່ານັກຄົ້ນຄວ້າໄດ້ເລີ່ມຕົ້ນເຮັດວຽກກ່ຽວກັບ AutoML ໃນກາງປີ 90 ແລະຕົ້ນປີ, AutoML ໄດ້ດຶງດູດຄວາມສົນໃຈອັນໃຫຍ່ຫຼວງໃນສອງສາມປີຜ່ານມາ, ດ້ວຍວິທີແກ້ໄຂອຸດສາຫະກໍາທີ່ໂດດເດັ່ນບາງຢ່າງທີ່ປະຕິບັດຕົວແບບອັດຕະໂນມັດສ້າງເຄື່ອງຈັກການຮຽນຮູ້ແມ່ນ AutoGluon, DarwinAI, H20.ai ຂອງ Amazon. , IBM Watson AI, Microsoft AzureML, ແລະອື່ນໆອີກ. ສ່ວນໃຫຍ່ຂອງກອບເຫຼົ່ານີ້ປະຕິບັດການແກ້ໄຂ AutoML ທີ່ມີຈຸດປະສົງທົ່ວໄປທີ່ພັດທະນາຕົວແບບທີ່ອີງໃສ່ ML ໂດຍອັດຕະໂນມັດໃນທົ່ວປະເພດຕ່າງໆຂອງຄໍາຮ້ອງສະຫມັກໃນທົ່ວການບໍລິການທາງດ້ານການເງິນ, ການດູແລສຸຂະພາບ, ການສຶກສາ, ແລະອື່ນໆ. ການສົມມຸດຕິຖານທີ່ສໍາຄັນທີ່ຢູ່ເບື້ອງຫລັງວິທີການທົ່ວໄປແນວນອນນີ້ແມ່ນວ່າຂະບວນການຂອງການພັດທະນາແບບອັດຕະໂນມັດຍັງຄົງຄືກັນໃນທົ່ວທຸກຄໍາຮ້ອງສະຫມັກ. ຢ່າງໃດກໍຕາມ, ໂຄງຮ່າງການ LightAutoML ປະຕິບັດວິທີການຕັ້ງເພື່ອພັດທະນາການແກ້ໄຂ AutoML ທີ່ບໍ່ແມ່ນທົ່ວໄປ, ແຕ່ແທນທີ່ຈະຕອບສະຫນອງຄວາມຕ້ອງການຂອງຄໍາຮ້ອງສະຫມັກສ່ວນບຸກຄົນ, ໃນກໍລະນີນີ້ສະຖາບັນການເງິນຂະຫນາດໃຫຍ່. ໂຄງຮ່າງການ LightAutoML ແມ່ນການແກ້ໄຂ AutoML ແບບຕັ້ງທີ່ເນັ້ນໃສ່ຄວາມຕ້ອງການຂອງລະບົບນິເວດທີ່ສັບສົນພ້ອມກັບຄຸນລັກສະນະຂອງມັນ. ຫນ້າທໍາອິດ, ໂຄງຮ່າງການ LightAutoML ສະຫນອງການຊອກຫາ hyperparameter ໄວແລະໃກ້ທີ່ດີທີ່ສຸດ. ເຖິງແມ່ນວ່າຕົວແບບບໍ່ໄດ້ເພີ່ມປະສິດທິພາບ hyperparameters ເຫຼົ່ານີ້ໂດຍກົງ, ມັນຄຸ້ມຄອງເພື່ອໃຫ້ຜົນໄດ້ຮັບທີ່ຫນ້າພໍໃຈ. ຍິ່ງໄປກວ່ານັ້ນ, ຮູບແບບຮັກສາຄວາມສົມດຸນລະຫວ່າງຄວາມໄວແລະການເພີ່ມປະສິດທິພາບ hyperparameter ແບບເຄື່ອນໄຫວ, ເພື່ອຮັບປະກັນວ່າຕົວແບບແມ່ນດີທີ່ສຸດໃນບັນຫາຂະຫນາດນ້ອຍ, ແລະໄວພຽງພໍກັບຂະຫນາດໃຫຍ່. ອັນທີສອງ, ໂຄງຮ່າງການ LightAutoML ຈໍາກັດຂອບເຂດຂອງຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກໂດຍມີຈຸດປະສົງພຽງແຕ່ສອງປະເພດ: ຮູບແບບເສັ້ນ, ແລະ GBMs ຫຼືຕົ້ນໄມ້ການຕັດສິນໃຈ gradient boosted, ແທນທີ່ຈະປະຕິບັດກຸ່ມຂະຫນາດໃຫຍ່ຂອງ algorithms ທີ່ແຕກຕ່າງກັນ. ເຫດຜົນຕົ້ນຕໍທີ່ຢູ່ເບື້ອງຫລັງການຈໍາກັດຂອບເຂດຂອງຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນເພື່ອເລັ່ງເວລາການປະຕິບັດຂອງກອບ LightAutoML ໂດຍບໍ່ມີຜົນກະທົບຕໍ່ການປະຕິບັດທາງລົບຕໍ່ປະເພດຂອງບັນຫາແລະຂໍ້ມູນ. ອັນທີສາມ, ໂຄງຮ່າງການ LightAutoML ສະເຫນີວິທີການທີ່ເປັນເອກະລັກຂອງການເລືອກໂຄງການ preprocessing ສໍາລັບລັກສະນະທີ່ແຕກຕ່າງກັນທີ່ໃຊ້ໃນແບບຈໍາລອງໂດຍອີງໃສ່ກົດລະບຽບການຄັດເລືອກທີ່ແນ່ນອນແລະສະຖິຕິ meta. ໂຄງຮ່າງການ LightAutoML ແມ່ນຖືກປະເມີນຢູ່ໃນແຫຼ່ງຂໍ້ມູນທີ່ເປີດກ້ວາງໃນທົ່ວແອັບພລິເຄຊັນທີ່ຫຼາກຫຼາຍ.
LightAutoML : ວິທີການ ແລະສະຖາປັດຕະຍະກໍາ
ໂຄງຮ່າງການ LightAutoML ປະກອບດ້ວຍໂມດູນທີ່ເອີ້ນວ່າ Presets ທີ່ອຸທິດຕົນເພື່ອການພັດທະນາແບບຈໍາລອງໃນຕອນທ້າຍສໍາລັບວຽກງານການຮຽນຮູ້ເຄື່ອງຈັກທົ່ວໄປ. ໃນປັດຈຸບັນ, ໂຄງຮ່າງການ LightAutoML ສະຫນັບສະຫນູນໂມດູນ Preset. ທໍາອິດ, TabularAutoML Preset ສຸມໃສ່ການແກ້ໄຂບັນຫາການຮຽນຮູ້ເຄື່ອງຈັກຄລາສສິກທີ່ກໍານົດໄວ້ໃນຊຸດຂໍ້ມູນຕາຕະລາງ. ອັນທີສອງ, White-Box Preset ປະຕິບັດຂັ້ນຕອນການຕີຄວາມງ່າຍເຊັ່ນ: Logistic Regression ແທນ WoE ຫຼື Weight of Evidence encoding and discretized features to solve the binary classification tasks on data tabular. ການປະຕິບັດສູດການຄິດໄລ່ແບບງ່າຍໆແມ່ນເປັນການປະຕິບັດທົ່ວໄປເພື່ອສ້າງແບບຈໍາລອງຄວາມເປັນໄປໄດ້ຂອງຄໍາຮ້ອງສະຫມັກເນື່ອງຈາກຂໍ້ຈໍາກັດການຕີຄວາມຫມາຍທີ່ເກີດຂື້ນໂດຍປັດໃຈທີ່ແຕກຕ່າງກັນ. ອັນທີສາມ, NLP Preset ສາມາດລວມຂໍ້ມູນຕາຕະລາງກັບ NLP ຫຼື Natural Language Processing ເຄື່ອງມືລວມທັງຕົວແບບການຮຽນຮູ້ເລິກທາງສ່ວນຫນ້າຂອງການຝຶກອົບຮົມແລະການສະກັດຄຸນນະສົມບັດສະເພາະ. ສຸດທ້າຍ, CV Preset ເຮັດວຽກກັບຂໍ້ມູນຮູບພາບໂດຍການຊ່ວຍເຫຼືອຂອງບາງເຄື່ອງມືພື້ນຖານ. ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະສັງເກດວ່າເຖິງແມ່ນວ່າຮູບແບບ LightAutoML ສະຫນັບສະຫນູນທັງສີ່ Presets, ກອບພຽງແຕ່ໃຊ້ TabularAutoML ໃນລະບົບການຜະລິດລະດັບ.
ທໍ່ປົກກະຕິຂອງກອບ LightAutoML ແມ່ນລວມຢູ່ໃນຮູບຕໍ່ໄປນີ້.
ແຕ່ລະທໍ່ມີສາມອົງປະກອບ. ກ່ອນອື່ນ ໝົດ, Reader, ວັດຖຸທີ່ໄດ້ຮັບປະເພດວຽກແລະຂໍ້ມູນດິບເປັນວັດສະດຸປ້ອນ, ປະຕິບັດການຄິດໄລ່ metadata ທີ່ສໍາຄັນ, ເຮັດຄວາມສະອາດຂໍ້ມູນເບື້ອງຕົ້ນ, ແລະຄິດໄລ່ການຫມູນໃຊ້ຂໍ້ມູນທີ່ຈະປະຕິບັດກ່ອນທີ່ຈະເຫມາະສົມກັບຕົວແບບຕ່າງໆ. ຕໍ່ໄປ, ຊຸດຂໍ້ມູນພາຍໃນ LightAutoML ປະກອບດ້ວຍ CV iterators ແລະ metadata ທີ່ປະຕິບັດລະບົບການກວດສອບສໍາລັບຊຸດຂໍ້ມູນ. ອົງປະກອບທີສາມແມ່ນທໍ່ການຮຽນຮູ້ເຄື່ອງຈັກຫຼາຍອັນທີ່ວາງຊ້ອນກັນ ແລະ/ຫຼືປະສົມກັນເພື່ອໃຫ້ໄດ້ການຄາດຄະເນອັນດຽວ. ທໍ່ການຮຽນຮູ້ເຄື່ອງຈັກພາຍໃນສະຖາປັດຕະຍະກຳຂອງໂຄງຮ່າງການ LightAutoML ແມ່ນໜຶ່ງໃນຫຼາຍຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ແບ່ງປັນການຢືນຢັນຂໍ້ມູນອັນດຽວ ແລະລະບົບການປະມວນຜົນກ່ອນ. ຂັ້ນຕອນການປຸງແຕ່ງກ່ອນອາດຈະມີເຖິງສອງຂັ້ນຕອນການຄັດເລືອກຄຸນສົມບັດ, ຂັ້ນຕອນວິສະວະກໍາຄຸນສົມບັດຫຼືອາດຈະຫວ່າງເປົ່າຖ້າຫາກວ່າບໍ່ຈໍາເປັນຕ້ອງການປຸງແຕ່ງກ່ອນ. ທໍ່ ML ສາມາດຖືກຄິດໄລ່ເປັນເອກະລາດໃນຊຸດຂໍ້ມູນດຽວກັນແລະຫຼັງຈາກນັ້ນປະສົມເຂົ້າກັນໂດຍໃຊ້ຄ່າສະເລ່ຍ (ຫຼືນ້ໍາຫນັກສະເລ່ຍ). ອີກທາງເລືອກ, ໂຄງປະກອບການ stacking ສາມາດຖືກນໍາໃຊ້ເພື່ອສ້າງສະຖາປັດຕະ ensemble ຫຼາຍລະດັບ.
LightAutoML Tabular Preset
ພາຍໃນກອບຂອງ LightAutoML, TabularAutoML ແມ່ນທໍ່ເລີ່ມຕົ້ນ, ແລະມັນຖືກປະຕິບັດໃນຮູບແບບເພື່ອແກ້ໄຂບັນຫາສາມປະເພດກ່ຽວກັບຂໍ້ມູນຕາຕະລາງ: ການຈັດປະເພດຄູ່, regression, ແລະການຈັດປະເພດຫຼາຍຊັ້ນສໍາລັບ array ກ້ວາງຂອງ metrics ການປະຕິບັດແລະຫນ້າທີ່ສູນເສຍ. ຕາຕະລາງທີ່ມີສີ່ຖັນຕໍ່ໄປນີ້: ລັກສະນະໝວດໝູ່, ລັກສະນະຕົວເລກ, ເວລາ, ແລະຖັນເປົ້າໝາຍດຽວທີ່ມີປ້າຍກຳກັບ ຫຼືຄ່າຕໍ່ເນື່ອງຈະຖືກປ້ອນໃສ່ອົງປະກອບ TabularAutoML ເປັນການປ້ອນຂໍ້ມູນ. ຫນຶ່ງໃນຈຸດປະສົງຕົ້ນຕໍທີ່ຢູ່ເບື້ອງຫລັງການອອກແບບຂອງກອບ LightAutoML ແມ່ນການອອກແບບເຄື່ອງມືສໍາລັບການທົດສອບການສົມມຸດຕິຖານທີ່ໄວ, ເຫດຜົນທີ່ສໍາຄັນທີ່ກອບດັ່ງກ່າວຫຼີກເວັ້ນການນໍາໃຊ້ວິທີການ brute-force ສໍາລັບການເພີ່ມປະສິດທິພາບທໍ່, ແລະສຸມໃສ່ພຽງແຕ່ເຕັກນິກປະສິດທິພາບແລະຕົວແບບທີ່ເຮັດວຽກໃນທົ່ວ. ລະດັບຄວາມກ້ວາງຂອງຊຸດຂໍ້ມູນ.
ການພິມອັດຕະໂນມັດ ແລະ ການປະມວນຜົນຂໍ້ມູນລ່ວງໜ້າ
ເພື່ອຈັດການປະເພດຕ່າງໆໃນລັກສະນະຕ່າງໆ, ຮູບແບບຈໍາເປັນຕ້ອງຮູ້ແຕ່ລະປະເພດຄຸນສົມບັດ. ໃນສະຖານະການທີ່ມີວຽກງານດຽວທີ່ມີຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ, ຜູ້ໃຊ້ສາມາດກໍານົດແຕ່ລະປະເພດຄຸນນະສົມບັດດ້ວຍຕົນເອງ. ຢ່າງໃດກໍ່ຕາມ, ການລະບຸແຕ່ລະປະເພດຄຸນສົມບັດດ້ວຍຕົນເອງບໍ່ແມ່ນທາງເລືອກທີ່ເປັນໄປໄດ້ໃນສະຖານະການທີ່ປະກອບມີຫຼາຍຮ້ອຍຫນ້າວຽກທີ່ມີຊຸດຂໍ້ມູນທີ່ມີຫລາຍພັນລັກສະນະ. ສໍາລັບ TabularAutoML Preset, ກອບ LightAutoML ຕ້ອງການແຜນທີ່ລັກສະນະເປັນສາມຊັ້ນ: ຕົວເລກ, ປະເພດ, ແລະວັນທີ. ການແກ້ໄຂທີ່ງ່າຍດາຍແລະຈະແຈ້ງແມ່ນການນໍາໃຊ້ປະເພດຂໍ້ມູນຖັນເປັນປະເພດຄຸນສົມບັດຕົວຈິງ, ນັ້ນແມ່ນ, ແຜນທີ່ float / int columns ກັບລັກສະນະຕົວເລກ, timestamp ຫຼື string, ທີ່ສາມາດແຍກເປັນ timestamp - to datetime, ແລະອື່ນໆໃນຫມວດຫມູ່. ຢ່າງໃດກໍ່ຕາມ, ການສ້າງແຜນທີ່ນີ້ບໍ່ແມ່ນດີທີ່ສຸດເນື່ອງຈາກການປະກົດຕົວເລື້ອຍໆຂອງປະເພດຂໍ້ມູນຕົວເລກໃນຖັນປະເພດ.
ໂຄງການການກວດສອບ
ລະບົບການກວດສອບຄວາມຖືກຕ້ອງແມ່ນອົງປະກອບທີ່ສໍາຄັນຂອງກອບ AutoML ນັບຕັ້ງແຕ່ຂໍ້ມູນໃນອຸດສາຫະກໍາແມ່ນມີການປ່ຽນແປງຕາມເວລາ, ແລະອົງປະກອບຂອງການປ່ຽນແປງນີ້ເຮັດໃຫ້ການສົມມຸດຕິຖານຂອງ IID ຫຼື Independent Identically Distributed ບໍ່ກ່ຽວຂ້ອງໃນເວລາທີ່ການພັດທະນາຮູບແບບ. ແບບຈໍາລອງ AutoML ໃຊ້ລະບົບການກວດສອບເພື່ອປະເມີນປະສິດທິພາບຂອງເຂົາເຈົ້າ, ຄົ້ນຫາພາຣາມິເຕີ hyperparameters ແລະການຜະລິດການຄາດຄະເນນອກຂອບເຂດ. ທໍ່ TabularAutoML ປະຕິບັດສາມລະບົບການກວດສອບ:
- KFold Cross Validation: KFold Cross Validation ແມ່ນລະບົບການກວດສອບມາດຕະຖານສໍາລັບທໍ່ TabularAutoML ລວມທັງ GroupKFold ສໍາລັບຕົວແບບພຶດຕິກໍາ, ແລະ KFold stratified ສໍາລັບວຽກງານການຈັດປະເພດ.
- ການກວດສອບການຢຸດ: ໂຄງການການຢັ້ງຢືນ Holdout ໄດ້ຖືກປະຕິບັດຖ້າຫາກວ່າຊຸດການຖືເອົາຖືກລະບຸໄວ້.
- ລະບົບການກວດສອບແບບກຳນົດເອງ: ລະບົບການກວດສອບແບບກຳນົດເອງສາມາດຖືກສ້າງຂື້ນໂດຍຜູ້ໃຊ້ຂຶ້ນກັບຄວາມຕ້ອງການສ່ວນບຸກຄົນຂອງເຂົາເຈົ້າ. ລະບົບການກວດສອບແບບກຳນົດເອງລວມມີການກວດສອບຂ້າມຜ່ານ, ແລະລະບົບການແບ່ງຊຸດເວລາ.
ການເລືອກຄຸນສົມບັດ
ເຖິງແມ່ນວ່າການເລືອກຄຸນສົມບັດເປັນລັກສະນະທີ່ສໍາຄັນຂອງການພັດທະນາແບບຈໍາລອງຕາມມາດຕະຖານອຸດສາຫະກໍານັບຕັ້ງແຕ່ມັນອໍານວຍຄວາມສະດວກໃນການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການປະຕິບັດຕົວແບບ, ການແກ້ໄຂ AutoML ສ່ວນໃຫຍ່ບໍ່ໄດ້ສຸມໃສ່ບັນຫານີ້ຫຼາຍ. ໃນທາງກົງກັນຂ້າມ, ທໍ່ TabularAutoML ປະຕິບັດສາມຍຸດທະສາດການຄັດເລືອກຄຸນນະສົມບັດ: ບໍ່ມີການຄັດເລືອກ, ຄວາມສໍາຄັນຕັດອອກຈາກການຄັດເລືອກ, ແລະການເລືອກຕໍ່ຫນ້າໂດຍອີງໃສ່ຄວາມສໍາຄັນ. ອອກຈາກສາມ, ຄວາມສໍາຄັນຕັດອອກຍຸດທະສາດການຄັດເລືອກຄຸນນະສົມບັດເປັນຄ່າເລີ່ມຕົ້ນ. ຍິ່ງໄປກວ່ານັ້ນ, ມັນມີສອງວິທີຕົ້ນຕໍເພື່ອປະເມີນຄວາມສໍາຄັນຂອງຄຸນນະສົມບັດ: ຄວາມສໍາຄັນຂອງຕົ້ນໄມ້ທີ່ແບ່ງອອກ, ແລະຄວາມສໍາຄັນຂອງການປ່ຽນຕົວແບບ GBM ຫຼື gradient ເພີ່ມຂຶ້ນ. ຕົ້ນໄມ້ຕັດສິນໃຈ. ຈຸດປະສົງຕົ້ນຕໍຂອງການເລືອກການຕັດຄວາມສໍາຄັນແມ່ນເພື່ອປະຕິເສດລັກສະນະທີ່ບໍ່ເປັນປະໂຫຍດຕໍ່ຕົວແບບ, ອະນຸຍາດໃຫ້ຕົວແບບຫຼຸດຜ່ອນຈໍານວນລັກສະນະໂດຍບໍ່ມີຜົນກະທົບຕໍ່ການປະຕິບັດທາງລົບ, ວິທີການທີ່ອາດຈະເລັ່ງການ inference ຂອງຕົວແບບແລະການຝຶກອົບຮົມ.
ຮູບພາບຂ້າງເທິງນີ້ປຽບທຽບຍຸດທະສາດການຄັດເລືອກທີ່ແຕກຕ່າງກັນກ່ຽວກັບຊຸດຂໍ້ມູນທະນາຄານຄູ່.
ການປັບຄ່າ Hyperparameter
ທໍ່ TabularAutoML ປະຕິບັດວິທີການທີ່ແຕກຕ່າງກັນເພື່ອປບັ hyperparameters ບົນພື້ນຖານຂອງສິ່ງທີ່ຖືກປັບ.
- ການຢຸດການປັບ Hyperparameter ໃນຕອນຕົ້ນ ເລືອກຈໍານວນຂອງ iterations ສໍາລັບທຸກແບບໃນໄລຍະການຝຶກອົບຮົມ.
- ການປັບແຕ່ງ Hyperparameter ລະບົບຜູ້ຊ່ຽວຊານ ເປັນວິທີທີ່ງ່າຍດາຍທີ່ຈະກໍານົດ hyperparameters ສໍາລັບຕົວແບບໃນແບບທີ່ຫນ້າພໍໃຈ. ມັນປ້ອງກັນຕົວແບບສຸດທ້າຍຈາກການຫຼຸດລົງສູງຂອງຄະແນນເມື່ອທຽບກັບຕົວແບບທີ່ມີສຽງແຂງ.
- Tree Structured Parzen Estimation ຫຼື TPE ສໍາລັບ GBM ຫຼື gradient boosted ຮູບແບບການຕັດສິນໃຈຕົ້ນໄມ້. TPE ແມ່ນຍຸດທະສາດການປັບແຕ່ງແບບປະສົມທີ່ເປັນທາງເລືອກເລີ່ມຕົ້ນໃນທໍ່ LightAutoML. ສໍາລັບແຕ່ລະກອບ GMB, ໂຄງຮ່າງການ LightAutoML ຝຶກອົບຮົມສອງແບບ: ແບບທໍາອິດໄດ້ຮັບ hyperparameters ຜູ້ຊ່ຽວຊານ, ອັນທີສອງແມ່ນການປັບປຸງໃຫ້ເຫມາະສົມກັບງົບປະມານທີ່ໃຊ້ເວລາ.
- Grid Search Hyperparameter Tuning ຖືກປະຕິບັດຢູ່ໃນທໍ່ TabularAutoML ເພື່ອປັບຄ່າພາລາມິເຕີການປັບຕົວແບບປົກກະຕິຂອງຮູບແບບເສັ້ນຄຽງຄູ່ກັບການຢຸດໄວ, ແລະການເລີ່ມຕົ້ນທີ່ອົບອຸ່ນ.
ໂມເດວປັບຕົວກໍານົດການທັງຫມົດໂດຍການເພີ່ມປະສິດທິພາບການທໍາງານຂອງ metric, ບໍ່ວ່າຈະຖືກກໍານົດໂດຍຜູ້ໃຊ້ຫຼືເປັນຄ່າເລີ່ມຕົ້ນສໍາລັບວຽກງານທີ່ແກ້ໄຂ.
LightAutoML : ການທົດລອງ ແລະປະສິດທິພາບ
ເພື່ອປະເມີນປະສິດທິພາບ, TabularAutoML Preset ພາຍໃນກອບ LightAutoML ແມ່ນຖືກປຽບທຽບກັບການແກ້ໄຂແຫຼ່ງເປີດທີ່ມີຢູ່ແລ້ວໃນທົ່ວວຽກງານຕ່າງໆ, ແລະເສີມສ້າງປະສິດທິພາບທີ່ດີກວ່າຂອງກອບ LightAutoML. ຫນ້າທໍາອິດ, ການປຽບທຽບແມ່ນດໍາເນີນຢູ່ໃນມາດຕະຖານ OpenML ທີ່ຖືກປະເມີນຢູ່ໃນ 35 ຊຸດຂໍ້ມູນການຈັດປະເພດຄູ່ແລະຫຼາຍປະເພດ. ຕາຕະລາງຕໍ່ໄປນີ້ສະຫຼຸບການປຽບທຽບຂອງກອບ LightAutoML ກັບລະບົບ AutoML ທີ່ມີຢູ່.
ດັ່ງທີ່ມັນສາມາດເຫັນໄດ້, ໂຄງຮ່າງການ LightAutoML ປະຕິບັດໄດ້ດີກວ່າລະບົບ AutoML ອື່ນໆທັງໝົດໃນ 20 ຊຸດຂໍ້ມູນພາຍໃນມາດຕະຖານ. ຕາຕະລາງຕໍ່ໄປນີ້ປະກອບດ້ວຍການປຽບທຽບລະອຽດໃນບໍລິບົດຂອງຊຸດຂໍ້ມູນທີ່ຊີ້ໃຫ້ເຫັນວ່າ LightAutoML ສະຫນອງການປະຕິບັດທີ່ແຕກຕ່າງກັນໃນຫ້ອງຮຽນທີ່ແຕກຕ່າງກັນຂອງວຽກງານ. ສໍາລັບວຽກງານການຈັດປະເພດຄູ່, LightAutoML ຫຼຸດລົງໃນການປະຕິບັດ, ໃນຂະນະທີ່ສໍາລັບວຽກງານທີ່ມີຈໍານວນຂໍ້ມູນສູງ, ກອບ LightAutoML ສະຫນອງການປະຕິບັດທີ່ດີກວ່າ.
ຕາຕະລາງຕໍ່ໄປນີ້ປຽບທຽບການປະຕິບັດຂອງກອບ LightAutoML ຕໍ່ກັບລະບົບ AutoML ໃນ 15 ຊຸດຂໍ້ມູນທະນາຄານທີ່ປະກອບດ້ວຍຊຸດຂອງວຽກງານການຈັດປະເພດຄູ່ຕ່າງໆ. ຍ້ອນວ່າມັນສາມາດສັງເກດເຫັນໄດ້, LightAutoML ປະຕິບັດໄດ້ດີກວ່າການແກ້ໄຂ AutoML ທັງຫມົດໃນ 12 ອອກຈາກ 15 ຊຸດຂໍ້ມູນ, ອັດຕາສ່ວນຊະນະຂອງ 80.
ຄວາມຄິດສຸດທ້າຍ
ໃນບົດຄວາມນີ້ພວກເຮົາໄດ້ເວົ້າກ່ຽວກັບ LightAutoML, ລະບົບ AutoML ທີ່ພັດທະນາຕົ້ນຕໍສໍາລັບບໍລິສັດເອີຣົບທີ່ດໍາເນີນທຸລະກິດໃນຂະແຫນງການເງິນພ້ອມກັບລະບົບນິເວດຂອງມັນ. ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກນໍາໄປໃຊ້ໃນທົ່ວຄໍາຮ້ອງສະຫມັກຕ່າງໆ, ແລະຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຫນືອກວ່າ, ທຽບກັບລະດັບຂອງນັກວິທະຍາສາດຂໍ້ມູນ, ເຖິງແມ່ນວ່າໃນຂະນະທີ່ສ້າງຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ມີຄຸນນະພາບສູງ. ໂຄງຮ່າງການ LightAutoML ພະຍາຍາມປະກອບສ່ວນຕໍ່ໄປນີ້. ຫນ້າທໍາອິດ, ໂຄງຮ່າງການ LightAutoML ໄດ້ຖືກພັດທະນາຕົ້ນຕໍສໍາລັບລະບົບນິເວດຂອງສະຖາບັນການເງິນແລະການທະນາຄານຂະຫນາດໃຫຍ່ຂອງເອີຣົບ. ເນື່ອງຈາກໂຄງຮ່າງການແລະສະຖາປັດຕະຍະກໍາຂອງມັນ, ກອບ LightAutoML ສາມາດປະຕິບັດໄດ້ດີກວ່າກອບວຽກ AutoML ໃນທົ່ວມາດຕະຖານທີ່ເປີດຫຼາຍເຊັ່ນດຽວກັນກັບຄໍາຮ້ອງສະຫມັກລະບົບນິເວດ. ປະສິດທິພາບຂອງໂຄງຮ່າງການ LightAutoML ຍັງຖືກປຽບທຽບກັບຕົວແບບທີ່ຖືກປັບດ້ວຍມືໂດຍນັກວິທະຍາສາດຂໍ້ມູນ, ແລະຜົນໄດ້ຮັບຊີ້ໃຫ້ເຫັນເຖິງການປະຕິບັດທີ່ເຂັ້ມແຂງໂດຍກອບ LightAutoML.