Artificial Intelligence
लाइटऑटोएमएल: एक बड़े वित्तीय सेवा पारिस्थितिकी तंत्र के लिए ऑटोएमएल समाधान
हालाँकि ऑटोएमएल कुछ साल पहले लोकप्रियता हासिल कर चुका है, लेकिन शुरुआती काम जारी है ऑटोएमएल का इतिहास 90 के दशक की शुरुआत से है जब वैज्ञानिकों ने हाइपरपैरामीटर अनुकूलन पर पहला शोधपत्र प्रकाशित किया। 2014 में जब ICML ने पहली AutoML कार्यशाला आयोजित की, तब AutoML ने ML डेवलपर्स का ध्यान आकर्षित किया। AutoML के वर्षों में प्रमुख फोकस में से एक हाइपरपैरामीटर खोज समस्या है, जहां मॉडल किसी विशेष मशीन लर्निंग मॉडल के लिए बड़े हाइपरपैरामीटर स्पेस में सर्वश्रेष्ठ प्रदर्शन करने वाले हाइपरपैरामीटर निर्धारित करने के लिए अनुकूलन विधियों की एक सरणी को लागू करता है। AutoML मॉडल द्वारा आमतौर पर लागू की जाने वाली एक अन्य विधि किसी दिए गए मशीन लर्निंग मॉडल के लिए किसी विशेष हाइपरपैरामीटर के इष्टतम हाइपरपैरामीटर होने की संभावना का अनुमान लगाना है। मॉडल बेयसियन विधियों को लागू करके इसे प्राप्त करता है जो पारंपरिक रूप से पहले से अनुमानित मॉडल और अन्य डेटासेट से ऐतिहासिक डेटा का उपयोग करते हैं। हाइपरपैरामीटर अनुकूलन के अलावा, अन्य विधियां मॉडलिंग विकल्पों के स्थान से सर्वोत्तम मॉडल का चयन करने का प्रयास करती हैं।
इस लेख में, हम लाइटऑटोएमएल को कवर करेंगे, एक ऑटोएमएल प्रणाली जो मुख्य रूप से अपने पारिस्थितिकी तंत्र के साथ वित्त क्षेत्र में काम करने वाली एक यूरोपीय कंपनी के लिए विकसित की गई है। लाइटऑटोएमएल फ्रेमवर्क को विभिन्न अनुप्रयोगों में तैनात किया गया है, और परिणामों ने उच्च गुणवत्ता वाले मशीन लर्निंग मॉडल का निर्माण करते समय भी डेटा वैज्ञानिकों के स्तर के बराबर बेहतर प्रदर्शन का प्रदर्शन किया है। लाइटऑटोएमएल ढांचा निम्नलिखित योगदान देने का प्रयास करता है। सबसे पहले, लाइटऑटोएमएल ढांचा मुख्य रूप से एक बड़े यूरोपीय वित्तीय और बैंकिंग संस्थान के पारिस्थितिकी तंत्र के लिए विकसित किया गया था। अपने ढांचे और वास्तुकला के कारण, लाइटऑटोएमएल फ्रेमवर्क कई खुले बेंचमार्क के साथ-साथ पारिस्थितिकी तंत्र अनुप्रयोगों में अत्याधुनिक ऑटोएमएल फ्रेमवर्क से बेहतर प्रदर्शन करने में सक्षम है। लाइटऑटोएमएल फ्रेमवर्क के प्रदर्शन की तुलना उन मॉडलों से भी की जाती है जिन्हें डेटा वैज्ञानिकों द्वारा मैन्युअल रूप से ट्यून किया जाता है, और परिणाम लाइटऑटोएमएल फ्रेमवर्क द्वारा मजबूत प्रदर्शन का संकेत देते हैं।
इस लेख का उद्देश्य LightAutoML फ्रेमवर्क को गहराई से कवर करना है, और हम फ्रेमवर्क के तंत्र, कार्यप्रणाली, आर्किटेक्चर के साथ-साथ अत्याधुनिक फ्रेमवर्क के साथ इसकी तुलना का पता लगाते हैं। तो चलिए शुरू करते हैं।
लाइटऑटोएमएल: वित्तीय सेवाओं के लिए एक ऑटोएमएल फ्रेमवर्क
हालाँकि शोधकर्ताओं ने पहली बार 90 के दशक के मध्य और शुरुआती दौर में ऑटोएमएल पर काम करना शुरू किया था, लेकिन पिछले कुछ सालों में ऑटोएमएल ने लोगों का ध्यान आकर्षित किया है, जिसमें कुछ प्रमुख औद्योगिक समाधान स्वचालित रूप से निर्मित मशीन लर्निंग मॉडल को लागू करते हैं, जिनमें Amazon का AutoGluon, DarwinAI, H20.ai, IBM Watson AI, Microsoft AzureML और बहुत कुछ शामिल हैं। इनमें से अधिकांश फ्रेमवर्क एक सामान्य उद्देश्य वाले ऑटोएमएल समाधान को लागू करते हैं जो वित्तीय सेवाओं, स्वास्थ्य सेवा, शिक्षा और अन्य क्षेत्रों में विभिन्न वर्गों के अनुप्रयोगों में स्वचालित रूप से एमएल-आधारित मॉडल विकसित करता है। इस क्षैतिज सामान्य दृष्टिकोण के पीछे मुख्य धारणा यह है कि स्वचालित मॉडल विकसित करने की प्रक्रिया सभी अनुप्रयोगों में समान रहती है। हालाँकि, LightAutoML फ्रेमवर्क एक ऑटोएमएल समाधान विकसित करने के लिए एक ऊर्ध्वाधर दृष्टिकोण को लागू करता है जो सामान्य नहीं है, बल्कि व्यक्तिगत अनुप्रयोगों की ज़रूरतों को पूरा करता है, इस मामले में एक बड़ा वित्तीय संस्थान। LightAutoML फ्रेमवर्क एक ऊर्ध्वाधर ऑटोएमएल समाधान है जो अपनी विशेषताओं के साथ-साथ जटिल पारिस्थितिकी तंत्र की आवश्यकताओं पर ध्यान केंद्रित करता है। सबसे पहले, LightAutoML फ्रेमवर्क तेज़ और लगभग इष्टतम हाइपरपैरामीटर खोज प्रदान करता है। हालाँकि मॉडल इन हाइपरपैरामीटर को सीधे अनुकूलित नहीं करता है, लेकिन यह संतोषजनक परिणाम देने में कामयाब होता है। इसके अलावा, मॉडल गति और हाइपरपैरामीटर अनुकूलन के बीच संतुलन को गतिशील रखता है, ताकि यह सुनिश्चित हो सके कि मॉडल छोटी समस्याओं पर इष्टतम हो और बड़ी समस्याओं पर पर्याप्त तेज़ हो। दूसरा, LightAutoML फ्रेमवर्क उद्देश्यपूर्ण रूप से मशीन लर्निंग मॉडल की सीमा को केवल दो प्रकारों तक सीमित करता है: रैखिक मॉडल, और GBM या ग्रेडिएंट बूस्टेड निर्णय वृक्ष, विभिन्न एल्गोरिदम के बड़े समूहों को लागू करने के बजाय। मशीन लर्निंग मॉडल की सीमा को सीमित करने के पीछे प्राथमिक कारण दिए गए प्रकार की समस्या और डेटा के लिए प्रदर्शन को नकारात्मक रूप से प्रभावित किए बिना LightAutoML फ्रेमवर्क के निष्पादन समय को तेज़ करना है। तीसरा, LightAutoML फ्रेमवर्क कुछ चयन नियमों और मेटा-आँकड़ों के आधार पर मॉडल में उपयोग की जाने वाली विभिन्न विशेषताओं के लिए प्रीप्रोसेसिंग योजनाओं को चुनने का एक अनूठा तरीका प्रस्तुत करता है। LightAutoML फ्रेमवर्क का मूल्यांकन अनुप्रयोगों की एक विस्तृत श्रृंखला में खुले डेटा स्रोतों की एक विस्तृत श्रृंखला पर किया जाता है।
लाइटऑटोएमएल : कार्यप्रणाली और वास्तुकला
लाइटऑटोएमएल फ्रेमवर्क में प्रीसेट के रूप में जाने जाने वाले मॉड्यूल शामिल हैं जो विशिष्ट मशीन लर्निंग कार्यों के लिए एंड टू एंड मॉडल डेवलपमेंट के लिए समर्पित हैं। वर्तमान में, लाइटऑटोएमएल फ्रेमवर्क प्रीसेट मॉड्यूल का समर्थन करता है। सबसे पहले, टैबुलरऑटोएमएल प्रीसेट सारणीबद्ध डेटासेट पर परिभाषित क्लासिकल मशीन लर्निंग समस्याओं को हल करने पर केंद्रित है। दूसरा, व्हाइट-बॉक्स प्रीसेट सरल व्याख्यात्मक एल्गोरिदम जैसे कि WoE या वेट ऑफ़ एविडेंस एन्कोडिंग और डिस्क्रीटाइज्ड फीचर्स के बजाय सारणीबद्ध डेटा पर बाइनरी वर्गीकरण कार्यों को हल करने के लिए लॉजिस्टिक रिग्रेशन को लागू करता है। विभिन्न कारकों द्वारा उत्पन्न व्याख्यात्मक बाधाओं के कारण किसी एप्लिकेशन की संभावना को मॉडल करने के लिए सरल व्याख्यात्मक एल्गोरिदम को लागू करना एक सामान्य अभ्यास है। तीसरा, एनएलपी प्रीसेट सारणीबद्ध डेटा को एनएलपी या प्राकृतिक भाषा संसाधन प्री-ट्रेन्ड डीप लर्निंग मॉडल और विशिष्ट फीचर एक्सट्रैक्टर सहित उपकरण। अंत में, CV प्रीसेट कुछ बुनियादी उपकरणों की मदद से छवि डेटा के साथ काम करता है। यह ध्यान रखना महत्वपूर्ण है कि हालांकि लाइटऑटोएमएल मॉडल सभी चार प्रीसेट का समर्थन करता है, लेकिन फ्रेमवर्क केवल उत्पादन-स्तर प्रणाली में टैबुलरऑटोएमएल का उपयोग करता है।
लाइटऑटोएमएल फ्रेमवर्क की विशिष्ट पाइपलाइन निम्नलिखित छवि में शामिल है।
प्रत्येक पाइपलाइन में तीन घटक होते हैं। सबसे पहले, रीडर, एक ऑब्जेक्ट जो इनपुट के रूप में कार्य प्रकार और कच्चा डेटा प्राप्त करता है, महत्वपूर्ण मेटाडेटा गणना करता है, प्रारंभिक डेटा को साफ करता है, और विभिन्न मॉडलों को फिट करने से पहले किए जाने वाले डेटा हेरफेर का पता लगाता है। इसके बाद, LightAutoML आंतरिक डेटासेट में CV इटरेटर और मेटाडेटा होते हैं जो डेटासेट के लिए सत्यापन योजनाओं को लागू करते हैं। तीसरा घटक एकाधिक मशीन लर्निंग पाइपलाइन हैं जो एकल भविष्यवाणी प्राप्त करने के लिए स्टैक्ड और/या मिश्रित हैं। LightAutoML फ़्रेमवर्क की वास्तुकला के भीतर एक मशीन लर्निंग पाइपलाइन कई मशीन लर्निंग मॉडल में से एक है जो एक ही डेटा सत्यापन और प्रीप्रोसेसिंग योजना साझा करती है। प्रीप्रोसेसिंग चरण में दो फ़ीचर चयन चरण, एक फ़ीचर इंजीनियरिंग चरण हो सकता है या यदि कोई प्रीप्रोसेसिंग की आवश्यकता नहीं है तो खाली हो सकता है। ML पाइपलाइनों को समान डेटासेट पर स्वतंत्र रूप से गणना की जा सकती है और फिर औसत (या भारित औसत) का उपयोग करके एक साथ मिश्रित किया जा सकता है। वैकल्पिक रूप से, मल्टी लेवल एन्सेम्बल आर्किटेक्चर बनाने के लिए स्टैकिंग एन्सेम्बल योजना का उपयोग किया जा सकता है।
लाइटऑटोएमएल सारणीबद्ध प्रीसेट
लाइटऑटोएमएल फ्रेमवर्क के भीतर, टैबुलरऑटोएमएल डिफ़ॉल्ट पाइपलाइन है, और इसे सारणीबद्ध डेटा पर तीन प्रकार के कार्यों को हल करने के लिए मॉडल में लागू किया गया है: बाइनरी वर्गीकरणप्रदर्शन मेट्रिक्स और हानि कार्यों की एक विस्तृत श्रृंखला के लिए, प्रतिगमन और बहु-वर्ग वर्गीकरण। निम्नलिखित चार स्तंभों वाली एक तालिका: श्रेणीबद्ध विशेषताएँ, संख्यात्मक विशेषताएँ, टाइमस्टैम्प और वर्ग लेबल या निरंतर मान वाला एकल लक्ष्य स्तंभ इनपुट के रूप में TabularAutoML घटक को खिलाया जाता है। LightAutoML ढांचे के डिजाइन के पीछे प्राथमिक उद्देश्यों में से एक तेज़ परिकल्पना परीक्षण के लिए एक उपकरण डिजाइन करना था, एक प्रमुख कारण है कि फ्रेमवर्क पाइपलाइन अनुकूलन के लिए क्रूर-बल विधियों का उपयोग करने से बचता है, और केवल दक्षता तकनीकों और मॉडलों पर ध्यान केंद्रित करता है जो डेटासेट की एक विस्तृत श्रृंखला में काम करते हैं।
ऑटो-टाइपिंग और डेटा प्रीप्रोसेसिंग
विभिन्न प्रकार की सुविधाओं को अलग-अलग तरीकों से संभालने के लिए, मॉडल को प्रत्येक सुविधा प्रकार को जानने की आवश्यकता होती है। ऐसी स्थिति में जहां एक छोटे डेटासेट के साथ एक ही कार्य होता है, उपयोगकर्ता प्रत्येक सुविधा प्रकार को मैन्युअल रूप से निर्दिष्ट कर सकता है। हालाँकि, प्रत्येक सुविधा प्रकार को मैन्युअल रूप से निर्दिष्ट करना अब उन स्थितियों में व्यवहार्य विकल्प नहीं है, जिनमें हज़ारों सुविधाओं वाले डेटासेट के साथ सैकड़ों कार्य शामिल हैं। TabularAutoML प्रीसेट के लिए, LightAutoML फ़्रेमवर्क को सुविधाओं को तीन वर्गों में मैप करने की आवश्यकता है: संख्यात्मक, श्रेणी और दिनांक-समय। एक सरल और स्पष्ट समाधान कॉलम सरणी डेटा प्रकारों को वास्तविक सुविधा प्रकारों के रूप में उपयोग करना है, अर्थात, फ़्लोट/इंट कॉलम को संख्यात्मक सुविधाओं, टाइमस्टैम्प या स्ट्रिंग में मैप करना, जिसे टाइमस्टैम्प के रूप में पार्स किया जा सकता है - दिनांक-समय के लिए, और अन्य को श्रेणी के लिए। हालाँकि, श्रेणी कॉलम में संख्यात्मक डेटा प्रकारों की लगातार घटना के कारण यह मैपिंग सबसे अच्छी नहीं है।
सत्यापन योजनाएँ
सत्यापन योजनाएं ऑटोएमएल फ्रेमवर्क का एक महत्वपूर्ण घटक हैं क्योंकि उद्योग में डेटा समय के साथ परिवर्तन के अधीन है, और परिवर्तन का यह तत्व मॉडल विकसित करते समय आईआईडी या स्वतंत्र रूप से वितरित धारणाओं को अप्रासंगिक बना देता है। ऑटोएमएल मॉडल अपने प्रदर्शन का अनुमान लगाने, हाइपरपैरामीटर की खोज करने और आउट-ऑफ-फोल्ड भविष्यवाणी पीढ़ी के लिए सत्यापन योजनाओं को नियोजित करते हैं। TabularAutoML पाइपलाइन तीन सत्यापन योजनाएं लागू करती है:
- केफोल्ड क्रॉस वैलिडेशन: KFold क्रॉस वैलिडेशन व्यवहार मॉडल के लिए GroupKFold और वर्गीकरण कार्यों के लिए स्तरीकृत KFold सहित TabularAutoML पाइपलाइन के लिए डिफ़ॉल्ट सत्यापन योजना है।
- होल्डआउट सत्यापन: यदि होल्डआउट सेट निर्दिष्ट किया गया है तो होल्डआउट सत्यापन योजना कार्यान्वित की जाती है।
- कस्टम सत्यापन योजनाएं: कस्टम सत्यापन योजनाएँ उपयोगकर्ताओं द्वारा उनकी व्यक्तिगत आवश्यकताओं के आधार पर बनाई जा सकती हैं। कस्टम सत्यापन योजनाओं में क्रॉस-सत्यापन और समय-श्रृंखला विभाजन योजनाएँ शामिल हैं।
फीचर चयन
यद्यपि फीचर चयन उद्योग मानकों के अनुसार मॉडल विकसित करने का एक महत्वपूर्ण पहलू है क्योंकि यह अनुमान और मॉडल कार्यान्वयन लागत में कमी की सुविधा प्रदान करता है, अधिकांश ऑटोएमएल समाधान इस समस्या पर ज्यादा ध्यान केंद्रित नहीं करते हैं। इसके विपरीत, TabularAutoML पाइपलाइन तीन फीचर चयन रणनीतियों को लागू करती है: कोई चयन नहीं, महत्व कट ऑफ चयन, और महत्व-आधारित फॉरवर्ड चयन। तीनों में से, महत्व कट ऑफ चयन सुविधा चयन रणनीति डिफ़ॉल्ट है। इसके अलावा, फीचर महत्व का अनुमान लगाने के दो प्राथमिक तरीके हैं: विभाजन-आधारित वृक्ष महत्व, और जीबीएम मॉडल या ग्रेडिएंट बूस्टेड का क्रमपरिवर्तन महत्व निर्णय के पेड़महत्व कटऑफ चयन का प्राथमिक उद्देश्य उन विशेषताओं को अस्वीकार करना है जो मॉडल के लिए सहायक नहीं हैं, जिससे मॉडल को प्रदर्शन को नकारात्मक रूप से प्रभावित किए बिना विशेषताओं की संख्या को कम करने की अनुमति मिलती है, एक दृष्टिकोण जो मॉडल अनुमान और प्रशिक्षण को गति दे सकता है।
उपरोक्त छवि बाइनरी बैंक डेटासेट पर विभिन्न चयन रणनीतियों की तुलना करती है।
हाइपरपरमेटर ट्यूनिंग
TabularAutoML पाइपलाइन ट्यून किए गए के आधार पर हाइपरपैरामीटर को ट्यून करने के लिए अलग-अलग दृष्टिकोण लागू करती है।
- अर्ली स्टॉपिंग हाइपरपैरामीटर ट्यूनिंग प्रशिक्षण चरण के दौरान सभी मॉडलों के लिए पुनरावृत्तियों की संख्या का चयन करता है।
- विशेषज्ञ प्रणाली हाइपरपैरामीटर ट्यूनिंग मॉडल के लिए हाइपरपैरामीटर को संतोषजनक तरीके से सेट करने का एक सरल तरीका है। यह हार्ड-ट्यून्ड मॉडल की तुलना में अंतिम मॉडल के स्कोर में बहुत अधिक कमी होने से बचाता है।
- वृक्ष संरचित पारज़ेन अनुमान या टीपीई जीबीएम या ग्रेडिएंट बूस्टेड डिसीजन ट्री मॉडल के लिए। टीपीई एक मिश्रित ट्यूनिंग रणनीति है जो लाइटऑटोएमएल पाइपलाइन में डिफ़ॉल्ट विकल्प है। प्रत्येक जीएमबी फ्रेमवर्क के लिए, लाइटऑटोएमएल फ्रेमवर्क दो मॉडलों को प्रशिक्षित करता है: पहले को विशेषज्ञ हाइपरपैरामीटर मिलते हैं, दूसरे को समय के बजट में फिट होने के लिए ठीक किया जाता है।
- ग्रिड खोज हाइपरपैरामीटर ट्यूनिंग प्रारंभिक रोक और वार्म स्टार्ट के साथ-साथ एक रैखिक मॉडल के नियमन मापदंडों को ठीक करने के लिए टैबुलरऑटोएमएल पाइपलाइन में लागू किया गया है।
मॉडल मीट्रिक फ़ंक्शन को अधिकतम करके सभी मापदंडों को ट्यून करता है, या तो उपयोगकर्ता द्वारा परिभाषित किया जाता है या हल किए गए कार्य के लिए डिफ़ॉल्ट होता है।
लाइटऑटोएमएल: प्रयोग और प्रदर्शन
प्रदर्शन का मूल्यांकन करने के लिए, लाइटऑटोएमएल फ्रेमवर्क के भीतर टेबुलरऑटोएमएल प्रीसेट की तुलना विभिन्न कार्यों में पहले से मौजूद ओपन सोर्स समाधानों से की जाती है, और लाइटऑटोएमएल फ्रेमवर्क के बेहतर प्रदर्शन को मजबूत करता है। सबसे पहले, तुलना ओपनएमएल बेंचमार्क पर की जाती है जिसका मूल्यांकन 35 बाइनरी और मल्टीक्लास वर्गीकरण कार्य डेटासेट पर किया जाता है। निम्न तालिका मौजूदा ऑटोएमएल सिस्टम के विरुद्ध लाइटऑटोएमएल ढांचे की तुलना का सारांश प्रस्तुत करती है।
जैसा कि देखा जा सकता है, लाइटऑटोएमएल फ्रेमवर्क बेंचमार्क के भीतर 20 डेटासेट पर अन्य सभी ऑटोएमएल सिस्टम से बेहतर प्रदर्शन करता है। निम्न तालिका में डेटासेट संदर्भ में विस्तृत तुलना शामिल है जो दर्शाती है कि लाइटऑटोएमएल विभिन्न वर्गों के कार्यों पर अलग-अलग प्रदर्शन प्रदान करता है। बाइनरी वर्गीकरण कार्यों के लिए, लाइटऑटोएमएल प्रदर्शन में कमजोर पड़ता है, जबकि अधिक मात्रा में डेटा वाले कार्यों के लिए, लाइटऑटोएमएल फ्रेमवर्क बेहतर प्रदर्शन प्रदान करता है।
निम्न तालिका विभिन्न बाइनरी वर्गीकरण कार्यों के सेट वाले 15 बैंक डेटासेट पर ऑटोएमएल सिस्टम के विरुद्ध लाइटऑटोएमएल फ्रेमवर्क के प्रदर्शन की तुलना करती है। जैसा कि देखा जा सकता है, लाइटऑटोएमएल 12 डेटासेट में से 15 पर सभी ऑटोएमएल समाधानों से बेहतर प्रदर्शन करता है, जीत का प्रतिशत 80 है।
निष्कर्ष
इस लेख में हमने LightAutoML के बारे में बात की है, जो एक ऑटोएमएल सिस्टम है जिसे मुख्य रूप से वित्त क्षेत्र में काम करने वाली एक यूरोपीय कंपनी और उसके पारिस्थितिकी तंत्र के लिए विकसित किया गया है। LightAutoML फ्रेमवर्क को विभिन्न अनुप्रयोगों में तैनात किया गया है, और परिणामों ने उच्च गुणवत्ता वाले मशीन लर्निंग मॉडल बनाते समय भी डेटा वैज्ञानिकों के स्तर के बराबर बेहतर प्रदर्शन का प्रदर्शन किया है। LightAutoML फ्रेमवर्क निम्नलिखित योगदान देने का प्रयास करता है। सबसे पहले, LightAutoML फ्रेमवर्क को मुख्य रूप से एक बड़े यूरोपीय वित्तीय और बैंकिंग संस्थान के पारिस्थितिकी तंत्र के लिए विकसित किया गया था। अपने फ्रेमवर्क और आर्किटेक्चर के कारण, LightAutoML फ्रेमवर्क कई ओपन बेंचमार्क के साथ-साथ पारिस्थितिकी तंत्र अनुप्रयोगों में अत्याधुनिक AutoML फ्रेमवर्क से बेहतर प्रदर्शन करने में सक्षम है। LightAutoML फ्रेमवर्क के प्रदर्शन की तुलना डेटा वैज्ञानिकों द्वारा मैन्युअल रूप से ट्यून किए गए मॉडल से भी की जाती है, और परिणामों ने LightAutoML फ्रेमवर्क द्वारा बेहतर प्रदर्शन का संकेत दिया।