اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

LightAutoML: حل AutoML لنظام بيئي كبير للخدمات المالية

mm
تحديث on

على الرغم من أن AutoML قد ارتفعت شعبيته منذ بضع سنوات، إلا أن EALY تعمل على ذلك يعود تاريخ AutoML إلى أوائل التسعينات عندما نشر العلماء الأوراق الأولى حول تحسين المعلمات الفائقة. كان ذلك في عام 2014 عندما نظمت ICML ورشة عمل AutoML الأولى التي جذبت AutoML انتباه مطوري ML. واحدة من أهم نقاط التركيز على مدار سنوات AutoML هي مشكلة البحث عن المعلمات الفائقة، حيث ينفذ النموذج مجموعة من أساليب التحسين لتحديد أفضل المعلمات الفائقة أداءً في مساحة كبيرة من المعلمات الفائقة لنموذج معين للتعلم الآلي. هناك طريقة أخرى يتم تنفيذها بشكل شائع بواسطة نماذج AutoML وهي تقدير احتمالية كون معلمة تشعبية معينة هي المعلمة التشعبية المثالية لنموذج معين للتعلم الآلي. يحقق النموذج ذلك من خلال تطبيق أساليب بايزي التي تستخدم تقليديًا البيانات التاريخية من النماذج المقدرة مسبقًا ومجموعات البيانات الأخرى. بالإضافة إلى تحسين المعلمات الفائقة، تحاول طرق أخرى اختيار أفضل النماذج من مساحة من بدائل النمذجة. 

في هذه المقالة، سنغطي LightAutoML، وهو نظام AutoML تم تطويره بشكل أساسي لشركة أوروبية تعمل في قطاع التمويل جنبًا إلى جنب مع نظامها البيئي. يتم نشر إطار عمل LightAutoML عبر تطبيقات مختلفة، وأظهرت النتائج أداءً فائقًا يضاهي مستوى علماء البيانات، حتى أثناء بناء نماذج تعلم آلي عالية الجودة. يحاول إطار عمل LightAutoML تقديم المساهمات التالية. أولاً، تم تطوير إطار LightAutoML بشكل أساسي للنظام البيئي لمؤسسة مالية ومصرفية أوروبية كبيرة. نظرًا لإطاره وهندسته المعمارية، فإن إطار عمل LightAutoML قادر على التفوق على أحدث أطر عمل AutoML عبر العديد من المعايير المفتوحة بالإضافة إلى تطبيقات النظام البيئي. تتم أيضًا مقارنة أداء إطار عمل LightAutoML مع النماذج التي يتم ضبطها يدويًا بواسطة علماء البيانات، وتشير النتائج إلى أداء أقوى من خلال إطار عمل LightAutoML. 

تهدف هذه المقالة إلى تغطية إطار عمل LightAutoML بعمق، ونستكشف الآلية والمنهجية وبنية الإطار بالإضافة إلى مقارنته بأطر العمل الحديثة. اذا هيا بنا نبدأ. 

LightAutoML: إطار عمل AutoML للخدمات المالية

على الرغم من أن الباحثين بدأوا العمل على AutoML لأول مرة في منتصف وأوائل التسعينات، إلا أن AutoML اجتذب جزءًا كبيرًا من الاهتمام على مدار السنوات القليلة الماضية، مع بعض الحلول الصناعية البارزة التي تنفذ بناء نماذج التعلم الآلي تلقائيًا وهي AutoGluon من Amazon، وDarwinAI، وH90.ai. وIBM Watson AI وMicrosoft AzureML وغير ذلك الكثير. تنفذ غالبية هذه الأطر حل AutoML للأغراض العامة الذي يطور النماذج المستندة إلى ML تلقائيًا عبر فئات مختلفة من التطبيقات عبر الخدمات المالية والرعاية الصحية والتعليم والمزيد. الافتراض الرئيسي وراء هذا النهج الأفقي العام هو أن عملية تطوير النماذج التلقائية تظل متطابقة في جميع التطبيقات. ومع ذلك، فإن إطار عمل LightAutoML يطبق نهجًا رأسيًا لتطوير حل AutoML الذي ليس عامًا، ولكنه يلبي احتياجات التطبيقات الفردية، في هذه الحالة مؤسسة مالية كبيرة. إطار عمل LightAutoML هو حل AutoML عمودي يركز على متطلبات النظام البيئي المعقد إلى جانب خصائصه. أولاً، يوفر إطار عمل LightAutoML بحثًا سريعًا ومثاليًا عن المعلمات الفائقة. على الرغم من أن النموذج لا يقوم بتحسين هذه المعلمات الفائقة بشكل مباشر، إلا أنه يتمكن من تقديم نتائج مرضية. علاوة على ذلك، يحافظ النموذج على التوازن بين السرعة وديناميكية تحسين المعلمة الفائقة، لضمان أن النموذج مثالي في المشكلات الصغيرة، وسريع بما يكفي في المشكلات الأكبر. ثانيًا، يحد إطار عمل LightAutoML من نطاق نماذج التعلم الآلي بشكل مقصود إلى نوعين فقط: النماذج الخطية، وGBMs أو أشجار القرار المعززة المتدرجة، بدلاً من تنفيذ مجموعات كبيرة من الخوارزميات المختلفة. السبب الرئيسي وراء الحد من نطاق نماذج التعلم الآلي هو تسريع وقت تنفيذ إطار عمل LightAutoML دون التأثير سلبًا على الأداء لنوع المشكلة والبيانات المحددة. ثالثًا، يقدم إطار عمل LightAutoML طريقة فريدة لاختيار أنظمة المعالجة المسبقة للميزات المختلفة المستخدمة في النماذج على أساس قواعد اختيار معينة وإحصائيات وصفية. يتم تقييم إطار عمل LightAutoML على نطاق واسع من مصادر البيانات المفتوحة عبر نطاق واسع من التطبيقات. 

LightAutoML: المنهجية والهندسة المعمارية

يتكون إطار عمل LightAutoML من وحدات تُعرف باسم الإعدادات المسبقة المخصصة لتطوير النماذج الشاملة لمهام التعلم الآلي النموذجية. في الوقت الحاضر، يدعم إطار عمل LightAutoML الوحدات النمطية المعدة مسبقًا. أولاً، يركز الإعداد المسبق لـ TabularAutoML على حل مشكلات التعلم الآلي الكلاسيكية المحددة في مجموعات البيانات الجدولية. ثانيًا، يقوم الإعداد المسبق لـ White-Box بتنفيذ خوارزميات بسيطة قابلة للتفسير مثل الانحدار اللوجستي بدلاً من تشفير WoE أو وزن الأدلة والميزات المنفصلة لحل مهام التصنيف الثنائية على البيانات الجدولية. يعد تنفيذ خوارزميات بسيطة قابلة للتفسير ممارسة شائعة لنمذجة احتمالية التطبيق بسبب قيود التفسير التي تفرضها عوامل مختلفة. ثالثًا، الإعداد المسبق للبرمجة اللغوية العصبية قادر على دمج البيانات الجدولية مع البرمجة اللغوية العصبية أو معالجة اللغات الطبيعية الأدوات بما في ذلك نماذج التعلم العميق المدربة مسبقًا ومستخلصات الميزات المحددة. وأخيرًا، يعمل الإعداد المسبق للسيرة الذاتية مع بيانات الصورة بمساعدة بعض الأدوات الأساسية. من المهم ملاحظة أنه على الرغم من أن نموذج LightAutoML يدعم جميع الإعدادات المسبقة الأربعة، إلا أن الإطار يستخدم TabularAutoML فقط في نظام مستوى الإنتاج. 

تم تضمين المسار النموذجي لإطار عمل LightAutoML في الصورة التالية. 

يحتوي كل خط أنابيب على ثلاثة مكونات. أولاً، القارئ، وهو كائن يتلقى نوع المهمة والبيانات الأولية كمدخلات، ويقوم بإجراء حسابات البيانات الوصفية المهمة، وينظف البيانات الأولية، ويكتشف عمليات معالجة البيانات التي يجب إجراؤها قبل ملاءمة النماذج المختلفة. بعد ذلك، تحتوي مجموعات البيانات الداخلية LightAutoML على مكررات السيرة الذاتية وبيانات التعريف التي تنفذ مخططات التحقق من صحة مجموعات البيانات. المكون الثالث هو مسارات التعلم الآلي المتعددة المجمعة و/أو المخلوطة للحصول على تنبؤ واحد. يعد مسار التعلم الآلي ضمن بنية إطار عمل LightAutoML أحد نماذج التعلم الآلي المتعددة التي تشترك في نظام واحد للتحقق من صحة البيانات والمعالجة المسبقة. قد تشتمل خطوة المعالجة المسبقة على ما يصل إلى خطوتين لاختيار الميزة، أو خطوة هندسة الميزة، أو قد تكون فارغة إذا لم تكن هناك حاجة إلى معالجة مسبقة. يمكن حساب خطوط أنابيب ML بشكل مستقل على نفس مجموعات البيانات ثم مزجها معًا باستخدام المتوسط ​​(أو المتوسط ​​المرجح). وبدلاً من ذلك، يمكن استخدام مخطط مجموعة التراص لبناء أبنية مجموعة متعددة المستويات. 

إعداد LightAutoML الجدولي مسبقًا

ضمن إطار عمل LightAutoML، يعد TabularAutoML هو المسار الافتراضي، ويتم تنفيذه في النموذج لحل ثلاثة أنواع من المهام على البيانات الجدولية: التصنيف الثنائيوالانحدار والتصنيف متعدد الفئات لمجموعة واسعة من مقاييس الأداء ووظائف الخسارة. يتم تغذية جدول يحتوي على الأعمدة الأربعة التالية: الميزات الفئوية، والميزات الرقمية، والطوابع الزمنية، وعمود مستهدف واحد مع تسميات الفئة أو القيمة المستمرة إلى مكون TabularAutoML كمدخل. كان أحد الأهداف الأساسية وراء تصميم إطار عمل LightAutoML هو تصميم أداة لاختبار الفرضيات السريعة، وهو سبب رئيسي وراء تجنب الإطار استخدام أساليب القوة الغاشمة لتحسين خطوط الأنابيب، ويركز فقط على تقنيات ونماذج الكفاءة التي تعمل عبر مجموعة واسعة من مجموعات البيانات. 

الكتابة التلقائية والمعالجة المسبقة للبيانات

للتعامل مع أنواع مختلفة من الميزات بطرق مختلفة، يحتاج النموذج إلى معرفة كل نوع من أنواع الميزات. في حالة وجود مهمة واحدة مع مجموعة بيانات صغيرة، يمكن للمستخدم تحديد كل نوع ميزة يدويًا. ومع ذلك، فإن تحديد كل نوع ميزة يدويًا لم يعد خيارًا قابلاً للتطبيق في المواقف التي تتضمن مئات المهام مع مجموعات البيانات التي تحتوي على آلاف الميزات. بالنسبة للإعداد المسبق لـ TabularAutoML، يحتاج إطار عمل LightAutoML إلى تعيين الميزات إلى ثلاث فئات: رقمية، وفئة، ووقت التاريخ. أحد الحلول البسيطة والواضحة هو استخدام أنواع بيانات مصفوفة الأعمدة كأنواع ميزات فعلية، أي تعيين الأعمدة العائمة/int إلى ميزات رقمية أو طابع زمني أو سلسلة، والتي يمكن تحليلها كطابع زمني - إلى التاريخ والوقت، وأخرى للفئة. ومع ذلك، فإن هذا التعيين ليس هو الأفضل بسبب التكرار المتكرر لأنواع البيانات الرقمية في أعمدة الفئات. 

مخططات التحقق من الصحة

تعد أنظمة التحقق من الصحة مكونًا حيويًا في أطر عمل AutoML نظرًا لأن البيانات الموجودة في الصناعة عرضة للتغيير بمرور الوقت، وهذا العنصر من التغيير يجعل IID أو الافتراضات المستقلة الموزعة بشكل متماثل غير ذات صلة عند تطوير النموذج. تستخدم نماذج AutoML أنظمة التحقق من الصحة لتقدير أدائها، والبحث عن المعلمات الفائقة، وتوليد التنبؤ خارج الطية. ينفذ خط أنابيب TabularAutoML ثلاثة أنظمة للتحقق من الصحة:

  • التحقق من صحة KFold Cross: KFold Cross Validation هو نظام التحقق الافتراضي لخط أنابيب TabularAutoML بما في ذلك GroupKFold للنماذج السلوكية، وKFold الطبقي لمهام التصنيف. 
  • التحقق من صحة عقد: يتم تنفيذ نظام التحقق من صحة Holdout إذا تم تحديد مجموعة Holdout. 
  • أنظمة التحقق المخصصة: يمكن للمستخدمين إنشاء أنظمة التحقق المخصصة وفقًا لمتطلباتهم الفردية. تتضمن أنظمة التحقق المخصصة التحقق من الصحة وأنظمة تقسيم السلاسل الزمنية. 

اختيار ميزة

على الرغم من أن اختيار الميزة يعد جانبًا حاسمًا في تطوير النماذج وفقًا لمعايير الصناعة نظرًا لأنه يسهل تقليل تكاليف الاستدلال وتنفيذ النموذج، فإن غالبية حلول AutoML لا تركز كثيرًا على هذه المشكلة. على العكس من ذلك، ينفذ خط أنابيب TabularAutoML ثلاث إستراتيجيات لاختيار الميزات: عدم التحديد، والاختيار المقطوع للأهمية، والاختيار الأمامي المستند إلى الأهمية. من بين الثلاثة، تعد استراتيجية اختيار ميزة التحديد ذات الأهمية هي الإستراتيجية الافتراضية. علاوة على ذلك، هناك طريقتان أساسيتان لتقدير أهمية الميزة: أهمية الشجرة المقسمة، وأهمية التقليب لنموذج GBM أو التدرج المعزز أشجار القرار. الهدف الأساسي من تحديد قطع الأهمية هو رفض الميزات التي لا تساعد النموذج، مما يسمح للنموذج بتقليل عدد الميزات دون التأثير سلبًا على الأداء، وهو نهج قد يؤدي إلى تسريع الاستدلال على النموذج والتدريب. 

الصورة أعلاه تقارن استراتيجيات الاختيار المختلفة في مجموعات البيانات المصرفية الثنائية. 

ضبط Hyperparameter

يطبق خط أنابيب TabularAutoML أساليب مختلفة لضبط المعلمات الفائقة على أساس ما تم ضبطه. 

  • الإيقاف المبكر لضبط المعلمات الفائقة يحدد عدد التكرارات لجميع النماذج أثناء مرحلة التدريب. 
  • ضبط المعلمات الفائقة للنظام الخبير هي طريقة بسيطة لتعيين المعلمات الفائقة للنماذج بطريقة مرضية. يمنع النموذج النهائي من الانخفاض الكبير في النتيجة مقارنة بالنماذج التي تم ضبطها بشدة.
  • تقدير Parzen المنظم للشجرة أو TPE لنماذج شجرة القرار المعززة GBM أو التدرج. TPE عبارة عن إستراتيجية ضبط مختلطة وهي الخيار الافتراضي في مسار LightAutoML. بالنسبة لكل إطار عمل لنشاطي التجاري على Google (GMB)، يقوم إطار عمل LightAutoML بتدريب نموذجين: الأول يحصل على معلمات تشعبية متخصصة، والثاني يتم ضبطه بدقة ليناسب الميزانية الزمنية. 
  • ضبط المعلمة الفائقة لبحث الشبكة يتم تنفيذه في خط أنابيب TabularAutoML لضبط معلمات التنظيم للنموذج الخطي جنبًا إلى جنب مع التوقف المبكر والبداية الدافئة. 

يقوم النموذج بضبط جميع المعلمات عن طريق تعظيم وظيفة القياس، إما المحددة من قبل المستخدم أو الافتراضية للمهمة التي تم حلها. 

LightAutoML: التجربة والأداء

لتقييم الأداء، تتم مقارنة الإعداد المسبق لـ TabularAutoML ضمن إطار عمل LightAutoML مع الحلول مفتوحة المصدر الموجودة بالفعل عبر مختلف المهام، ويعزز الأداء المتفوق لإطار عمل LightAutoML. أولاً، يتم إجراء المقارنة على معيار OpenML الذي يتم تقييمه على 35 مجموعة بيانات مهمة تصنيف ثنائية ومتعددة الفئات. يلخص الجدول التالي مقارنة إطار عمل LightAutoML مع أنظمة AutoML الموجودة. 

كما هو واضح، يتفوق إطار عمل LightAutoML على جميع أنظمة AutoML الأخرى في 20 مجموعة بيانات ضمن المعيار. يحتوي الجدول التالي على مقارنة تفصيلية في سياق مجموعة البيانات مما يشير إلى أن LightAutoML يقدم أداءً مختلفًا في فئات مختلفة من المهام. بالنسبة لمهام التصنيف الثنائية، يكون أداء LightAutoML قصيرًا، بينما بالنسبة للمهام التي تحتوي على كمية كبيرة من البيانات، يوفر إطار عمل LightAutoML أداءً فائقًا.

يقارن الجدول التالي أداء إطار عمل LightAutoML مع أنظمة AutoML في 15 مجموعة بيانات بنكية تحتوي على مجموعة من مهام التصنيف الثنائية المتنوعة. كما يمكن ملاحظته، يتفوق LightAutoML على جميع حلول AutoML في 12 مجموعة بيانات من أصل 15، بنسبة فوز قدرها 80. 

افكار اخيرة

تحدثنا في هذه المقالة عن LightAutoML، وهو نظام AutoML تم تطويره بشكل أساسي لشركة أوروبية تعمل في قطاع التمويل إلى جانب نظامها البيئي. يتم نشر إطار LightAutoML عبر تطبيقات مختلفة، وأظهرت النتائج أداءً فائقًا يضاهي مستوى علماء البيانات، حتى أثناء بناء نماذج تعلم الآلة عالية الجودة. يحاول إطار عمل LightAutoML تقديم المساهمات التالية. أولاً، تم تطوير إطار LightAutoML بشكل أساسي للنظام البيئي لمؤسسة مالية ومصرفية أوروبية كبيرة. نظرًا لإطاره وهندسته المعمارية، فإن إطار عمل LightAutoML قادر على التفوق على أحدث أطر عمل AutoML عبر العديد من المعايير المفتوحة بالإضافة إلى تطبيقات النظام البيئي. تتم أيضًا مقارنة أداء إطار عمل LightAutoML مع النماذج التي يتم ضبطها يدويًا بواسطة علماء البيانات، وتشير النتائج إلى أداء أقوى من خلال إطار عمل LightAutoML. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.