Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

LightAutoML: Λύση AutoML για ένα μεγάλο οικοσύστημα χρηματοοικονομικών υπηρεσιών

mm
Ενημερώθηκε on

Παρόλο που το AutoML έγινε δημοφιλές πριν από μερικά χρόνια, το ealy work on Το AutoML χρονολογείται από τις αρχές της δεκαετίας του '90 όταν οι επιστήμονες δημοσίευσαν τις πρώτες εργασίες για τη βελτιστοποίηση υπερπαραμέτρων. Ήταν το 2014 όταν η ICML διοργάνωσε το πρώτο εργαστήριο AutoML που η AutoML κέρδισε την προσοχή των προγραμματιστών ML. Ένα από τα κύρια σημεία εστίασης κατά τη διάρκεια των ετών του AutoML είναι το πρόβλημα αναζήτησης υπερπαραμέτρων, όπου το μοντέλο εφαρμόζει μια σειρά μεθόδων βελτιστοποίησης για τον προσδιορισμό των υπερπαραμέτρων με την καλύτερη απόδοση σε έναν μεγάλο χώρο υπερπαραμέτρων για ένα συγκεκριμένο μοντέλο μηχανικής εκμάθησης. Μια άλλη μέθοδος που εφαρμόζεται συνήθως από τα μοντέλα AutoML είναι η εκτίμηση της πιθανότητας μια συγκεκριμένη υπερπαράμετρος να είναι η βέλτιστη υπερπαράμετρος για ένα δεδομένο μοντέλο μηχανικής μάθησης. Το μοντέλο το επιτυγχάνει με την εφαρμογή μεθόδων Μπεϋζιανών που παραδοσιακά χρησιμοποιούν ιστορικά δεδομένα από προηγούμενα εκτιμώμενα μοντέλα και άλλα σύνολα δεδομένων. Εκτός από τη βελτιστοποίηση υπερπαραμέτρων, άλλες μέθοδοι προσπαθούν να επιλέξουν τα καλύτερα μοντέλα από έναν χώρο εναλλακτικών μοντέλων. 

Σε αυτό το άρθρο, θα καλύψουμε το LightAutoML, ένα σύστημα AutoML που αναπτύχθηκε κυρίως για μια ευρωπαϊκή εταιρεία που δραστηριοποιείται στον χρηματοοικονομικό τομέα μαζί με το οικοσύστημά της. Το πλαίσιο LightAutoML αναπτύσσεται σε διάφορες εφαρμογές και τα αποτελέσματα έδειξαν ανώτερη απόδοση, συγκρίσιμη με το επίπεδο των επιστημόνων δεδομένων, ακόμη και κατά την κατασκευή μοντέλων μηχανικής μάθησης υψηλής ποιότητας. Το πλαίσιο LightAutoML επιχειρεί να κάνει τις ακόλουθες συνεισφορές. Πρώτον, το πλαίσιο LightAutoML αναπτύχθηκε κυρίως για το οικοσύστημα ενός μεγάλου ευρωπαϊκού χρηματοπιστωτικού και τραπεζικού ιδρύματος. Λόγω του πλαισίου και της αρχιτεκτονικής του, το πλαίσιο LightAutoML είναι σε θέση να ξεπεράσει τα τελευταίας τεχνολογίας πλαίσια AutoML σε διάφορα ανοιχτά σημεία αναφοράς καθώς και σε εφαρμογές οικοσυστήματος. Η απόδοση του πλαισίου LightAutoML συγκρίνεται επίσης με μοντέλα που ρυθμίζονται χειροκίνητα από επιστήμονες δεδομένων και τα αποτελέσματα έδειξαν ισχυρότερη απόδοση από το πλαίσιο LightAutoML. 

Αυτό το άρθρο στοχεύει να καλύψει το πλαίσιο LightAutoML σε βάθος και διερευνούμε τον μηχανισμό, τη μεθοδολογία, την αρχιτεκτονική του πλαισίου μαζί με τη σύγκριση του με τα τελευταίας τεχνολογίας πλαίσια. Ας ξεκινήσουμε λοιπόν. 

LightAutoML: Ένα πλαίσιο AutoML για χρηματοοικονομικές υπηρεσίες

Αν και οι ερευνητές άρχισαν για πρώτη φορά να εργάζονται για την AutoML στα μέσα και στις αρχές της δεκαετίας του '90, η AutoML προσέλκυσε ένα μεγάλο μέρος της προσοχής τα τελευταία χρόνια, με ορισμένες από τις εξέχουσες βιομηχανικές λύσεις που εφαρμόζουν μοντέλα αυτόματης εκμάθησης μηχανικής εκμάθησης είναι τα AutoGluon, DarwinAI, H20.ai της Amazon. , IBM Watson AI, Microsoft AzureML και πολλά άλλα. Τα περισσότερα από αυτά τα πλαίσια εφαρμόζουν μια λύση AutoML γενικού σκοπού που αναπτύσσει μοντέλα που βασίζονται σε ML αυτόματα σε διαφορετικές κατηγορίες εφαρμογών σε χρηματοοικονομικές υπηρεσίες, υγειονομική περίθαλψη, εκπαίδευση και πολλά άλλα. Η βασική υπόθεση πίσω από αυτήν την οριζόντια γενική προσέγγιση είναι ότι η διαδικασία ανάπτυξης αυτόματων μοντέλων παραμένει πανομοιότυπη σε όλες τις εφαρμογές. Ωστόσο, το πλαίσιο LightAutoML εφαρμόζει μια κάθετη προσέγγιση για την ανάπτυξη μιας λύσης AutoML που δεν είναι γενική, αλλά καλύπτει τις ανάγκες μεμονωμένων εφαρμογών, σε αυτήν την περίπτωση ενός μεγάλου χρηματοπιστωτικού ιδρύματος. Το πλαίσιο LightAutoML είναι μια κάθετη λύση AutoML που εστιάζει στις απαιτήσεις του σύνθετου οικοσυστήματος μαζί με τα χαρακτηριστικά του. Πρώτον, το πλαίσιο LightAutoML παρέχει γρήγορη και σχεδόν βέλτιστη αναζήτηση υπερπαραμέτρων. Αν και το μοντέλο δεν βελτιστοποιεί άμεσα αυτές τις υπερπαραμέτρους, καταφέρνει να προσφέρει ικανοποιητικά αποτελέσματα. Επιπλέον, το μοντέλο διατηρεί δυναμική την ισορροπία μεταξύ ταχύτητας και βελτιστοποίησης υπερπαραμέτρων, για να διασφαλίσει ότι το μοντέλο είναι βέλτιστο σε μικρά προβλήματα και αρκετά γρήγορο σε μεγαλύτερα. Δεύτερον, το πλαίσιο LightAutoML περιορίζει σκόπιμα το εύρος των μοντέλων μηχανικής εκμάθησης μόνο σε δύο τύπους: γραμμικά μοντέλα και GBM ή δέντρα απόφασης με ενισχυμένη κλίση, αντί να εφαρμόζει μεγάλα σύνολα διαφορετικών αλγορίθμων. Ο κύριος λόγος πίσω από τον περιορισμό του εύρους των μοντέλων μηχανικής εκμάθησης είναι η επιτάχυνση του χρόνου εκτέλεσης του πλαισίου LightAutoML χωρίς να επηρεάζεται αρνητικά η απόδοση για τον συγκεκριμένο τύπο προβλήματος και δεδομένων. Τρίτον, το πλαίσιο LightAutoML παρουσιάζει μια μοναδική μέθοδο επιλογής σχημάτων προεπεξεργασίας για διαφορετικά χαρακτηριστικά που χρησιμοποιούνται στα μοντέλα βάσει ορισμένων κανόνων επιλογής και μετα-στατιστικών. Το πλαίσιο LightAutoML αξιολογείται σε ένα ευρύ φάσμα ανοιχτών πηγών δεδομένων σε ένα ευρύ φάσμα εφαρμογών. 

LightAutoML : Μεθοδολογία και Αρχιτεκτονική

Το πλαίσιο LightAutoML αποτελείται από ενότητες γνωστές ως Presets που είναι αφιερωμένες για την ανάπτυξη μοντέλων από άκρο σε άκρο για τυπικές εργασίες μηχανικής εκμάθησης. Προς το παρόν, το πλαίσιο LightAutoML υποστηρίζει προκαθορισμένες μονάδες. Πρώτον, το TabularAutoML Preset εστιάζει στην επίλυση κλασικών προβλημάτων μηχανικής μάθησης που ορίζονται σε σύνολα δεδομένων πίνακα. Δεύτερον, το White-Box Preset υλοποιεί απλούς ερμηνεύσιμους αλγόριθμους, όπως Logistic Regression αντί για κωδικοποίηση WoE ή Weight of Evidence και διακριτοποιημένα χαρακτηριστικά για την επίλυση εργασιών δυαδικής ταξινόμησης σε δεδομένα πίνακα. Η εφαρμογή απλών ερμηνεύσιμων αλγορίθμων είναι μια κοινή πρακτική για τη μοντελοποίηση της πιθανότητας μιας εφαρμογής λόγω των περιορισμών ερμηνείας που τίθενται από διαφορετικούς παράγοντες. Τρίτον, το NLP Preset είναι ικανό να συνδυάζει δεδομένα πίνακα με NLP ή Επεξεργασία φυσικής γλώσσας εργαλεία, συμπεριλαμβανομένων προεκπαιδευμένων μοντέλων βαθιάς μάθησης και ειδικών εξαγωγέων χαρακτηριστικών. Τέλος, το CV Preset λειτουργεί με δεδομένα εικόνας με τη βοήθεια κάποιων βασικών εργαλείων. Είναι σημαντικό να σημειωθεί ότι παρόλο που το μοντέλο LightAutoML υποστηρίζει και τις τέσσερις προεπιλογές, το πλαίσιο χρησιμοποιεί μόνο το TabularAutoML στο σύστημα σε επίπεδο παραγωγής. 

Η τυπική διοχέτευση του πλαισίου LightAutoML περιλαμβάνεται στην παρακάτω εικόνα. 

Κάθε αγωγός περιέχει τρία στοιχεία. Πρώτον, το Reader, ένα αντικείμενο που λαμβάνει τον τύπο εργασίας και τα ακατέργαστα δεδομένα ως είσοδο, εκτελεί κρίσιμους υπολογισμούς μεταδεδομένων, καθαρίζει τα αρχικά δεδομένα και υπολογίζει τους χειρισμούς δεδομένων που πρέπει να εκτελεστούν πριν από την τοποθέτηση διαφορετικών μοντέλων. Στη συνέχεια, τα εσωτερικά σύνολα δεδομένων LightAutoML περιέχουν επαναλήπτες CV και μεταδεδομένα που εφαρμόζουν σχήματα επικύρωσης για τα σύνολα δεδομένων. Το τρίτο συστατικό είναι οι πολλαπλοί αγωγοί μηχανικής εκμάθησης που στοιβάζονται και/ή αναμειγνύονται για να ληφθεί μια ενιαία πρόβλεψη. Ένας αγωγός μηχανικής μάθησης εντός της αρχιτεκτονικής του πλαισίου LightAutoML είναι ένα από τα πολλαπλά μοντέλα μηχανικής εκμάθησης που μοιράζονται ένα ενιαίο σχήμα επικύρωσης δεδομένων και προεπεξεργασίας. Το βήμα προεπεξεργασίας μπορεί να έχει έως και δύο βήματα επιλογής χαρακτηριστικών, ένα βήμα μηχανικής χαρακτηριστικών ή μπορεί να είναι κενό εάν δεν απαιτείται προεπεξεργασία. Οι αγωγοί ML μπορούν να υπολογιστούν ανεξάρτητα στα ίδια σύνολα δεδομένων και στη συνέχεια να αναμειχθούν μεταξύ τους χρησιμοποιώντας μέσο όρο (ή σταθμισμένο μέσο όρο). Εναλλακτικά, μπορεί να χρησιμοποιηθεί ένα σχήμα συνόλων στοίβαξης για τη δημιουργία αρχιτεκτονικών συνόλων πολλαπλών επιπέδων. 

LightAutoML Tabular Preset

Εντός του πλαισίου LightAutoML, η TabularAutoML είναι η προεπιλεγμένη διοχέτευση και εφαρμόζεται στο μοντέλο για την επίλυση τριών τύπων εργασιών σε δεδομένα πίνακα: δυαδική ταξινόμηση, παλινδρόμηση και ταξινόμηση πολλαπλών κλάσεων για ένα ευρύ φάσμα μετρήσεων απόδοσης και συναρτήσεων απώλειας. Ένας πίνακας με τις ακόλουθες τέσσερις στήλες: κατηγορίες κατηγοριών, αριθμητικά χαρακτηριστικά, χρονικές σημάνσεις και μια στήλη στόχου με ετικέτες κλάσεων ή συνεχή τιμή τροφοδοτείται στο στοιχείο TabularAutoML ως είσοδος. Ένας από τους πρωταρχικούς στόχους πίσω από το σχεδιασμό του πλαισίου LightAutoML ήταν να σχεδιάσει ένα εργαλείο για γρήγορο έλεγχο υποθέσεων, ένας σημαντικός λόγος για τον οποίο το πλαίσιο αποφεύγει τη χρήση μεθόδων ωμής δύναμης για βελτιστοποίηση αγωγών και εστιάζει μόνο σε τεχνικές και μοντέλα απόδοσης που λειτουργούν σε ευρύ φάσμα συνόλων δεδομένων. 

Αυτόματη πληκτρολόγηση και προεπεξεργασία δεδομένων

Για να χειριστεί διαφορετικούς τύπους χαρακτηριστικών με διαφορετικούς τρόπους, το μοντέλο πρέπει να γνωρίζει κάθε τύπο χαρακτηριστικού. Στην περίπτωση όπου υπάρχει μια μεμονωμένη εργασία με ένα μικρό σύνολο δεδομένων, ο χρήστης μπορεί να καθορίσει χειροκίνητα κάθε τύπο χαρακτηριστικού. Ωστόσο, ο μη αυτόματος καθορισμός κάθε τύπου χαρακτηριστικού δεν είναι πλέον βιώσιμη επιλογή σε καταστάσεις που περιλαμβάνουν εκατοντάδες εργασίες με σύνολα δεδομένων που περιέχουν χιλιάδες χαρακτηριστικά. Για την προεπιλογή TabularAutoML, το πλαίσιο LightAutoML πρέπει να αντιστοιχίσει τα χαρακτηριστικά σε τρεις κατηγορίες: αριθμητική, κατηγορία και ώρα ημερομηνίας. Μια απλή και προφανής λύση είναι η χρήση τύπων δεδομένων πίνακα στηλών ως πραγματικοί τύποι χαρακτηριστικών, δηλαδή, η αντιστοίχιση στηλών float/int σε αριθμητικά χαρακτηριστικά, χρονική σήμανση ή συμβολοσειρά, που θα μπορούσαν να αναλυθούν ως χρονική σήμανση — στην ημερομηνία ώρα και άλλες σε κατηγορία. Ωστόσο, αυτή η αντιστοίχιση δεν είναι η καλύτερη λόγω της συχνής εμφάνισης αριθμητικών τύπων δεδομένων σε στήλες κατηγορίας. 

Σχέδια επικύρωσης

Τα σχήματα επικύρωσης είναι ένα ζωτικό συστατικό των πλαισίων AutoML, καθώς τα δεδομένα στον κλάδο υπόκεινται σε αλλαγές με την πάροδο του χρόνου και αυτό το στοιχείο αλλαγής καθιστά τις υποθέσεις IID ή Ανεξάρτητες ταυτόσημες κατανεμημένες υποθέσεις άσχετες κατά την ανάπτυξη του μοντέλου. Τα μοντέλα AutoML χρησιμοποιούν σχήματα επικύρωσης για την εκτίμηση της απόδοσής τους, την αναζήτηση υπερπαραμέτρων και τη δημιουργία πρόβλεψης εκτός διπλώματος. Η διοχέτευση TabularAutoML υλοποιεί τρία σχήματα επικύρωσης:

  • KFold Cross Validation: Το KFold Cross Validation είναι το προεπιλεγμένο σχήμα επικύρωσης για τη διοχέτευση TabularAutoML, συμπεριλαμβανομένου του GroupKFold για μοντέλα συμπεριφοράς και του στρωματοποιημένου KFold για εργασίες ταξινόμησης. 
  • Επικύρωση Holdout: Το σχήμα επικύρωσης Holdout εφαρμόζεται εάν έχει καθοριστεί το σύνολο Holdout. 
  • Προσαρμοσμένα σχήματα επικύρωσης: Οι χρήστες μπορούν να δημιουργήσουν προσαρμοσμένα σχήματα επικύρωσης ανάλογα με τις ατομικές τους απαιτήσεις. Τα προσαρμοσμένα σχήματα επικύρωσης περιλαμβάνουν σχήματα διασταυρούμενης επικύρωσης και διαχωρισμού χρονοσειρών. 

Επιλογή χαρακτηριστικών

Αν και η επιλογή χαρακτηριστικών είναι μια κρίσιμη πτυχή της ανάπτυξης μοντέλων σύμφωνα με τα βιομηχανικά πρότυπα, καθώς διευκολύνει τη μείωση του κόστους συμπερασμάτων και εφαρμογής μοντέλων, η πλειονότητα των λύσεων AutoML δεν εστιάζουν πολύ σε αυτό το πρόβλημα. Αντίθετα, η διοχέτευση TabularAutoML εφαρμόζει τρεις στρατηγικές επιλογής χαρακτηριστικών: Χωρίς επιλογή, Επιλογή αποκοπής σημασίας και μπροστινή επιλογή βάσει σημασίας. Από τα τρία, η στρατηγική επιλογής χαρακτηριστικών επιλογής αποκοπής σημασίας είναι προεπιλεγμένη. Επιπλέον, υπάρχουν δύο κύριοι τρόποι για να εκτιμηθεί η σημασία των χαρακτηριστικών: η σημασία του δέντρου βάσει διαχωρισμού και η σημασία της μετάθεσης του μοντέλου GBM ή της ενισχυμένης διαβάθμισης δέντρα αποφάσεων. Ο πρωταρχικός στόχος της επιλογής αποκοπής σημασίας είναι να απορρίψει χαρακτηριστικά που δεν είναι χρήσιμα για το μοντέλο, επιτρέποντας στο μοντέλο να μειώσει τον αριθμό των χαρακτηριστικών χωρίς να επηρεάσει αρνητικά την απόδοση, μια προσέγγιση που μπορεί να επιταχύνει την εξαγωγή συμπερασμάτων και την εκπαίδευση του μοντέλου. 

Η παραπάνω εικόνα συγκρίνει διαφορετικές στρατηγικές επιλογής σε δυαδικά σύνολα δεδομένων τραπεζών. 

Ρύθμιση υπερπαραμέτρων

Η διοχέτευση TabularAutoML εφαρμόζει διαφορετικές προσεγγίσεις για τον συντονισμό των υπερπαραμέτρων με βάση αυτό που συντονίζεται. 

  • Πρόωρη διακοπή συντονισμού υπερπαραμέτρων επιλέγει τον αριθμό των επαναλήψεων για όλα τα μοντέλα κατά τη διάρκεια της φάσης εκπαίδευσης. 
  • Εξειδικευμένος συντονισμός υπερπαραμέτρων συστήματος είναι ένας απλός τρόπος για να ορίσετε υπερπαραμέτρους για μοντέλα με ικανοποιητικό τρόπο. Αποτρέπει το τελικό μοντέλο από υψηλή μείωση βαθμολογίας σε σύγκριση με μοντέλα με σκληρό συντονισμό.
  • Δενδροδομημένη εκτίμηση Parzen ή TPE για GBM ή μοντέλα δέντρων αποφάσεων με ενισχυμένη κλίση. Το TPE είναι μια μικτή στρατηγική συντονισμού που είναι η προεπιλεγμένη επιλογή στη διοχέτευση LightAutoML. Για κάθε πλαίσιο GMB, το πλαίσιο LightAutoML εκπαιδεύει δύο μοντέλα: το πρώτο λαμβάνει ειδικές υπερπαραμέτρους, το δεύτερο είναι προσαρμοσμένο ώστε να ταιριάζει στον προϋπολογισμό χρόνου. 
  • Ρύθμιση υπερπαραμέτρων αναζήτησης πλέγματος υλοποιείται στη διοχέτευση TabularAutoML για να τελειοποιήσει τις παραμέτρους τακτοποίησης ενός γραμμικού μοντέλου παράλληλα με την πρόωρη διακοπή και τη θερμή εκκίνηση. 

Το μοντέλο συντονίζει όλες τις παραμέτρους μεγιστοποιώντας τη μετρική συνάρτηση, είτε ορίζεται από τον χρήστη είτε είναι προεπιλεγμένη για την λυμένη εργασία. 

LightAutoML: Πείραμα και απόδοση

Για την αξιολόγηση της απόδοσης, το TabularAutoML Preset στο πλαίσιο LightAutoML συγκρίνεται με ήδη υπάρχουσες λύσεις ανοιχτού κώδικα σε διάφορες εργασίες και ενισχύει την ανώτερη απόδοση του πλαισίου LightAutoML. Πρώτον, η σύγκριση πραγματοποιείται στο σημείο αναφοράς OpenML που αξιολογείται σε 35 σύνολα δεδομένων εργασιών ταξινόμησης δυαδικών και πολλαπλών κλάσεων. Ο παρακάτω πίνακας συνοψίζει τη σύγκριση του πλαισίου LightAutoML με τα υπάρχοντα συστήματα AutoML. 

Όπως φαίνεται, το πλαίσιο LightAutoML υπερέχει όλων των άλλων συστημάτων AutoML σε 20 σύνολα δεδομένων εντός του σημείου αναφοράς. Ο παρακάτω πίνακας περιέχει τη λεπτομερή σύγκριση στο πλαίσιο δεδομένων που υποδεικνύει ότι το LightAutoML παρέχει διαφορετική απόδοση σε διαφορετικές κατηγορίες εργασιών. Για εργασίες δυαδικής ταξινόμησης, το LightAutoML υστερεί σε απόδοση, ενώ για εργασίες με μεγάλο όγκο δεδομένων, το πλαίσιο LightAutoML προσφέρει ανώτερη απόδοση.

Ο παρακάτω πίνακας συγκρίνει την απόδοση του πλαισίου LightAutoML έναντι συστημάτων AutoML σε 15 σύνολα δεδομένων τράπεζας που περιέχουν ένα σύνολο από διάφορες εργασίες δυαδικής ταξινόμησης. Όπως μπορεί να παρατηρηθεί, το LightAutoML υπερτερεί όλων των λύσεων AutoML σε 12 από τα 15 σύνολα δεδομένων, ποσοστό νίκης 80. 

Τελικές Σκέψεις

Σε αυτό το άρθρο μιλήσαμε για το LightAutoML, ένα σύστημα AutoML που αναπτύχθηκε κυρίως για μια ευρωπαϊκή εταιρεία που δραστηριοποιείται στον χρηματοοικονομικό τομέα μαζί με το οικοσύστημά της. Το πλαίσιο LightAutoML αναπτύσσεται σε διάφορες εφαρμογές και τα αποτελέσματα έδειξαν ανώτερη απόδοση, συγκρίσιμη με το επίπεδο των επιστημόνων δεδομένων, ακόμη και κατά την κατασκευή μοντέλων μηχανικής μάθησης υψηλής ποιότητας. Το πλαίσιο LightAutoML επιχειρεί να κάνει τις ακόλουθες συνεισφορές. Πρώτον, το πλαίσιο LightAutoML αναπτύχθηκε κυρίως για το οικοσύστημα ενός μεγάλου ευρωπαϊκού χρηματοπιστωτικού και τραπεζικού ιδρύματος. Λόγω του πλαισίου και της αρχιτεκτονικής του, το πλαίσιο LightAutoML είναι σε θέση να ξεπεράσει τα τελευταίας τεχνολογίας πλαίσια AutoML σε διάφορα ανοιχτά σημεία αναφοράς καθώς και σε εφαρμογές οικοσυστήματος. Η απόδοση του πλαισίου LightAutoML συγκρίνεται επίσης με μοντέλα που ρυθμίζονται χειροκίνητα από επιστήμονες δεδομένων και τα αποτελέσματα έδειξαν ισχυρότερη απόδοση από το πλαίσιο LightAutoML. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.