Παρουσίαση/Προβολή
Ενισχυτική μηχανική μάθηση και στοχαστικά παίγνια
(DI100) - Νίκος Καλουπτσίδης
Περιγραφή Μαθήματος
Το μάθημα εξετάζει την ακόλουθη ερώτηση:
- Πως μπορεί μια μονάδα/πράκτορας (agent) να μάθει να ενεργεί για την επίτευξη κάποιου σκοπού, σε ένα δυναμικό αβέβαιο και μερικώς παρατηρήσιμο περιβάλλον, παρουσία και άλλων πρακτόρων/δρώντων μηχανισμών που επιδιώκουν τους δικούς τους σκοπούς?
Το ερώτημα και οι ειδικότερες εκδοχές του (ένας πράκτορας, παίγνια μηδενικού αθροίσματος, παίγνια πρακτόρων με κοινό σκοπό) είναι σπουδαίο σε μεγάλο φάσμα εφαρμογών:
- Υπολογιστική όραση, ρομποτική και αυτόνομη οδήγηση
- Επεξεργασία φυσικής γλώσσας
- Παιχνίδια (επιτραπέζια, παιχνίδια με τράπουλες, βιντεο)
- Κυβερνοφυσικά συστήματα
- Ανίχνευση σπάνιων γεγονότων (ανίχνευση και διάγνωση στην ιατρική φροντίδα)
- Επικοινωνίες και ασφάλεια (αντιμετώπιση απειλών και επιθέσεων σε αισθητήρες, κανάλια και υπολογιστικούς κόμβους)
Στη προσπάθεια μας να αναλύσουμε και να απάντησουμε στο παραπάνω ερώτημα θα μελετήσουμε τα εξής:
- θεμελιώδεις γνώσεις: αλληλεπίδραση πρακτορα και περιβάλλοντος, Μαρκοβιανές διαδικασίες απόφασης (MDP), πολιτικές και συναρτήσεις αξίας, μερικώς παρατηρήσιμες Μαρκοβιανές διαδικασίες απόφασης (POMDPs) και πίστη, Δυναμικός προγραμματισμός και εξίσωση Bellman, αλγόριθμοι σταθερού σημείου, Q learning, Εξομείωση και αλγόριθμοι στοχαστικής προσέγγισης. χρονική διαφορά. Gymnasium: Βιβλιοθήκη με έτοιμα περιβάλλοντα για ένα πράκτορα.
- Στοχαστικά παίγνια και ενισχυτική μάθηση πολλαπλών πρακτόρων: βασικές έννοιες. Στατικά παίγνια κανονικού τύπου (NORMAL FORm), επαναλαμβανομενα παίγνια κανονικού τύπου, στοχαστικά παίγνια, μερικώς παρατηρησιμα στοχαστικά παίγνια. Πολιτικές ισορροπίας. Κεντρική και αποκεντρωμένη μάθηση, Ανταλλαγή/διαμοιρασμός πληροφορίας σε δικτυωμένα συστήματα πρακτόρων. Γενίκευση μεθόδων τυπου δυναμικού προγραμματισμού. minimax q learning, nash q learning, policy based learning. petting zoo: Βιβλιοθήκη με έτοιμα περιβάλλοντα πολλαπλών πρακτόρων
- Βασικές προσεγγιστικές δομές, βαθειά νευρωνικά δίκτυα χωρίς μνήμη και με μνήμη (συγκεραστικά δίκτυα, αναδρομικά δίκτυα, LSTM). Γνωριμία με το pytorch.
- Αλγορίθμοι ενισχυτικής μάθησης (vanilla policy gradient VPG, trust region policy optimization TRPO, proximal policy optimization PPO, Deep deterministic policy gradient DPPG, Twin delayed DDPG, TD3, Soft Actor Critic SAC, DQN, DDQN, Μοντελοποίση πράκτορα, κεντρική μάθηση και αποκεντρωμένη εκτέλεση )
- Βιβλιοθήκες αλγορίθμων ενισχυτικής μάθησης (πχ Stable baselines3 για ένα πράκτορα) και αλληλεπίδραση με τη συλλογή βιβλιοθηκών με προεγκατεστημένα περιβάλλοντα
Ημερομηνία δημιουργίας
Τετάρτη 26 Αυγούστου 2015
-
Βιβλιογραφία
Σε γενικές γραμμές θα ακολουθήσουμε το βιβλίο:
Multi-Agent Reinforcement Learning, Foundations and Modern Approaches
Stefano V. Albrecht, Filippos Christianos, and Lukas Schäfer, MIT Press
Πολλές άλλες πηγές και δημοσιεύσεις θα δοθούν κατά τη διάρκεια του μαθήματος και ανά ενότητα.Μαθησιακοί στόχοι
Απόκτηση γνώσεων και δεξιοτήτων σε μια σημαντική περιοχή της μηχανικής μάθησης που έχει ισχυρούς δεσμούς με τον βέλτιστο έλεγχο (Optimal control), την επιχειρησιακή έρευνα (Operations Research), τις προσεγγιστικές δομές (στοχαστική προσέγγιση, νευρωνικά δίκτυα), την εξομείωση, τη θεωρία πληροφορίας και τη θεωρία παιγνίων, με εξαιρετικές επιτυχίες τα τελευταία χρόνια
Μέθοδοι αξιολόγησης
Συμμετοχή στο μάθημα, Εργασία
Το περιεχόμενο των εργασιών θα συγκεκριμενοποιηθεί στο δεύτερο μάθημα. Σκοπός τους η κατανόηση των μεθόδων και αλγορίθμων που διδάσκονται στο μάθημα και η πειραματική εξοικείωση.