Παρουσίαση/Προβολή
Ποσοτική Ανάλυση Γλωσσικών Δεδομένων
(M905) -
Περιγραφή Μαθήματος
Το μάθημα διαρθρώνεται σε τέσσερις ενότητες:
(α) Δημιουργία και επεξεργασία κειμένων: Παρουσιάζονται γνωστά διαθέσιμα σώματα κειμένων, και περιγράφονται βασικά στάδια δημιουργίας (π.χ. web crawling) και προ-επεξεργασίας σωμάτων κειμένων (π.χ. sentence splitting, tokenization, normalization).
(β) Αναπαράσταση κειμενικών συλλογών: Παρουσιάζονται βασικές μέθοδοι μοντελοποίησης κειμενικών συλλογών (π.χ. Bag Of Words, TF-IDF, Dictionaries) και παραδείγματα οπτικοποίησης δεδομένων.
(γ) Περιγραφική Στατιστική: Περιγράφονται βασικές έννοιες (π.χ. μέση τιμή, διάμεση τιμή, επικρατούσα τιμή, εύρος, διασπορά, μεταβλητότητα) και παρουσιάζονται γνωστές κατανομές (π.χ. Διωνυμική,, Κανονική, Poisson) συνοδευόμενες με απλές εφαρμογές τους στην περιγραφή σωμάτων κειμένων.
(δ) Επαγωγική Στατιστική: Περιγράφονται βασικές μέθοδοι εξαγωγής συμπερασμάτων (π.χ. έλεγχος υποθέσεων, t test, ANOVA ) συνοδευόμενες με απλές εφαρμογές τους στην ποσοτική ανάλυση κειμένων.
(ε) Αναπαράσταση κειμένων ως διανύσματα: Περιγράφεται η αναπαράσταση δεδομένων σε ν διαστάσεις και παρουσιάζονται βασικές έννοιες συσχέτισης χαρακτηριστικών (π.χ. correlation, similarity, regression).
Παρουσιάζονται απλά παραδείγματα εφαρμογών χρησιμοποιώντας απλά scripts της Python.
Ημερομηνία δημιουργίας
Πέμπτη 10 Σεπτεμβρίου 2020
-
Δεν υπάρχει περίγραμμα