Ψηφιακή Επεξεργασία & Αναγνώριση Εγγράφων

(Ειδικά Θέματα Επικοινωνιών & Επεξεργασία Σήματος)
 

Εαρινό Εξάμηνο 2019


Περιγραφή μαθήματος

Τα έγγραφα περιέχουν γνώση. Πιο συγκεκριμένα, τα έγγραφα αποτελούν το μέσο μεταφοράς της γνώσης. Η εξαγωγή της γνώσης από ένα έγγραφο το οποίο μπορεί να είναι τεχνική αναφορά, ανακοίνωση, εφημερίδα, βιβλίο, περιοδικό, γράμμα, τραπεζική επιταγή κ.λ.π. είναι το πιο κρίσιμο σημείο ενός πληροφοριακού συστήματος. Η εξαγωγή της γνώσης προϋποθέτει χρόνο και ανθρώπινη προσπάθεια, στοιχεία τα οποία περιορίζουν τις δυνατότητες του πληροφοριακού συστήματος. Έτσι, η αυτοματοποίηση της εξαγωγής της γνώσης από τα έγγραφα αποτελεί ένα σημαντικό ερευνητικό τομέα με πολλές εφαρμογές. Ήδη από την δεκαετία του 1960 η έρευνα σχετικά με την αυτόματη επεξεργασία των εγγράφων ξεκίνησε με την οπτική αναγνώριση των χαρακτήρων (OCR). Στο μάθημα αυτό θα μελετηθούν τα βασικά στάδια ενός συστήματος επεξεργασίας και κατανόησης εγγράφων. Το πρώτο στάδιο αφορά την προεπεξεργασία της εικόνας. Περιλαμβάνει την δυαδική μετατροπή (μετατροπή της gray scale εικόνας σε ασπρόμαυρης), την βελτίωση της ποιότητας (εξάλειψη θορύβου, βελτίωση της ποιότητας του κειμένου) και την διόρθωση της στροφής της εικόνας (διόρθωση στροφής της εικόνας η οποία έχει προκύψει λόγω μη ευθυγραμμισμένης τοποθέτησης του εγγράφου στον σαρωτή). Το επόμενο στάδιο αφορά την κατάτμηση της εικόνας του εγγράφου, δηλαδή τον εντοπισμό των βασικών συστατικών του εγγράφου (εικόνες, γραφικά, τμήματα κειμένου, παράγραφοι, γραμμές κειμένου, λέξεις, γράμματα). Ακολουθεί το στάδιο της κατανόησης της δομής της σελίδας το οποίο αναφέρεται στον χαρακτηρισμός των βασικών συστατικών του εγγράφου καθώς και εντοπισμός της ροής του κειμένου. Για παράδειγμα, αν το έγγραφο είναι εφημερίδα τα βασικά συστατικά μπορεί να χαρακτηρίζονται ως τίτλος, υπότιτλος, υπέρτιτλος, συγγραφέας, στήλη, εικόνα, λεζάντα κ.λ.π. ενώ αν το έγγραφο είναι σελίδα τεχνικού περιοδικού τα βασικά συστατικά μπορεί να χαρακτηρίζονται ως ονομασία περιοδικού, τίτλος, συγγραφέας, περίληψη, στήλες κειμένου κ.λ.π. Το τελικό στάδιο αφορά την αναγνώριση των χαρακτήρων. Περιλαμβάνει την εξαγωγή αξιόπιστων χαρακτηριστικών για κάθε χαρακτήρα και την κατάστρωση ενός ταξινομητή για την κατάταξη του κάθε χαρακτήρα σε γνωστή κλάση γράμματος. Συνήθως η αναγνώριση περιλαμβάνει και διόρθωση του τελικού αποτελέσματος με χρήση λεξικού.

 

Ενδεικτικό πρόγραμμα μαθημάτων:

 

1. Τρίτη 19/2: Εισαγωγή στο μάθημα

 

2. Τρίτη 26/2: Δυαδική μετατροπή

 

3. Τρίτη 5/3: Δυαδική μετατροπή

 

4. Τρίτη 12/3: Βελτίωση ποιότητας

 

5. Τρίτη 19/3: Διόρθωση στροφής

 

6. Τρίτη 26/3: Κατάτμηση Σελίδας Εγγράφου

 

7. Τρίτη 2/4: Εξαγωγή χαρακτηριστικών

 

8. Τρίτη 9/4: Εξαγωγή χαρακτηριστικών

 

9. Τρίτη 16/4 Αναγνώριση

 

10. Τρίτη 7/5: Αποτίμηση διαδικασιών επεξεργασίας εγγράφων

 

11. Τρίτη 14/5: Συζήτηση για εργασίες και εξετάσεις

 

12. Τρίτη 21/5: Συζήτηση για εργασίες και εξετάσεις

 

 

 

 


 

 

Δρ. Βασίλης Γάτος

Ερευνητής

ΕΚΕΦΕ «ΔΗΜΟΚΡΙΤΟΣ»

Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών

Εργαστήριο Υπολογιστικής Ευφυΐας

(CIL - Computational Intelligence Lab)

e-mail: bgat@iit.demokritos.gr

Web: http://www.iit.demokritos.gr/~bgat/

phone: 210-6503183