Περιγραφή θέματος

  • Γενικά

    Ανάκτηση Πληροφορίας

    Διδάσκων: Ε. Πιτουρά

    Περιγραφή μαθήματος : Εισαγωγή στα συστήματα ανάκτησης πληροφορίας. Μοντελοποίηση: δυαδικά, συνολοθεωρητικά, αλγεβρικά μοντέλα, πιθανοκρατικά μοντέλα και διανυσματικά μοντέλα. Γλώσσες επερώτησης. Επεξεργασία και συμπίεση κειμένων. Νόμος του Zipf και νόμος του Heaps. Μέθοδοι δεικτοδότησης: ανεστραμμένα αρχεία, δέντρα και πίνακες επιθεμάτων, αρχεία υπογραφών. Αξιολόγηση αποτελεσματικότητας συστημάτων ανάκτησης πληροφορίας, υπάρχουσες συλλογές αξιολόγησης. Ανάδραση σχετικότητας και επέκταση ερωτήματος. Αυτόματη ταξινόμηση και ομαδοποίηση κειμένων. Αναζήτηση στον παγκόσμιο ιστό: μηχανές αναζήτησης, τεχνικές crawling, τεχνικές βάσει συνδέσμων. Παράλληλα και κατανεμημένη ανάκτηση πληροφοριών.

    Μαθησιακοί στόχοι μαθήματος : Το μάθημα σκοπεύει να μεταφέρει στους φοιτητές τις βασικές αρχές, αλγόριθμους και εφαρμογές της ανάκτησης πληροφορίας από συλλογές κειμένων και στις μηχανές αναζήτησης.

    Λέξεις κλειδιά : Φωνητική διόρθωση (Soundex), Απωλεστική Συμπίεση (Lossy Compression), Blocking, Εμπρόσθια Κωδικοποίηση (Front Coding) Κωδικοποίηση Μεταβλητού Μεγέθους (Variable Length Encoding), Διακοπτόμενες λέξεις (Stop Words), Λημματοποίηση, Περιστολή (Stemming), Ερωτήσεις Φράσεων (Phrase Queries), Ερωτήσεις Γειτονικότητας (Proximity Queries)

  • 1 - Εισαγωγή

    Περιγραφή θεματικής ενότητας  : Εισαγωγή στην Ανάκτηση Πληροφορίας. Ανάκτηση Boole

    Λέξεις κλειδιά : Σύστημα Ανάκτησης Πληροφορίας (ΣΑΠ) (Information Retrieval System), Συλλογή Εγγράφων (Document Collection), Ανάγκη ΠΛηροφόρησης (Information Need), Αναστραμμένο Ευρετήριο (Invereted Index) 

  • 2 - Κατασκευή Ευρετηρίου και Είδη Ερωτήσεων

    Περιγραφή θεματικής ενότητας  : Προ-επεξεργασία για την Κατασκευή Ευρετηρίου, Λίστες Καταχωρήσεων και Ερωστήσεις Φράσεων

    Λέξεις κλειδιά : Λεξιλόγιο Όρων (Term vocabulary), Λίστες Καταχωρήσεων (Posting Lists), Token, Διακοπτόμενες λέξεις (Stop Words), Λημματοποίηση, Περιστολή (Stemming), Ερωτήσεις Φράσεων (Phrase Queries), Ερωτήσεις Γειτονικότητας (Proximity Queries)

  • 3 - Κατασκευή Ευρετηρίου και Είδη Ερωτήσεων

    Περιγραφή θεματικής ενότητας  :  Δομές Αναζήτησης για Λεξικά. Ανάκτηση Aνεκτική σε Σφάλματα: Ερωτήματα με Wild-card («χαρακτήρων μπαλαντέρ) *

    Λέξεις κλειδιά : Λεξικό (Dictionary), Ευρετήριο Αντιμετατεθειμένων Όρων (Permuterm Index), Ευρετήρια k-γραμμάτων (k-gram Indexes)

  • 4 - Κατασκευή Ευρετηρίου και Είδη Ερωτήσεων

    Περιγραφή θεματικής ενότητας  :  Ανάκτηση ανεκτική σε Σφάλματα: Ορθογραφικά λάθη, Απόσταση όρων, Φωνητική διόρθωση. 

    Λέξεις κλειδιά : Απόσταση Διόρθωσης (Edit distance), Φωνητική διόρθωση (Soundex)

  • 5 - Κατασκευή Ευρετηρίου

    Περιγραφή θεματικής ενότητας  :   Αλγόριθμοι για την Aποδοτική Κατασκευή του Ευρετηρίου. Στατιστικά Συλλογής.

    Λέξεις κλειδιά :  MapReduce, Νόμος του Heaps, Νόμος του Zipf

  • 6 - Συμπίεση Ευρετηρίου

    Περιγραφή θεματικής ενότητας  :   Αλγόριθμοι για τη Συμπίεση του Λεξικού και του Ανεστραμμένου Ευρετηρίου

    Λέξεις κλειδιά : Mη Aπωλεστική Συμπίεση (Lossless Compression), Απωλεστική Συμπίεση (Lossy Compression), Blocking, Εμπρόσθια Κωδικοποίηση (Front Coding) Κωδικοποίηση Μεταβλητού Μεγέθους (Variable Length Encoding)

  • 7 - Διαβαθμισμένη Ανάκτηση

    Περιγραφή θεματικής ενότητας  Βαθμολόγηση. Στάθμιση όρων. Το διανυσματικό μοντέλο.

    Λέξεις κλειδιά : Συχνότητα Όρου (Term Frequency) Συχνότητα Εγγράφων (Document Frequency), Στάθμιση tf-idf

  • 8 - Υλοποίηση

    Περιγραφή θεματικής ενότητας  Θέματα υλοποίησης. Περίληψη αποτελεσμάτων

    Λέξεις κλειδιά : Υπολογισμός ανά Όρο (term-at-a-time), Υπολογισμός ανά Έγγραφο (document-at-a-time), Βαθμιδωτά Ευρετήρια

  • 9 - Αξιολόγηση

    Περιγραφή θεματικής ενότητας  : Αξιολόγηση στην Ανάκτηση Πληροφορίας I

    Λέξεις κλειδιά : Συνάφεια (Relevance), Ακρίβεια (Precision), Ανάκληση (Recall), Καμπύλη Ακρίβειας/Ανάκλησης, Μέση Aκρίβεια 11-σημείων με Παρεμβολή, Ακρίβεια στα k

  • 10 - Αξιολόγηση

    Περιγραφή θεματικής ενότητας  Αξιολόγηση στην Ανάκτηση Πληροφορίας II

    Λέξεις κλειδιά : Μέση Aντιπροσωπευτική Aκρίβεια (Mean Αverage Precision, MAP), R-ακρίβεια, Μειούμενο Συγκεντρωτικό Κέρδος (Discounted Cumulative Gain), clickthrough, Μέτρο Κάπα

  • 11 - Υλοποίηση

    Περιγραφή θεματικής ενότητας  : Εισαγωγή στη Lucene

    Λέξεις κλειδιά : Field, IndexWriter, Directory, Analyzer, IndexSearcher, QueryParser, TopDocs, ScoreDoc

  • 12 - Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό

    Περιγραφή θεματικής ενότητας  Βασικές Αρχές Ανάκτησης στον Παγκόσμιο Ιστό (web)

    Λέξεις κλειδιά : Ο γράφος του web, Κείμενο Άγκυρας, PageRank, HITS

  • 13 - Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό

    Άλλα Θέματα Ανάκτησης στον Ιστό: ανάγκες χρηστών, διαφημίσεις, spam, εκτίμηση του μεγέθους του web.

    Μοντέλο κόστους per mil (CPM), Μοντέλο κόστους per click (CPC), Search Engine Optimization (SEO)

  • Βιβλιογραφία

    • Cristopher D. Manning, Prabhakar Raghavan and Hinrich Schutze. Εισαγωγή στην Ανάκτηση Πληροφοριών, Εκδόσεις Κλειδάριθμος
    • Introduction to Information Retrieval, Cambridge University Press. 2008
    • Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999
    • I. Witten, A. Moffat, T. Bell, Managing gigabytes: compressing and indexing documents and images, Morgan Kaufmann Publishers, 1999