Περιγραφή θέματος

  • Γενικά

  • 1. Εισαγωγή στην Εξόρυξη Δεδομένων

    Περιγραφή θεματικής ενότητας:

    • Εισαγωγή στην εξόρυξη δεδομένων
    • Τι είναι η εξόρυξη δεδομένων
    • Τι χρειαζόμαστε την εξόρυξη δεδομένων
    • Τύποι δεδομένων

    Λέξεις κλειδιά:  εξόρυξη δεδομένων, τύποι δεδομένων.

  • 2. Πιθανότητες. Δεδομένα, προ-επεξεργασία και μετεπεξεργασία.

    Περιγραφή θεματικής ενότητας:

    • Data Preprocessing
    • Exploratory Analysis
    • Post-processing

    Λέξεις κλειδιά: προεπεξεργασία δεδομένων, μετα-επεξεργασία δεδομένων, ποιότητα δεδομένων, δειγματοληψία, κανονική κατανομή, scatter-plot, sample size, reservoir sampling, rhine-paradox.

  • 3. Εύρεση συχνών στοιχειοσυνόλων. Ευρεση κανόνων συσχέτισης.

    Περιγραφή θεματικής ενότητας:

    • Frequent itemsets
    • Αλγόριθμος A-priori
    • Association rules

    Λέξεις κλειδιά: frequent itemsets, συχνά στοιχειοσυνολα, αλγόριθμος A-priori, κανόνες συσχέτισης, Α-priori principle, hash tree.

  • 4. Κανόνες συσχέτισης.

    Περιγραφή θεματικής ενότητας:

    • Κανόνες συσχέτισης
    • Αξιολόγηση κανόνων
    • Εναλλακτικοί αλγόριθμοι για συχνά στοιχειοσύνολα

    Λέξεις κλειδιά: κανόνες συσχέτισης, maximal frequent itemsets, negative border, closed itemset, PCY algorithm, SON algorithm, Toivonen's algorithm, FP-tree, FP-growth.

  • 5. Ομοιότητα και Απόσταση.

    Περιγραφή θεματικής ενότητας:

    • Ομοιότητα και Απόσταση
    • Μετρικές
    • Συστήματα συστάσεων

    Λέξεις κλειδιά: ομοιότητα, απόσταση, μετρικές, Jaccard similarity, cosine similarity, hamming distance.

  • 6. Εύρεση όμοιων ζευγών.

    Περιγραφή θεματικής ενότητας:

    • Εύρεση όμοιων ζευγών
    • Min-Hash signatures
    • Locality Sensitive Hashing

    Λέξεις κλειδιά: Min-Hash signatures, Locality Sensitive Hashing, shingling, minhashing, minhash signatures.

  • 7. Μείωση διάστασης.

    Περιγραφή θεματικής ενότητας:

    • Μείωση διάστασης
    • Singular Value Decomposition (SVD)
    • Principal Component Analysis (PCA)

    Λέξεις κλειδιά: μείωση διάστασης, Singular Value Decomposition (SVD), Principal Component Analysis (PCA), curse of dimensionality, dimensionality reduction.

  • 8. Ομαδοποίηση (clustering)

    Περιγραφή θεματικής ενότητας:

    • Ομαδοποίηση (clustering)
    • Ο αλγόριθμος k-means
    • Ιεραρχική ομαδοποίηση
    • Ο αλγόριθμος DBSCAN

    Λέξεις κλειδιά: ομαδοποίηση, clustering, αλγόριθμος k-means, ιεραρχική ομαδοποίηση, αλγόριθμος DBSCAN

  • 9. Mixutre models και ο αλγόριθμος ΕΜ. Αξιολόγηση ομαδοποίησης. Κατάτμηση ακολουθιακών δεδομένων.

    Περιγραφή θεματικής ενότητας:

    • Mixutre models
    • αλγόριθμος ΕΜ
    • Αξιολόγηση ομαδοποίησης
    • Κατάτμηση ακολουθιακών δεδομένων

    Λέξεις κλειδιά: Mixutre models, αλγόριθμος ΕΜ, ομαδοποίηση, αξιολόγηση ομαδοποίησης, κατάτμηση ακολουθιακών δεδομένων, clustering, sequence segmentation, hierarchical clustering, model-based clustering, maximum likelihood estimation.

  • 10. Minimum Description Length (MDL). Εισαγωγή στην θεωρία πληροφορίας. Co-clustering.

    Περιγραφή θεματικής ενότητας:

    • Minimum Description Length (MDL)
    • Εισαγωγή στην θεωρία πληροφορίας
    • Co-clustering

    Λέξεις κλειδιά: Minimum Description Length (MDL), Co-clustering, information theory, Occam's razor, encoding, entropy.

  • 11. Κατηγοριοποίηση. Δέντρα απόφασης. Αξιολόγηση.

    Περιγραφή θεματικής ενότητας:

    • Κατηγοριοποίηση
    • Δέντρα απόφασης
    • Αξιολόγηση

    Λέξεις κλειδιά: Κατηγοριοποίηση, δέντρα απόφασης, evaluation, nearest neighbor classifier, tree induction, hunt's algorithm, gain ratio, overfitting, generalization error, Receiver Operating Characteristic.

  • 12. Άλλες μεθόδοι κατηγοριοποίησης.

    Περιγραφή θεματικής ενότητας:

    • Άλλες μεθόδοι κατηγοριοποίησης
    • Nearest Neighbor Classification
    • Support Vector Machines
    • Logistic Regression
    • Naive Bayes Classification
    • Επιβλεπόμενη μάθηση

    Λέξεις κλειδιά: κατηγοριοποίηση, Nearest Neighbor Classification, Support Vector Machines, Logistic Regression, Naive Bayes Classification, Επιβλεπόμενη μάθηση.

  • 13. Ανάλυση συνδέσμων και ιεράρχηση στο Web.

    Περιγραφή θεματικής ενότητας:

    • Ανάλυση συνδέσμων και ιεράρχηση στο Web
    • PageRank -- τυχαίοι περίπατοι
    • Ο αλγόριθμος HITS

    Λέξεις κλειδιά: Ανάλυση συνδέσμων, PageRank, τυχαίοι περίπατοι, αλγόριθμος HITS, link analysis, markov chains, stationary distribution, SALSA algorithm, social network analysis.

  • 14. Απορροφητικοί τυχαίοι περίπατοι. Προβλήματα κάλυψης.

    Περιγραφή θεματικής ενότητας:

    • Απορροφητικοί τυχαίοι περίπατοι
    • Προβλήματα κάλυψης

    Λέξεις κλειδιά: Απορροφητικοί τυχαίοι περίπατοι, Προβλήματα κάλυψης, absorbing random walks, absorption probability, transductive learning, approximation algorithms, GREEDY algorithm.

  • Συγγράματα

    • Εισαγωγή στην εξόρυξη δεδομένων, Tan Pang  - Ning,Steinbach Michael,Kumar Vipin,  ΕΚΔΟΣΕΙΣ Α. ΤΖΙΟΛΑ & ΥΙΟΙ Α.Ε., Έκδοση: 1η έκδ./2010.

    • DATA MINING, Margaret H. Dunham, ΕΚΔΟΣΕΙΣ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΜΟΝ. ΕΠΕ, Έκδοση: 1η/2004.

    • Εξόρυξη γνώσης από βάσεις δεδομένων και τον παγκόσμιο ιστό, Βαζιργιάννης Μιχάλης, Χαλκίδη Μαρία, Εκδόσεις    Γ. ΔΑΡΔΑΝΟΣ  -  Κ. ΔΑΡΔΑΝΟΣ Ο.Ε., Έκδοση: 2η έκδ./2005.
    • Επιπλέον συνιστώμενη βιβλιογραφία