Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών


Πανεπιστήμιο Θεσσαλίας (Βόλος)


Διδάσκων

Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας (Information Retrieval)

Περίληψη

  1. Το μάθημα θα διαπραγματευτεί:
    Ανάκτηση Πληροφορίας στον σύγχρονο Παγκόσμιο Ιστό, δηλαδή θα πραγματευτεί την Τεχνολογία των Μηχανών Αναζήτησης
  2. Λέξεις-κλειδιά του μαθήματος:
    • Boolean model, dictionary and postings lists, tolerant retrieval, index construction, index compression
      scoring and term weighting, vector space retrieval, recall and precision, relevance feedback and query expansion
    • Web crawling and indexes, link analysis ranking, summation formula for PageRank, problems with the iterative process
    • spectrum of the Google matrix, parameters in the PageRank model, sensitivity of PageRank
    • the PageRank problem as a linear system, proof of the PageRank sparse linear system
    • large-scale implementation of PageRank, back button modeling, adaptive power method, extrapolation, aggregation, updating the PageRank vector
    • HITS method for ranking Webpages, HITS implementation, HITS convergence, HITS's relationship to bibliometrics, query-independent HITS, HITS sensitivity
    • SALSA, BrowseRank
    • content spam, link spam, spam farms



Κύρια βιβλιογραφία

Βιβλίο
Τίτλος Η Μέθοδος PageRank της Google και άλλα Συστήματα Κατάταξης
Google's PageRank and Beyond: The Science of Search Engine Rankings
Introduction to Information Retrieval
Εισαγωγή στην Aνάκτηση Πληροφοριών
Δωρεάν εδώ
Τοπικό αντίγραφο εδώ
Ιnformation Retrieval: Implementing and Evaluating Search Engines
Τοπικό (μερικών κεφαλαίων) αντίγραφο εδώ
Search Engines: Information Retrieval in Practice
Δωρεάν εδώ
Τοπικό αντίγραφο εδώ
Συγγραφείς Amy N. Langville and Carl D. Meyer Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze Stefan Buttcher, Charles L. A. Clarke and Gordon V. Cormack Bruce Croft, Donald Metzler and Trevor Strohman
Έκδοση Πρώτη Ελληνική 2010 (Πρώτη Αγγλική 2006)
Πανεπιστημιακές Εκδόσεις Κρήτης (Princeton University Press)
Πρώτη Αγγλική 2008 (Πρώτη Ελληνική 2012)
Cambridge University Press (Κλειδάριθμος)
Πρώτη Αγγλική 2010
The MIT Press
Πρώτη Αγγλική 2009
Addison Wesley

Συμπληρωματική βιβλιογραφία

Βιβλίο
Τίτλος Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining Modern Information Retrieval - Τhe Concepts and Technology Behind Search
Ανάκτηση Πληροφορίας
Understanding Search Engines: Mathematical Modeling and Text Retrieval Managing Gigabytes: Compressing and Indexing Documents and Images
Συγγραφείς ChengXiang Zhai and Sean Massung Ricardo Baeza-Yates and Berthier Ribeiro-Neto Michael W. Berry and Murray Browne Ian H. Witten, Alistair Moffat and Timothy C. Bell
Έκδοση Πρώτη Αγγλική 2016
ACM and Morgan & Claypool
Δεύτερη Αγγλική 2011 (Πρώτη Ελληνική 2014)
Addison Wesley (Εκδόσεις Τζιόλα)
Δεύτερη Αγγλική 2005
SIAM
Δεύτερη Αγγλική 1999
Morgan Kaufmann


Χρήσιμα άρθρα

  1. A. Moffat, J. Zobel, D. Hawking, Recommended reading for IR research students, ACM SIGIR Forum, vol. 39, no. 2, pp. 3-14, 2005.
  2. D. Blank, N. Fuhr, A. Henrich, T. Mandl, T. Roelleke, H. Schόtze, B. Stein, Teaching IR: Curricular considerations, chapter in Teaching and Learning in Information Retrieval, vol. 31, The Information Retrieval Series, pp. 31-46, 2011.
  3. M.W. Berry, S.T. Dumais, G.W. O'Brien, Using linear algebra for intelligent information retrieval, SIAM Review, vol. 37, no. 4, pp. 573-595, 1995.
  4. M.W. Berry, Z. Drmac, E.R. Jessup, Matrices, vector spaces and information retrieval, SIAM Review, vol. 41, no. 2, pp. 335-362, 1999.
  5. A. Moffat and J. Zobel, Self-indexing inverted files for fast text retrieval, ACM Transactions on Information Systems, vol. 14, no. 6, pp. 349-379, 1996.
  6. J. Zobel and A. Moffat, Inverted files for text search engines, ACM Computing Surveys, vol. 38, no. 2, 2006.
  7. S. Melnik, S. Raghavan, B. Yang, H. Garcia-Molina, Building a distributed full-text index for the Web, ACM Transactions on Information Systems, vol. 19, no. 3, pp. 217-241, 2001.
  8. Jon Kleinberg, Authoritative sources in a hyperlinked environment, Journal of the ACM, vol. 46, no. 5, pp. 604-632, 1999.
  9. Sergey Brin, Larry Page, The anatomy of a large-scale hypertextual Web search engine, Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117, 1998.
  10. Monica Bianchini, Marco Gori, Franco Scarselli, Inside PageRank, ACM Transactions on Internet Technology, vol. 5, no. 1, pp. 92-128, 2005.
  11. Pavel Berkhin, A Survey on PageRank Computing, Internet Mathematics, vol. 2, no. 1, pp. 73-120, 2005-2006.
  12. Zoltan Gyongyi, Hector Garcia-Molina, Web Spam Taxonomy, Workshop on Adversarial Information Retrieval on the Web, pp. 39-47, 2005. MUST READ
  13. Zoltan Gyongyi, Hector Garcia-Molina, Link Spam Alliances, Conference on Very Large Data Bases, pp. 517-528, 2005.
  14. Carlos Castillo and Brian D. Davison, Adversarial Web Search, Foundations and Trends in Information Retrieval, vol. 4, no. 5, pp. 377-486, 2010.
  15. Nikita Spirin and Jiawei Han, Survey on Web spam detection: Principles and algorithms, ACM SIGKDD Explorations, vol. 13, no. 2, pp. 50-64, 2011.
  16. Christopher Olston and Marc Najork, Web Crawling, Foundations and Trends in Information Retrieval, vol. 4, no. 3, pp. 175-246, 2010.


Videos

Πώς δουλεύει η μηχανή αναζήτησης της Google
Η εξέλιξη της μηχανής αναζήτησης της Google

Ωρες/ημέρες διαλέξεων

Δευτέρα 19:00-21:00 Αίθουσα Γ1 (3ος όροφος κτηρίου στην Γκλαβάνη)
Τετάρτη 08:30-10:00 Αίθουσα Γ1 (3ος όροφος κτηρίου στην Γκλαβάνη) [χωρίς διάλειμμα]


Απαιτήσεις μαθήματος:



Εξεταστέα ύλη

Τα κεφάλαια από:
(ΒΙΒΛΙΟ) Η Μέθοδος PageRank της Google: 4,5,6,7,8,9,10,11,12
(ΒΙΒΛΙΟ) INTRO TO IR: 1,2,3,4,5,6,7,8


Εκφώνηση Προγραμματιστικής Εργασίας 2 ατόμων

Η εκφώνηση βρίσκεται εδώ, και οι μέχρι στιγμής δηλωθείσες ομάδες εδώ.

1η Σειρά Προβλημάτων

Η εκφώνηση βρίσκεται εδώ.

2η Σειρά Προβλημάτων

Η εκφώνηση βρίσκεται εδώ.

3η Σειρά Προβλημάτων

Η εκφώνηση βρίσκεται εδώ.

Βαθμολογία Τελική εδώ.
Οι λύσεις των προβλημάτων της τελικής εξέτασης εδώ.

Πρόγραμμα διαλέξεων


Οι διαλέξεις του μαθήματος θα ξεκινήσουν την Δευτέρα 20/02/2017.
Εβδομάδα Ημερομηνία Αντικείμενο διάλεξης Διαφάνειες (1ο μέρος) Διαφάνειες (2ο μέρος)
1 20-22/02/2017 α) Εισαγωγή στην Ανάκτηση Πληροφορίας (Introduction to IR)
β) Βασικές έννοιες στο Αντεστραμμένο Ευρετήριο (Basic concepts in Inverted Index)
Διάλεξη 1α Διάλεξη 1β
1.5 27/02-01/03/2017 α) Αργία Καθαράς Δευτέρας
β1) Λεξικό και Λίστα των postings (Dictionary and Posting)
β2) Βελτιστοποιημένο αντεστραμμένο ευρετηρίο με Δείκτες Παράκαμψης (Skip pointers)
Διάλεξη 2β
2 04/03/2017
ΑΝΑΠΛΗΡΩΣΗ
α) Ερωτήματα φράσης (Phrase queries) Διάλεξη 2γ
3 06-08/03/2017 α) Ερωτήματα με χαρακτήρες wild-card (Wild-card queries)
β) Διόρθωση πληκτρολόγησης (Spelling correction)
Ασκήσεις στην Ανεκτική αναζήτηση (Exercices on Tolerant Retrieval)
Διάλεξη 3α Διάλεξη 3β
4 13-15/03/2017 α) Κατασκευή του Αντεστραμμένου Ευρετηρίου (Inverted Index construction)
β) Συμπίεση του Αντεστραμμένου Ευρετηρίου (Inverted Index compression)
Διάλεξη 4α Διάλεξη 4β
5 20-22/03/2017 α) Μοντέλο ανάκτησης διανυσματικού χώρου (Vector space retrieval model)
β) Αποτίμηση συστημάτων ανάκτησης πληροφορίας (Evaluation of IR systems)
Διάλεξη 5α Διάλεξη 5β
6 27-29/03/2017 α) Ασκήσεις στην συμπίεση, μοντέλο διανυσματικού χώρου (Exercices on index compression, on vector space retrieval)
β) Ασκήσεις στην αποτίμηση συστημάτων ανάκτησης πληροφορίας (Exercices on the evaluation of IR systems)
Ασκήσεις εξειδίκευσης
7 03-05/04/2017 α) Ενδιάμεση εξέταση (Midterm examination)
β) Τα μαθηματικά του Google PageRank (The mathematics of Google's PageRank)
Διάλεξη 7β
8 24-26/04/2017 α) Ερπυστές στον Παγκόσμιο Ιστό Ι (Crawlers for the Web Ι)
β) Ερπυστές στον Παγκόσμιο Ιστό ΙΙ (Crawlers for the Web ΙΙ)
Διάλεξη 8α Διάλεξη 8β
8.5 28/04/2017
ΑΝΑΠΛΗΡΩΣΗ
10:30-12:00 Αίθουσα Δ1
α) Ο PageRank ως γραμμικό σύστημα (The PageRank problem as a linear system)
β) Ασκήσεις PageRank
9 01-03/05/2017 α) Αργία 1ης Μαΐου
β1) Παράμετροι του μοντέλου PageRank (Parameters in the PageRank model)
β2) Ανάλυση ευαισθησίας του PageRank (The sensitivity of PageRank)
Διάλεξη 9β
9.5 05/05/2017
ΑΝΑΠΛΗΡΩΣΗ
10:30-12:00 Αίθουσα Δ1 (Γκλαβάνη)
Ζητήματα υλοποίησης μεγάλης κλίμακας του PageRank (Issues in large-scale implementation of PageRank)
10.5 08-10/05/2017 Οι αλγόριθμοι διάταξης HITS και SALSA (The HITS and SALSA ranking algorithms) Διάλεξη 10α Διάλεξη 10β
11.5 12-13/05/2017 α1) Ρυποδιαφήμιση στις Μηχανές Αναζήτησης (Spamming Search Engines). Διαβάστε το εξής
α2) Ρυποδιαφήμιση στον PageRank (Spamming PageRank)
β1) Ο αλγόριθμος BrowseRank (The BrowseRank ranking algorithm)
β2) Ασκήσεις
Διάλεξη 11α Διάλεξη 11β
12.5 15-17/05/2017 α) Ασκήσεις
β) Ασκήσεις
άσκηση για HITS
13 22/05/2017 α) Τελική εξέταση (Final exam)



dkatsar AT inf DOT uth DOT gr
Τελευταία ενημέρωση: Τετ 05 Ιουλίου 2017