Information Retrieval

Information Retrieval Definition

Information Retrieval bedeutet übersetzt Informations-Rückgewinnung und beschreibt das Auswerten unstrukturierter Daten, wie es zum Beispiel Suchmaschinen im Internet machen.

Das Prinzip der Information Retrievals

Die Grundlage für die Informations-Rückgewinnung ist eine große Datenmenge. Wenn nun zum Beispiel Informationen zu einem bestimmten Thema gefunden werden sollen, wird dafür die Datenmenge durchsucht. Allerdings kann die Software alleine nicht entscheiden, ob die gefundenen Informationen wichtig sind. Für die Bewertung der Daten sind die Menschen da.

Also geht es bei der Information Retrieval nicht darum, Daten neu zu erstellen, sondern die vorhandenen Daten zu verwalten.

Information Retrievals und dessen Anwendung

Heutzutage stellen Suchmaschinen die größte Art des Information Retrievals dar. Gibt man bei Google und co ein Keyword, also eine Suchanfrage ein, bekommt man binnen Millisekunden eine Ergebnisliste mit relevanten Seiten geliefert, auf denen Informationen zu dem gesuchten Begriff findet.

Falls bei Suchanfragen doch mal ein irrelevantes Suchergebnis angezeigt wird, bezeichnet man das als „False Drop“.

Ein anderes Anwendungsgebiet für Information Retrieval ist die Suche nach Literatur in digitalen Bibliotheken, bei Spamfiltern und Bildsuchmaschinen.

Implikationen

Um das richtige Ergebnis zu bekommen, muss man präzise formulieren, was man sucht und vage Anfragen sind nicht so effektiv. Das Problem dabei ist, dass man selbst meistens nicht weiß, was genau man sucht. Zudem sollte man bedenken, dass ein Wort unterschiedliche Bedeutungen haben kann, z.B. Bank, oder es Synonyme gibt, die das gleiche bedeuten.

Die verschiedenen Modelle des Information Retrievals

Wie genau die Indexierung der gefundenen Dokumente abläuft, ist unterschiedlich und es gibt verschiedene Modelle, die sich allerdings nicht ausschließen. Alle Modelle haben das Ziel, möglichst viele relevante Dokumente aufzuführen und nicht-relevante Inhalte wegzulassen.

Boolesches Modell

Mit der Hilfe von boolschen Operatoren, wie „und“, „oder“, „nicht“ usw. Werden Anfragen mit einer exakten Syntax gestellt. Zwar ist das einfach und klar, allerdings hat es den Nachteil, dass keine partiellen Treffer möglich sind. Aus diesem Grund ist das Ergebnis kein Ranking, sondern entweder ist das Dokument relevant, oder nicht.

Vektorraum Modell

Dieses Modell wird oft von Suchmaschinen verwendet, da es sowohl das Ranking, als auch die Ähnlichkeitssuche berücksichtigt. Hierbei wird ein Dokument in einen Vektor transformiert und kann so mit anderen Dokumenten und der Suchanfrage verglichen werden. Die Reihenfolge der Vektoren hängt von der Ähnlichkeit zur Suchanfrage ab.

Der Nachteil bei diesem Modell im Vergleich zum boolschen Modell, ist, dass man keine boolschen Operatoren verwenden und auch keine Begriffe ausschließen kann.

Probabilistisches Modell

Hier wird zu jedem Dokument ein Wahrscheinlichkeitswert ermittelt, der feststellt, ob es zu den relevanten Ergebnissen gehört. Hier spielt die Anzahl der Keywords im Text eine große Rolle. Als Ergebnis bekommt man in den Suchergebnissen eine Liste an Dokumenten, die nach er Wahrscheinlichkeit, also nach Anzahl der Keywords, geordnet ist. Dieses Modell wird in der Praxis kaum angewendet.

Die Bedeutung für SEO

Eines der Hauptanwendungsgebiete stellt die Suchmaschine dar, da dessen Funktion auf dem Prinzip der Information Retrieval basiert. Google zum Beispiel nutzt dafür den sogenannten PageRank, der auch ein Modell der Informationsrückgewinnung ist. Für SEO Experten und SEO Agenturen ist das PageRank-Modell von großer Bedeutung, auch wenn für die der Begriff „Information Retrieval“ nicht im alltäglich Gebrauch ist.

Quellen:

https://de.ryte.com/wiki/Information_Retrieval
https://www.xovi.de/wiki/Information_Retrieval