taz.de -- 10 Jahre Wikipedia: Wie das Wissen System bekommt

Wikipedia ist nicht nur ein Nachschlagewerk, sondern auch eine Datenbank der Informationen. Mit semantischen Techniken versuchen Forscher den Wissensschatz zu heben.
Bild: Wissen im Auge des Betrachters: Wikipedia.

Wie viele Flüsse gibt es in Europa? Wie viele deutsche Städte werden von Bürgermeisterinnen regiert? Es gibt Fragen, die selbst die Online-Enzyklopädie [1][Wikipedia] nicht beantworten kann. In den letzten zehn Jahren hat ein Heer von Freiwilligen Informationen zu fast allem gesammelt – von Politiker-Biografien über technische Standards bis hin zu detaillierten Beschreibungen der Figuren in der Fernsehserie "Die Simpsons".

Seit 2007 versuchen Mitarbeiter der Universität Leipzig, der Freien Universität Berlin und des US-Unternehmens OpenLink Software Ordnung in das Wirrwarr zu bringen. Mit dem Projekt DBpedia extrahieren sie das Faktenwissen aus dem Freiwilligen-Projekt und speisen es in eine gewaltige Datenbank.

Mehr als eine Milliarde Informationen haben sie in den letzten drei Jahren zusammengetragen und aufbereitet: Wer wurde wann geboren? In welcher Stadt? Wie viele Einwohner wohnen in dieser Stadt? Und welcher Fluss fließt durch diese Stadt? Fakten, die in unzähligen verschiedenen Wikipedia-Artikeln zerstreut sind, werden bei DBPedia neu verbunden.

"Es ist sehr nützlich, wenn man auf die Fakten direkt zugreifen kann und sie nicht erst aus dem Text heraussuchen muss", erklärt Dr. Sören Auer von der Universität Leipzig. Mit der DBPedia wollten die Forscher zeigen, wie viele Informationen in der Wikipedia stecken und wie man sie besser verknüpfen kann.

Computer lesen genau

Während sich die unzähligen freiwilligen Autoren der Wikipedia in den umstrittenen Artikeln um jede Formulierung feilschen und regelrechte Editierkriege führen, interessieren sich die Forscher für das reine Faktenwissen. Eine Quelle sind die Info-Boxen, die in den vergangenen Jahren in immer mehr Artikeln auftauchen.

Hier verzeichnen die Autoren Einwohnerzahlen, Geburtsdaten, Erscheinungsdaten - jeder Fachbereich hat seine eigenen Infoboxen. Die Qualität der Daten sei in der Regel sehr gut. "Manchmal gibt es Probleme, wenn zum Beispiel in einer Infobox eine Einheit fehlt", erklärt Auer. Das Problem: anders als menschliche Leser kann die Datenbank solche formalen Inkonsistenzen nicht selbständig korrigieren.

DBpedia soll aber nicht nur eine bessere Suchfunktion für Wikipedia liefern. Richtig spannend werden die Datensätze, wenn sie mit anderen Datenquellen kombiniert werden. So nutzt die BBC die DBPedia, um ihr Fernsehprogramm mit Informationen anzureichern. Auch der Nachrichtenkonzern Thomson Reuters nutzt die freie Datenbank schon, um seine Meldungen aufzupeppen. "DBpedia soll zu einem Kristallisationepunkt werden", sagt Auer. Mit der Datenmacht der Wikipedia soll das "Semantic Web", das Netz der Datenbanken vorangetrieben werden.

Vom Nachschlagewerk zur Antwortmaschine

Das semantische Netz ist seit über einem Jahrzehnt eines der Lieblingsprojekte von Web-Pionieren wie Tim Berners-Lee, dem Begründer des World Wide Web: möglichst viele Informationen im Netz sollen maschinenlesbar aufbereitet werden, um den Menschen wieder mehr Kontrolle über die gewaltigen Datenmengen im Netz zu geben.

Auch Wikipedianer sind von der Idee fasziniert. "Wikipedia ist heute noch an viel zu vielen Stellen an Kompromisse der Print-Zeit gebunden", sagt Mathias Schindler, Projektmanager beim Verein Wikimedia Deutschland. Zum Beispiel wird das Wissen bei Wikipedia immer noch in einzelne Artikel aufgeteilt. Mit Hilfe semantischer Techniken könnte die Online-Enzyklopädie in eine Art Frage- Antwort-Maschine verwandelt werden, die dem Leser zielgenau die Informationen liefert, die er braucht.

Mit dem Projekt [2][Semantic MediaWiki] soll die Wikipedia selbst mehr in eine Datenbank verwandelt werden - zudem könnte die Wikipedia automatisch andere Datenquellen wie die offiziellen Einwohnerzahlen einer Stadt automatisch integrieren. Ob und wann das Projekt jedoch in die Wikipedia integriert wird, steht noch nicht fest. Dass die Datenbankabfragen Wikipedia-Artikel komplett ersetzen, ist nicht zu befürchten: das Vokabular der Datenbanken ist noch zu grob, die Wirklichkeit zu vielfältig und uneindeutig, um sie in ein rigides Datenmuster zu pressen.

14 Jan 2011

LINKS

[1] http://de.wikipedia.org
[2] http://www.semantic-mediawiki.org

AUTOREN

Torsten Kleinz

TAGS

Internet

ARTIKEL ZUM THEMA

Kolumne Nullen und Einsen: Der vergessene Gopherspace

Alle feiern den 25. Geburtstag des World Wide Web, denn den Gewinnern der Geschichte gratuliert man gerne. Und was ist mit den Verlierern?

Wikipedia überaltert: Wissen ohne Nachwuchs

Das Wissen der Welt soll gesammelt werden, aber sammeln tun nur wenige: Wikipedia hat ein Nachwuchsproblem. Langjährige Autoren machen Neulingen teilweise das Leben schwer.

Streit auf Wikipedia: Geguttenbergte Werke

Plagiat oder Remix? Was im Fall Guttenberg zum Politikum wurde, sorgt in der Online-Enzyklopädie Wikipedia immer wieder für Streit. Nun hat ein Buchautor Strafanzeige gestellt.

Frauenquote bei Wikipedia: Wissen für alle, aber nur von Männern

3,5 Millionen Artikel in 250 Sprachen - Wikipedia hat viel erreicht in zehn Jahren. Allerdings ohne Frauen. Nur 13 Prozent der aktiv Schreibenden sind weiblich. Das soll sich ändern.

Misstrauensvotum gegen Wikimedia-Vorstand: Konzern oder Community?

Stress in Wikiland. Der Vorstand von Wikimedia Deutschland steht in der Kritik. Auslöser ist die Gründung einer Tochtergesellschaft für die Spendenverwaltung.

Kommentar 10 Jahre Wikipedia: Kostenlos und ohne Werbung

Das Online-Lexikon Wikipedia zeigt, dass es sehr wohl funktionieren kann, auf das Wissen und die Intelligenz der Web-User zusetzen.

Ringen um einen Lexikon-Eintrag: Wer bestimmt das Wikipedia-Wissen?

Der Wikipedia-Artikel über den „Neoliberalismus“ ist einer der umkämpftesten in der Online-Enzyklopädie. Es wird ergänzt, geändert und geätzt. Mitten im Edit War: ein Lokalpolitiker von der FDP

Wikipedia sammelt Spenden: "In your face, brockhaus!"

Kurz vorm 10. Geburtstag hat die Wikipedia ihren jährlichen Spendenaufruf beendet. 12 Millionen Euro kamen zusammen. Was passiert jetzt mit dem Geld?

10 Jahre Wikipedia: "Triumphgeheul wäre fehl am Platz"

Pavel Richter ist Geschäftsführer des Fördervereins Wikimedia Deutschland. Im Interview spricht er über Technikprobleme, Betriebsblindheit und die Macht des Wissens.