Die Transformation des menschlichen Wissen in strukturierte Daten – soziale Dimensionen von Wikidata

FAU own research funding: EFI / IZKF / EAM ...


Start date : 01.10.2017

End date : 31.05.2018


Project details

Short description

Einleitung: die soziale „Gemachtheit“ von Wikidata

Wikidata ist eine offene Datenbank mit dem Ziel, sämtliches Wissen in strukturierter Form zusammenzustellen. Das angestrebte Forschungsprojekt hat den Anspruch, soziale Ungleichheiten und Voreingenommenheiten von Wikidata zu untersuchen.

Wikidata ist Teil der „Wikimedia Foundation“, die verschiedene Projekte zur Sammlung freier Inhalte (darunter die Online-Enzyklopädie Wikipedia) unterstützt. Obwohl die Umsetzung von Wikidata schon seit 2004 diskutiert worden ist, wurde die Datenbank erst 2012 offiziell gestartet und zur Bearbeitung frei gegeben. Mit seinem Ansatz, Wissen durch strukturierte und verknüpfte Daten verfügbar zu machen und durch Verlinkungen mit anderen Wissensbeständen zu verbinden, ist Wikidata zu einem wichtigen Baustein in der Architektur der Informations- und Netzwerkgesellschaft geworden (siehe unten). Nicht zuletzt im Angesicht der wachsenden Größe von Wikidata (aktuell haben über 17.000 Nutzer mehr als 25 Millionen Wissenselemente beigetragen) ist es verwunderlich, dass das Projekt bislang weder im gesellschaftlichen Diskurs, noch in der (sozial)wissenschaftlichen Reflektion ausreichend thematisiert worden ist. Während anderen kollaborativen Datenbankprojekten, wie Wikipedia, Flickr oder OpenStreetMap bereits eine hohe akademische Aufmerksamkeit zuteilwurde, ist Wikidata bislang weitgehend unterforscht geblieben. So liefert die wissenschaftliche Suchmaschine „Scopus“ zum Zeitpunkt der Antragstellung lediglich 68 Treffer zu Wikidata, bei denen es sich vorwiegend um informationswissenschaftliche Konferenzbeiträge handelt (zum Vergleich: der Suchbegriff „Wikipedia“ liefert 6.651 Treffer, „Flickr“ liefert  2.385 Ergebnisse und „OpenStreetMap“ kommt immerhin auf 638 Einträge). Das geplante Forschungsprojekt hat das Ziel, durch eine kritisch-sozialwissenschaftliche Auseinandersetzung mit Wikidata zur Schließung dieser Forschungslücke beizutragen. Das Projekt knüpft an generelle Debatten um den digitalem Wandel, Fragen einer zunehmenden datafication von Gesellschaft und den Stellenwert von big data an, indem es die soziale „Gemachtheit“ von Wikidata herausarbeiten will.

Um diesen Fragen nachzugehen, baut das Forschungsprojekt in methodischer Hinsicht auf der abgeschlossenen Dissertation mit dem Titel „Soziale Dimensionen von Web 2.0-Kartographien – OpenStreetMap und Wikimapia in Israel und Palästina“ auf. Hier wurde ein mixed methods-Ansatz verfolgt, bei dem qualitative Dokumentenanalysen und Interviews mit community-MitgliederInnen einerseits mit quantitativen Datenbankauswertungen, wie explorativen data mining-Strategien, statistischen Methoden, räumlichen Analysen mit geographischen Informationssystemen (GIS) und Geovisualilsierungen andererseits verknüpft wurden. Während das Dissertationsprojekt soziale Dimensionen von kartographischen Datenbanken erforscht hat, handelt es sich bei Wikidata jedoch um eine weitaus offenere und umfassendere Wissenssammlung.

 

Wie funktioniert Wikidata?

Wikidata sammelt Wissen in Form von strukturierten Daten, die von Menschen und Maschinen gleichermaßen erstellt und gelesen werden können. In Wikidata können Wissensobjekte (items) zu jeglichen Phänomenen hinterlegt werden, seien es Fakten zu materiellen Erscheinungen, wie dem Drucker (wikidata.org/wiki/Q82) oder dem „Mount Everest“ (wikidata.org/wiki/Q513) oder abstrakte Konzepte, wie Freundschaft (wikidata.org/wiki/Q491) oder Rassismus (wikidata.org/wiki/Q8461). Neben einer kurzen Beschreibung werden Wissensobjekte in Wikidata  mit einer unbegrenzten Anzahl von Aussagen (statements) beschrieben. Jede dieser Aussagen besteht aus einer Behauptung und möglichst einer Quelle, die diese Behauptung stützt. Das Wissenselement „Erlangen“ (wikidata.org/ wiki/Q3126) wird beispielsweise beschrieben als „large city in Bavaria“ und ist mit einer großen Anzahl von statements versehen, wie der Einwohnerzahl zu verschiedenen Zeitpunkten, einer Auflistung aller Bürgermeister mit den jeweiligen Amtsperioden, der Information, dass das Autokennzeichen der Stadt „ER“ lautet und vielen weiteren Aussagen. Ein weiterer zentraler Aspekt der Datenstruktur von Wikidata ist die Verknüpfung der items untereinander. Wenn beispielsweise Erlangen als Teil Bayerns beschrieben wird, verweist dieses statement auf das item „Bayern“, was wiederum ein Teil von „Deutschland“ ist und so weiter. Der aktuelle Bürgermeister „Florian Janik“  wird ebenfalls durch ein eigenes Wissenselement repräsentiert, dass ihn als Mensch, männlich, Politiker u.v.m. beschreibt (wikidata.org/wiki/ Q15987145).

Hinter der Datenbank von Wikidata steht eine community aus freiwilligen Beitragenden, die die Daten kontinuierlich ergänzen und pflegen. Die Datenbank wiederum wird unter einer freien Lizenz zur Verfügung gestellt und kann von jedermann über offene Schnittstellen (APIs) abgefragt, oder direkt vollständig als so genanntes dump heruntergeladen und in eine lokale Datenbank überführt werden.

Das Hauptanliegen von Wikidata war zunächst, die Wikipedia durch eine Datenbank mit strukturiertem Wissen zu unterstützen. Die Nutzungspotentiale von Wikidata gehen jedoch weit darüber hinaus. Aus den Daten können zum Beispiel sehr komplexe Informationen generiert werden, wie etwa eine Liste der 20 größten Städte Europas mit weiblichen Bürgermeisterinnen. Wikidata forciert zudem die Verlinkung der items zu entsprechenden Einträgen in anderen Dokumentsammlungen wie  Datenbanken, Archiven oder Bibliotheken und fungiert somit als eine Schnittstelle, die unterschiedlichste Wissensbestände miteinander verbindet. Google bezieht für seinen knowledge graph, also die eingeblendeten Infoboxen zu bestimmten Suchanfragen, teilweise Daten aus Wikidata. Im Jahr 2015 hat Google sogar das eigene Konkurrenzprojekt „Freebase “ eingestellt und die darin gesammelten Daten Wikidata überlassen, mit dem Eingeständnis, dass Wikidata ein nachhaltigeres Konzept für eine solches Datenbankprojekt habe. Wikidata ist also zu einem Teil der als „semantic web“ bezeichneten digitalen Infrastruktur geworden, die Wissenselemente miteinander verknüpft und in verschiedensten Kontexten verfügbar macht.

 

Forschungsziele und Projektdurchführung

Ein nicht zuletzt durch Beiträge aus der Sozial- und Kulturgeographie geprägtes Forschungsfeld hat wiederholt darauf hingewiesen, dass durch crowdsourcing erzeugte Daten in hohem Maße durch gesellschaftliche Ungleichheiten geprägt sind.  Dies gilt sowohl für sozio-demographische Zusammensetzung der communities als auch für die Daten selber, die häufig geographisch, linguistisch und inhaltlich verzerrt sind. So liegt beispielsweise in Geodatenbanken wie OpenStreetMap deutlich mehr Datenmaterial zu Europa und Nordamerika vor als zu periphereren Regionen; die Wikipedia-Versionen westlicher Sprachgemeinschaften sind weitaus umfangreicher als andere und beinhalten auch in anderen Sprachen oft mehr Wissen über die „Westliche Welt“ als über andere Regionen. Während also bereits viele Erkenntnisse zur gesellschaftlichen Strukturierung anderer großer crowdsourcing-Projekte vorliegen, wissen wir bislang kaum etwas über die sozialen Dimensionen von Wikidata: wie setzen sich die Beitragenden zusammen? Welche Hierarchien, Konflikte und Machtverhältnisse strukturieren diese community? Welche Muster von thematischen, räumlichen, linguistischen und zeitlichen Ungleichheiten schreiben sich in die Daten ein? Darüber hinaus wirft Wikidata auch die grundsätzliche Frage zu den gesellschaftlichen Implikationen einer datafication auf. Was bedeutet es, wenn Wissen radikal abstrahiert und zu dekontextualisierten Fakten und semantischen Verknüpfungen transformiert wird?

Im Forschungsprojekt sollen solche gesellschaftlichen Dimensionen von Wikidata durch ein mixed-methods-Forschungsdesign untersucht werden. Die Daten von Wikidata werden anhand von data mining, Statistik und räumlichen GIS-Analysen erforscht. Dabei werden auch neue Abfragen und Analysemethoden entwickelt. Diese Verfahren werden mit qualitativen Interviews von community-Mitgliedern und mit Auswertungen von Diskussionen auf online-Foren oder Mailing-Listen zusammengeführt. Diese Verbindung unterschiedlicher empirischer Zugänge, so die Erwartung, generiert einen gleichermaßen vielschichtigen und kontextsensiblen Materialkorpus zu den sozialen Dimensionen von Wikidata.

Mit seinem Fokus auf gesellschaftliche Aspekte des digitalen Wandels und mit der Entwicklung neuer Analyseverfahren für digitale Daten steht das Projekt in einer Linie mit dem neuen FAU-Forschungsschwerpunkt „Elektronik, Daten-Analytik und digitale Transformation“ und leistet somit einen vielversprechenden Beitrag zur Profilbildung der FAU Erlangen-Nürnberg.

Das Projekt wird in enger Zusammenarbeit mit dem Erlanger Lehrstuhl für Kulturgeographie und dem neuen „GeoDatenZentrum Erlangen“ geplant und durchgeführt. Zudem bestehen zahlreiche Anknüpfungspunkte zum „Interdisziplinären Zentrum für Digitale Geistes- und Kulturwissenschaften“.

In der beantragten Förderperiode von Oktober 2017 bis Mai 2018 soll zunächst eine explorative Studie durchgeführt werden, die auf ersten Datenbankanalysen beruht, sowie auf Interviews mit MitarbeiterInnen der Sektion „Wikimedia Deutschland“ mit Sitz in Berlin, die federführend an der Entwicklung von Wikidata beteiligt ist.

Auf Basis dieser ersten empirischen Arbeiten wird der Antragsteller zum einen bis Januar 2018 einen Artikel für die Zeitschrift „Big Data and Society“ verfassen. Zum anderen soll auf Grundlage dieser Erfahrungen ein Projektantrag auf eine Sachmittelförderung der Deutschen Forschungsgemeinschaft entwickelt werden (angestrebter Termin zur Einreichung ist Mai 2018, geplanter Projektbeginn ist Januar 2019).

Involved:

Contributing FAU Organisations:

Research Areas