Theadok ist derzeit in der Beta-Version. Das bedeutet, dass sowohl bei den Funktionen, der Darstellung als auch den Daten noch Anpassungen nötig sind. Für Hinweise auf fehlerhafte Daten oder für Vorschläge um Theadok besser nutzbar zu machen, freuen wir uns über eine Nachricht an theadok.tfm@univie.ac.at

Daten

Icon: Daten

Der Datenbestand umfasst derzeit an die 30.000 Inszenierungen aus den Jahren 1945-2001, die entweder produziert oder aufgeführt wurden in Österreich.
Diese Daten wurden überführt aus der Vorgängerdatenbank OpenTheadok (die auf Basis von OpenBiblio erstellt und gewartet wurde von Franz Reinisch, LIS Reinisch OG), auch erhältlich als CD "50 Jahre Theater in Österreich" (ISBN: 3-902433-50-7).

Im Zuge der Konvertierung wurde ein neues Datenmodell entworfen. Anstatt Textfelder sind es nun Entitäten, auf die sich Daten beziehen. Damit ist die Basis gelegt für eine zukünftige Linked Open Data-Ausrichtung von Theadok.

Jede Entität verfügt über einen Identifier, so dass diese eindeutig referenziert werden kann. Zugleich beziehen sich alle Daten in der Theadok auf die jeweilige Entität. Folgende Entitäten sind in Theadok abgebildet:

  • Inszenierungen
  • Vorlagen
  • Personen
  • Bühnen
  • Ensembles
  • Festivals

Diese Entitäten können über Listen eingesehen werden. Zugleich kann nach dem Titel der Entitäten in der Suchmaske recherchiert werden.

Alle Entitäten verfügen über weitere Felder, in denen detailliertere Informationen vermerkt sind. So sind bei Personen der Vor- und der Nachname erfasst, sowie - wenn vorhanden und erkannt - ein Link zum entsprechenden Eintrag in der Gemeinsamen Normdatei (GND) der Deutschen Nationalbibliothek. Für manche dieser Felder wurden Vokabularien erstellt, die eine Einheitlichkeit in der Beschreibung von Entitäten gewährleisten. Dies betrifft unter anderem geographische Referenzen, wie z.B. Wien. Das Vokabular der Orte beinhaltet - wenn vorhanden und erkannt - einen Link zur Normdatei von GeoNames.

Hier eine vereinfachte, schematische Übersicht wie die Entitäten zueinander in Beziehung stehen:

Simplified data model of Theadok

Wir sind aktuell damit beschäftigt, eine Ontologie zu erstellen, mit der das Datenmodell maschinenlesbar abgebildet wird. Auch wird eine umfangreiche Dokumentation folgen, sowie die Vokabularien veröffentlicht. Derzeit gilt es noch das Datenmodell zu optimieren, insbesondere auch aus den Erfahrungen, die in der Betaphase von Theadok gewonnen werden. Beispielsweise gibt es den Wunsch, auch Darstellungsrollen als Entitäten abzubilden, woran gerade gearbeitet wird.

Es sind zudem weitere Bemühungen im Gange, die Datenqualität zu steigern, das Teilen und das Auswerten von Daten zu erleichtern, sowie neue Daten zu generieren bzw. Theadok um weitere Datensammlungen zu Inszenierungen zu erweitern.

Im Zuge der Umstellung auf das neue Datenmodell, wurde für das Erstellen der Entitäten eine semi-automatische Named-entity recognition (Eigennamenerkennung) angewandt. Dabei können sowohl Tippfehler, als auch Namen die häufig und in anderen Kontexten in Verwendung sind sowie konzeptionelle Fehler im Erkennungsprogramm dazu führen, dass Entitäten falsch oder mehrfach erzeugt werden. Um die Datenqualität zu steigern, sind wir derzeit bemüht, diese Fehler zu beheben. Dabei sind wir aufgrund der Menge an Daten darauf angewiesen, auf Fehler hingewiesen zu werden. Wir freuen uns über entsprechende Hinweise entweder per E-Mail oder über das Kontaktformular.

 

Bekannte Probleme bei den Daten (werden laufend ergänzt und abgearbeitet)

Bühnen falsch erkannt

  • Mehrere Stadttheater ohne anhängende Ortsbezeichnung als "Zürcher Stadttheater" bezeichnet
  • Mehrere Landestheater ohne anhängende Ortsbezeichnung als "Hessisches Landestheater" bezeichnet

Personen falsch erkannt

  • Karel Kraus => teilweise Karl Kraus
  • Bei Personen mit einem GND-Identifier wurden Geburts- und Sterbedaten aus der GND übernommen. Wenn in der GND nur ein Jahr angegeben wurde, wird dies in Theadok falsch aufgelöst, indem für Tag und Monat der 1.1. angegeben wird, zB wenn die GND nur das Geburtsjahr 1950 angegeben hat, so wird in Theadok daraus 1.1.1950. Falls bei Geburts- und Sterbedaten der 1.1. auftaucht, ist es mit hoher Wahrscheinlichkeit ein Hinweis darauf, dass nur das Geburts- bzw. Sterbejahr bekannt ist.

Generell noch mehrere Doppeleinträge bei allen Entitäten, sowie nicht erkannte oder falsch zugeordnete Orte.

(Stand: 2018-07-06, wobei viele kleine Datenfehler derzeit noch nicht in dieser Liste auftauchen)