Přispěvatelé: |
Trilcke, Peer, Busch, Anna, Helling, Patrick, Plum, Alistair, Wolter, Vivien, Weis, Joëlle, Chudoba, Hendrik |
Popis: |
Die Daten des Google-Ngramm-Korpus sowie deren Visualisierung durch den Viewer stellen eine der wichtigsten 'Big Data'-Anwendungen im Bereich der Kultur dar. Trotz der Warnungen vor den Einschränkungen dieser Daten nicht zuletzt aus der DH Community wird die Anwendung oft genutzt, auch weil die meisten Ergebnisse Intuitionen über kulturelle Prozesse bestätigen. Der vorliegende Beitrag zeigt, dass das deutsche Korpus von 2019 jenseits der allgemein beschriebenen Probleme durch die Hinzufügung spezifischer Datensets so korrumpiert ist, dass es spätestens nach dem Jahr 2000 keine brauchbaren Informationen liefert. Der Vortrag beschreibt wie diese Verzerrungen aussehen und analysiert auch in zwei Fällen, um welche verzerrenden Datensets es sich wahrscheinlich handelt: Retrodigitalisierungen, die durch die Verlage falsch datiert sind, und die digitalen Publikationen eines sehr umsatzstarken 'vanity publishers'. Allerdings können auch diese beiden Faktoren noch nicht alle Beobachtungen erklären. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture. |