Popis: |
Die Identifizierung und Validierung von Dateiformaten beim Ingest in ein Langzeitarchiv funktioniert gut für Files aus Digitalisierungsprojekten mit wenigen, gut dokumentierten Formaten. Probleme können oft im eigenen Haus zurückgemeldet werden, um z.B. fehlerhafte Files zu ersetzen. Forschungsdaten stammen dagegen von individuellen Produzentinnen und liegen in verschiedensten Formaten vor, die oft nicht ausreichend dokumentiert sind. Diese Ausgangslage wirft Fragen auf: Zu welchem Zeitpunkt sollen Forschende eine Rückmeldung zum Ergebnis der Formatidentifizierung und -validierung erhalten, damit sie eine angemessene Handlungsoption haben? Inwiefern haben sie überhaupt Interesse und Möglichkeit, auf eine Warnung zu reagieren? Sind Files korrupt und nicht nutzbar, müssen sie offensichtlich ersetzt werden. Handelt es sich dagegen um Validierungsprobleme, die die heutige Nutzbarkeit nicht beeinträchtigen, ist der Handlungsbedarf schwer zu erklären, der den Zusatzaufwand rechtfertigen müsste. Erfolgt die Formatvalidierung erst beim Ingest, ist der Austausch von Files durch die Datenproduzentin zudem bereits erschwert, da das Langzeitarchiv dies - korrekterweise - nur beschränkt zulässt. Brauchen interessierte Forschende also bereits in ihrer Arbeitsumgebung Werkzeuge, um Dateien vor der Langzeitarchivierung zu überprüfen? Ist die Zwischenschaltung eines Arbeitsrepositoriums“ nötig, das eine Formatvalidierung vornimmt und interessierten Forschenden eine Rückmeldung gibt? Liefern die verfügbaren Tools ausreichend klare Angaben zum Problem und zur möglichen Behebung? Wo dies nicht der Fall ist oder das Interesse fehlt, ist nur eine Bitstromerhaltung realistisch und in der Tat sind nicht wenige Forschende der Meinung, dass es ohnehin ihre Aufgabe sein wird, Daten bei Bedarf wieder nutzbar zu machen. Der Vortrag legt die Problematik anhand konkreter Workflows dar und diskutiert mögliche Lösungsansätze. |