Processing Large‐ScaleArchival Records: The Case of the Swiss Parliamentary Records

Autor: Salamanca, Luis, Brandenberger, Laurence, Gasser, Lilian, Schlosser, Sophia, Balode, Marta, Jung, Vincent, Perez‐Cruz, Fernando, Schweitzer, Frank
Zdroj: Schweizerische Zeitschrift für Politikwissenschaft = Swiss Political Science Review; June 2024, Vol. 30 Issue: 2 p140-153, 14p
Abstrakt: Legislative bodies generally keep records of their activities. While the digitization wave spurred the availability of archival documents, their processing remains a challenge. The Swiss parliamentary records are no exception. In this paper we present a supervised pipeline for extracting and structuring of content of archival records. Our pipeline consists of five steps, starting with an assessment of which elements need extraction and how they relate to each other. Step two involves general pre‐processing to prepare the PDF documents and is followed by an element classification step. Step four involves post‐processing and the final step is a validation of the extracted information. With our supervised approach, we are able to process over 200,000 pages of Swiss parliamentary records (spanning the years 1891–1995), a feat that would exceed the budget of most projects using manual curation. We discuss validation of individual steps and offer guidance to researchers engaged in similar data processing efforts. Die gesetzgebenden Organe führen im Allgemeinen Aufzeichnungen über ihre Tätigkeit. Obwohl die Digitalisierungswelle die Verfügbarkeit von Archivdokumenten gefördert hat, bleibt ihre Bearbeitung eine Herausforderung. Die Schweizer Parlamentsakten sind keine Ausnahme. In diesem Beitrag stellen wir eine supervised Pipeline für die Extraktion und Strukturierung von Inhalten aus solchen Archivdokumenten vor. Unsere Pipeline besteht aus fünf Schritten, beginnend mit einem Assessment, welche Elemente extrahiert werden müssen und wie sie zueinander in Beziehung stehen. Der zweite Schritt umfasst eine allgemeines pre‐processing zur Vorbereitung der PDF‐Dokumente, gefolgt von einem Schritt zur Elementklassifizierung. Der vierte Schritt umfasst das post‐processing und der letzte Schritt ist eine Validierung der extrahierten Informationen. Mit unserem supervised Ansatz sind wir in der Lage, über 200.000 Seiten Schweizer Parlamentsakten (aus den Jahren 1891–1995) zu verarbeiten, eine Leistung, die das Budget der meisten Projekte mit manueller Kuration übersteigen würde. Wir erörtern die Validierung der einzelnen Schritte und bieten Forschenden, die sich mit ähnlichen Datenverarbeitungsprozessen beschäftigen, eine Anleitung. Les organes législatifs conservent généralement des archives de leurs activités. Si la vague de numérisation a stimulé la disponibilité des documents d'archives, leur traitement reste un défi. Les archives parlementaires suisses ne font pas exception. Dans cet article, nous présentons un pipeline supervisé pour l'extraction et la structuration du contenu de ces documents d'archives. Notre pipeline se compose de cinq étapes, commençant par une évaluation des éléments à extraire et de leurs relations entre eux. La deuxième étape consiste en un prétraitement général pour préparer les documents PDF et est suivie d'une étape de classification des éléments. La quatrième étape concerne le post‐traitement et la dernière étape est une validation des informations extraites. Grâce à notre approche supervisée, nous sommes en mesure de traiter plus de 200 000 pages de documents parlementaires suisses (couvrant les années 1891–1995), un exploit qui dépasserait le budget de la plupart des projets utilisant la curation manuelle. Nous discutons de la validation des étapes individuelles et offrons des conseils aux chercheurs engagés dans des efforts similaires de traitement des données. Gli organi legislativi generalmente conservano i documenti delle loro attività. Sebbene la digitalizzazione abbia favorito la disponibilità di documenti d’archivio, il loro trattamento rimane una sfida. I documenti parlamentari svizzeri non fanno eccezione. In questo lavoro presentiamo un canale sorvegliato (“supervised pipeline”) per l’estrazione e la strutturazione del contenuto di tali documenti d’archivio. Il nostro canale consiste in cinque fasi, di cui la prima comporta una valutazione degli elementi da estrarre e delle loro relazioni reciproche. La seconda fase prevede una pre‐elaborazione generale per la preparazione di documenti PDF ed è seguita da una fase di classificazione degli elementi. La quarta fase riguarda la post‐elaborazione, e la fase finale è la validazione delle informazioni estratte. Con questo approccio siamo in grado di elaborare oltre 200.000 pagine di documenti parlamentari svizzeri (che coprono gli anni 1891‐1995), un’impresa che supererebbe il budget della maggior parte dei progetti che utilizzano la gestione manuale. Discutiamo la validazione delle singole fasi e offriamo una guida ai ricercatori e alle ricercatrici impegnate in questo tipo di elaborazione dei dati.
Databáze: Supplemental Index