Normalization of historical texts with neural network models
Autor: | Marcel Bollmann |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2018 |
Předmět: | |
Zdroj: | Ruhr-Universität Bochum Marcel Bollmann |
Popis: | Historische Dokumente werden zunehmend in digitalisierter Form verfügbar gemacht. Häufig sind sie jedoch durch eine Fülle von Schreibvarianten gekennzeichnet, welche die Anwendung computerlinguistischer Methoden (bzw. NLP-Tools) schwierig gestalten. Ein häufig verwendeter Ansatz ist die Normalisierung dieser Varianten auf moderne Schreibweisen. Die vorliegende Arbeit untersucht die Anwendung neuronaler Encoder-Decoder-Modelle für die automatische Normalisierung historischer Sprachdaten. In einer umfassenden Auswertung auf historischen Korpora in acht verschiedenen Sprachen zeigt sich, dass das verwendete Modell — trotz zahlreicher Anpassungen und Verbesserungen wie z.B. Beam Search und Ensembling — meist eine schlechtere Normalisierungs-Genauigkeit hat als etablierte Methoden, die auf statistischer maschineller Übersetzung beruhen. With the increasing availability of digitized resources of historical documents, interest in effective natural language processing (NLP) for these documents is on the rise. However, the abundance of variant spellings makes them challenging to work with both for human users and for NLP tools. Normalization to contemporary spelling is often proposed as a solution. This work investigates the suitability of a neural encoder-decoder architecture for automatic normalization of historical language data. The neural network is extensively tuned and improved by the application of techniques such as beam search and model ensembling. Nonetheless, in a large-scale evaluation on datasets from eight different languages, the proposed model is usually outperformed by a previously established method using character-based statistical machine translation. |
Databáze: | OpenAIRE |
Externí odkaz: |