La transcription du linguiste au miroir de l’intelligence artificielle : réflexions à partir de la transcription phonémique automatique
Autor: | Michaud, Alexis, Adams, Oliver, Cox, Christopher, Guillaume, Séverine, Wisniewski, Guillaume, Galliot, Benjamin |
---|---|
Přispěvatelé: | Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Miner & Kasch, University of Alberta, Laboratoire de Linguistique Formelle (LLF UMR7110), Centre National de la Recherche Scientifique (CNRS)-Université de Paris (UP), Institut des langues rares, ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010), ANR-19-CE38-0015,CLD2025,La documentation computationnelle des langues à l'horizon 2025(2019) |
Jazyk: | francouzština |
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | Bulletin de la Société de Linguistique de Paris Bulletin de la Société de Linguistique de Paris, Peeters Publishers, 2020, 116 (1) |
ISSN: | 0037-9069 1783-1385 |
Popis: | Accepté pour publication dans le Bulletin de la Société de Linguistique de Paris (à paraître vers janvier-février 2021); International audience; Automatic speech recognition systems now achieve high levels of accuracy with relatively small amounts of training data: on the order two to three hours of transcribed speech, instead of tens of hours for previous tools. Beyond the practical usefulness of these technological advances for linguistic documentation tasks, use of automatic transcription also yields some linguistic insights. Acoustic models are built on the basis of the linguist’s transcriptions, and thus encapsulate linguistic hypotheses and assumptions. To what extent can acoustic models be examined in turn by the linguist? What can we learn from this renewed confrontation with the acoustic signal? The present study is based on examples from the Native language (Sino-Tibetan family) to illustrate how error analysis allows a renewed confrontation with the data. Among other benefits, error analysis allows for a renewed exploration of phonetic detail: examining the output of phonemic transcription software compared with spectrographic and aural evidence. Some reflections on experiments of automatic transcription of the Tsuut'ina language (Dene family) are also presented.; Les systèmes de reconnaissance automatique de la parole atteignent désormais des degrés de précision élevés sur la base d'un corpus d'entraînement limité à deux ou trois heures d'enregistrements transcrits (pour un système mono-locuteur), au lieu de dizaines d'heures pour les outils antérieurs. Au-delà de l'intérêt pratique que présentent ces avancées technologiques pour les tâches de documentation linguistique, se pose la question de leur apport pour la réflexion du linguiste. En effet, le logiciel réalise son entraînement sur la base de transcriptions fournies en entrée par le linguiste, transcriptions qui reposent sur un ensemble d'hypothèses plus ou moins élaborées, et plus ou moins explicites. Le modèle acoustique, décalqué (par des méthodes statistiques) de l'écrit du linguiste, peut-il être interrogé par ce dernier, en un jeu de miroir ? Que peut nous apprendre la confrontation ainsi renouvelée avec le signal acoustique ? La présente étude s'appuie sur des exemples de langue na (famille sino-tibétaine) pour illustrer la façon dont l'analyse d'erreurs permet une confrontation renouvelée avec les données. Quelques réflexions au sujet d'expériences de transcription automatique de la langue tsuut'ina (famille dene) sont également présentées.; 目前,自动语音识别系统使用相对较少的训练数据就能达到很高的准确度:以前需要几十个小时才能完成的语音转录任务现在只需两三个小时即可完成。除了技术进步对语言记录任务的实际效率作用外,使用自动转录也产生了一些新的语言学观点:声学模型是建立在语言学家的转录基础上的,因此也涵盖了语言学的假设和假定。声学模型在多大程度上可以被语言学家用来进行反证和考察?我们能从这种对声学信号的重新面对中学习到什么?本研究基于纳语(摩梭话)的例子来说明误差分析是如何让我们重新面对数据的。除其他优势以外,误差分析还可以重新探索语音细节:将音位转录软件的输出与频谱和听觉证据进行对比研究。还提出了对北美大陆德内语支(阿萨巴斯卡语支)语言自动转录实验的一些思考。 |
Databáze: | OpenAIRE |
Externí odkaz: |