Popis: |
Les odonymes, ou noms des voies de circulation, comportent une richesse linguistique importante en France. Ils présentent habituellement deux parties, l’une "générique" (rue, place, avenue…) à portée générale et l’autre "spécifique" qui associe un nom à la première. Ainsi constitués, les odonymes sont les témoins d’une géographie sous-jacente dont il est intéressant d’observer l’organisation. En 2018, on trouve en France environ 28,5 millions d’adresses géolocalisées dans la Base Adresse Nationale (BAN). De cette dernière, nous avons extrait 2,33 millions d’odonymes dans les communes de France. Une méthodologie innovante, utilisant le traitement automatique du langage naturel et la création d’une ontologie des 448 génériques, a permis de faire un étiquetage puis un découpage morpho-syntaxique de ces odonymes et d’en constituer une base de données géolocalisée cohérente et homogène. Une étude cartographique de la répartition des génériques dans l’espace français à l’échelle des départements est ensuite réalisée. Elle montre, contre toute attente, que leur répartition est loin d’être homogène, y compris pour les plus courants d’entre eux comme "rue". Odonyms, or street names, have a significant linguistic complexity in France. They usually have at least two parts, one "generic" (street, place, avenue…) with a general scope and the other, "specific", which associates a name to the first. Decomposed in such a way, odonyms carry the traces of an underlying geography whose structure remains to be studied. In France, there are approximately 28.5 million geolocalized addresses in 2018, listed in the National Addresses Database (BAN). From these addresses, we have extracted the 2.33 million odonyms in the municipalities of France. An innovative methodology using Natural Language Processing paired with a custom-built ontology of the 448 generics allowed us to perform a Part-of-Speech labelling and splitting of the odonyms into its constituants stored into a coherent and homogeneous geolocalized database. A cartographic study of the distribution of generics in the French space at departemental level was then carried out. Against all expectations, their distribution turns out to be non-homogeneous in the French space, even for some very common names such as "rue". Los odónimos, o nombres de las calles en Francia contienen una importante riqueza lingüística. Generalmente se componen de dos partes, una "genérica" (calle, plaza, avenida ...) de alcance general y otra "específica" que asocia un nombre con la primera. Los odónimos dan testimonio de una geografía subyacente cuya organización es relevante de observar. Al año 2018 existían alrededor de 28,5 millones de direcciones geolocalizadas en la Base Nacional de Direcciones (BAN) de Francia y de esta extrajimos 2,33 millones de odónimos para las comunas. Mediante una metodología innovadora, utilizando el procesamiento automático del lenguaje natural y la creación de una ontología de 448 genéricos, se realiza un etiquetado y división morfosintáctica de tales odónimos, de tal forma poder construir una base de datos geolocalizada coherente y homogénea. Posteriormente se lleva a cabo un estudio cartográfico de la distribución de genéricos en Francia a escala de departamentos. Contrariamente a lo esperado, tal proceso expresa una distribución heterogénea, incluso para los más comunes como "calle". |