Popis: |
Comment trouver des données exprimant les mêmes concepts dans des registres de langue différents ? Après un essai infructueux d’extraction terminologique à partir de corpus comparables spécialisés dans le domaine du médical dans trois langues différentes (anglais, allemand, français), l’idée est d’ajouter pour chaque langue des sous-corpus du registre vulgarisé afin d’y détecter des relations de synonymie. Or ce type de ressources n’existe pas pour l’allemand de spécialité dans le domaine du médical. Nous présentons la constitution d’un corpus de 400 000 mots en allemand dans le domaine de la cancérologie, subdivisé en deux sous-corpus de même taille. À partir d’équivalents en allemand du mot-clé «cancer du sein», nous avons recueilli pour un premier sous-corpus, des textes qui s’adressent à des patientes (et des patients) ou à leurs familles, et pour un second sous-corpus, des textes qui s’adressent à des médecins ou des chercheurs en médecine. |