Popis: |
Introduction La prise en charge des patients genere de grande quantite de donnees dont 80 % sont enregistrees dans des comptes rendus (CR) textuels non structures. Au centre Antoine-Lacassagne (CAL), c’est plus de trois millions de CR qui constituent un reservoir d’informations tres peu exploite. A l’heure du big data et de l’intelligence artificielle (IA), la creation d’une plateforme de donnees de sante structurees et exploitables est un important challenge pour les etablissements de sante. L’objectif de cette premiere etape de RUBY etait de developper, en collaboration avec IBM, des algorithmes d’IA capables de structurer les donnees des CR des patientes atteintes d’un cancer du sein et de les integrer automatiquement dans un fichier de donnees structurees. Cette etude de type « preuve de concept » a ete realisee sur la premiere consultation (PCONS), la premiere biopsie (PBIO), la premiere chirurgie (PCHIR) et le premier CR d’anatomopathologie (PANA) des patientes du CAL. Methodes Deux bases de donnees de cancer du sein ont ete fusionnees pour creer une base de donnees structurees (BDDS) : la base SEIN-CAL (patientes prises en charge avant 2008) et la base ESME-CSM (patients prises en charge apres 2008). La population a ete scindee en deux, permettant de creer une cohorte d’entrainement (CE = 70 % des patientes et leurs CR associes) et une cohorte de test (CT = 30 %). Les CR ont necessite un pretraitement, et une segmentation a ete effectuee afin de faciliter l’identification des donnees a extraire. Les CR ont ete annotes manuellement avec BRAT, puis des algorithmes d’apprentissage utilisant le reseau neuronal convolutif ont ete executes avec SpaCy. Un fichier de donnees structurees (.csv) a ete produit et les indicateurs de performances de RUBY ont ete evalues et compares aux performances d’une structuration manuelle des donnees par un attache de recherche clinique (ARC). Resultats Plus de 2300 patientes ont ete incluses dans les deux bases fusionnees. Pour les variables PCONS, sur 8 variables testees, la precision de RUBY etait comprise entre 64 % et 98 % respectivement pour les variables « N clinique » et « indication de la premiere venue ». Pour PBIO, sur 10 variables, la precision de RUBY variait de 93 a 100 %. Pour PCHIR, la precision de RUBY etait > 93 % pour 6 des 7 variables d’interet et de 79 % pour l’ « indication de la chirurgie ». Pour PANA, la precision de RUBY etait > 90 % pour 15/19 variables dont 11 etaient > 95 %, la precision etait > 75 % pour les 4 autres variables. A ce stade de niveau d’apprentissage, les performances de RUBY sont superieures a celles d’un ARC dans 43 % des cas. Le temps necessaire pour structurer automatiquement les donnees des 2300 patientes a ete de moins de 25 minutes avec RUBY versus 30 jours par un ARC en structuration manuelle. Conclusion Les premiers resultats de RUBY sont tres encourageants et une nouvelle phase d’annotation est en cours afin d’ameliorer les resultats de l’algorithme. Les performances de RUBY sont meilleures sur les CR semi structures comme PBIO, PCHIR et PANA. Les PCONS sont les plus difficiles a structurer automatiquement car restent medecins-dependants. Le demonstrateur RUBY a permis de progresser dans la structuration automatique des donnees du cancer du sein au CAL. Il est maintenant necessaire d’optimiser les algorithmes afin d’ameliorer les performances de RUBY et de deployer cette application a d’autres types de CR et d’autres pathologies puis d’autres etablissements. |