Popis: |
El objetivo de este trabajo es aportar el primer análisis cuantitativo de tipos de errores contenidos en un corpus formado por informes clínicos en español. Se han analizado informes clínicos pertenecientes a las especialidades de urgencias, uci, psiquiatría y cirugía general. Los errores fueron estudiados teniendo en cuenta criterios como distancia de edición, tipo de error o existencia de multierror en la palabra. Para tal cometido, se desarrolló una herramienta de identificación y clasificación de errores, se utilizaron técnicas estadísticas y se compararon los resultados con trabajos previos sobre patrones de errores. Los resultados indican que el tipo de error más frecuente es el de omisión de tilde y la mayoría de los errores ocurren a distancia de edición 1, entre parejas de caracteres con similitudes fonéticas y parejas de caracteres adyacentes en el teclado. The aim of this study is to conduct the first quantitative analysis of errors in a corpus of clinical reports in Spanish. The clinical reports analysed belong to four medical specialties: emergency medicine, icu, psychiatry, and general surgery. Errors will be studied according to criteria such as edit distance, error type, and presence of multiple-error words. To this end, we developed a tool for identifying and classifying errors and used statistical techniques, comparing the results with previous studies on error patterns. The results show that the most frequent error type is the omission of accent marks and that most errors occur at edit distance 1 between pairs of characters with phonetic similarities and pairs of characters that are adjacent on the keyboard. |