Aprendizado de máquina aplicado em dados de biossensores para diagnóstico de câncer e COVID-19
Autor: | Daniel Cesar Braz |
---|---|
Přispěvatelé: | Osvaldo Novais de Oliveira Junior, Clarissa de Almeida Olivati, Hélio Pedrini, Lucas Fugikawa Santos, Cicero Rafael Cena da Silva |
Jazyk: | portugalština |
Rok vydání: | 2022 |
Zdroj: | Biblioteca Digital de Teses e Dissertações da USP Universidade de São Paulo (USP) instacron:USP |
Popis: | Esta tese explora o conceito de sistemas computacionais semi-automatizados de diagnóstico baseados em Aprendizado de Máquina (AM), em que diferentes tipos de dados de biossensores e de outras fontes são empregados. A partir de um pipeline base de AM, foram desenvolvidas quatro aplicações e diversos métodos foram implementados para cada uma das etapas/tarefas do pipeline. Como foram selecionados problemas desafiadores, um alto desempenho na acurácia do diagnóstico em geral só foi alcançado com algoritmos de AM supervisionado. Três aplicações foram em diagnóstico de câncer, sendo a primeira a partir de imagens de microscopia eletrônica de genossensores que detectam o biomarcador de PCA3 para câncer de próstata. Essas imagens foram usadas como entrada para algoritmos de AM supervisionado. Com os atributos de textura Local Complex Features and Neural Network (LCFNN) e o algoritmo Linear Discriminant Analysis (LDA) obteve-se uma taxa de acerto de 99,9% para classificação binária (sim/não para PCA3) e 88,3% para a classificação multiclasse em que se determina a concentração do biomarcador de PCA3. As outras duas aplicações envolveram a detecção de biomarcadores de câncer a partir de medidas elétrica/eletroquímica. A concentração da proteína p53, importante marcador de diferentes tipos de câncer, em amostras de urina e saliva sintéticas, foi determinada a partir de medidas eletroquímicas com imunossensores, em que voltamogramas foram analisados com os algoritmos Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM- L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) e Decision Tree (DT). O imunossensor otimizado exibiu acurácia de 100% com todos os algoritmos na maioria dos conjuntos de atributos construídos a partir dos dados brutos. No diagnóstico de câncer de boca, a partir de medidas de impedância elétrica com uma língua eletrônica em amostras de saliva de pacientes e voluntários, a maior acurácia de 86.7% foi obtida com o algoritmo SVM-kernel radial. Nesta aplicação, a acurácia da classificação multiclasse aumentou quando foram adicionadas informações clínicas dos pacientes, indicando a importância de combinação de diferentes tipos de dados nos sistemas computacionais. A quarta aplicação foi o diagnóstico de COVID-19 com a detecção da proteína S do SARS-CoV-2 a partir de mapas hiperespectrais de Espectroscopia Raman com Amplificação de Superfície (SERS) obtidos de imunossensores. Usando algoritmo LDA obteve-se uma acurácia de 100% na distinção dos mapas para resultado positivo e negativo para SARS-CoV-2. Os resultados dessas quatro aplicações demonstram a possibilidade de se desenvolverem sistemas automatizados de diagnóstico, pois as várias etapas/tarefas dos pipelines de AM podem ser implementadas sem necessidade de intervenção humana, mesmo quando se combinam imagens, dados clínicos e de testes clínicos. This thesis explores the concept of computer-assisted diagnosis based on machine learning (ML), in which different types of data from biosensors and other sources are employed. Using a ML pipeline, we developed four applications using different methods in the steps of the pipeline. Because the diagnostic problems addressed were all challenging, a high performance in accuracy was only achieved with supervised ML algorithms. Three applications involved cancer diagnosis, the first being from electron microscopy images of genosensors that detect the PCA3 biomarker for prostate cancer. These images were used as input for the ML algorithms, with texture features from Local Complex Features and Neural Network (LCFNN) and the algorithm Linear Discriminant Analysis (LDA) leading to a 99.9% accuracy for binary classification (yes/no for PCA3) and 88.3% accuracy for the multiclass classification where the PCA3 biomarker concentration is determined. The other two applications were related to detection of cancer biomarkers using electrical or electrochemical measurements. The concentration of p53 protein, an important marker of different types of cancer, in synthetic urine and saliva samples was determined from electrochemical measurements with immunosensors, and the voltammograms were analyzed with the Logistic Regression (LR), LDA, Support Vector Machine-kernel linear (SVM-L), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN) and Decision Tree (DT) algorithms. The optimized immunosensor had 100% accuracy with all ML algorithms for most of the datasets with the raw voltammetric data. In the diagnosis of oral cancer using impedance measurements with an electronic tongue in saliva samples from volunteers and patients, the highest accuracy was 86.7% with SVM-kernel radial algorithm. In this application, the accuracy increased when patients clinical information was added, indicating the importance of combining different types of data in computer-assisted diagnosis systems. The fourth application was the diagnosis of COVID-19 with detection of the SARS-CoV-2 S protein using Surface-Enhanced Raman Spectroscopy (SERS). Using the algorithm LDA an accuracy of 100% was achieved in distinguishing spectra for positive and negative result for SARS-CoV-2. The results of these four applications demonstrate the possibility of developing automated diagnostic systems, as the various stages/tasks in the ML pipeline can be implemented without the need for human intervention, even when combining images, clinical information and data from biosensors. |
Databáze: | OpenAIRE |
Externí odkaz: |