Development of supervised classification techniques for multivariate chemical data
Autor: | Morais, Camilo de Lelis Medeiros de |
---|---|
Přispěvatelé: | Moraes, Edgar Perin, Menezes, Fabricio Gava, Bruns, Roy Eduard, Lima, Kassio Michell Gomes de |
Jazyk: | portugalština |
Rok vydání: | 2017 |
Předmět: | |
Zdroj: | Repositório Institucional da UFRN Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
Popis: | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Esta dissertação consiste de um aporte teórico sobre a construção de técnicas de classificação supervisionada para aplicações em dados químicos multivariados. Para isso, técnicas quimiométricas baseadas em análise discriminante quadrática (QDA) e máquinas de vetores suporte (SVM) foram construídas em conjunto com análise de componentes principais (PCA), algoritmo de projeções sucessivas (SPA) e algoritmo genético (GA) para classificação supervisionada utilizando redução de dados e seleção de variáveis. Essas técnicas foram empregadas na análise de dados de primeira ordem, constituídos de espectros na região do infravermelho médio com transformada de Fourier e reflectância total atenuada (ATR-FTIR); espectros de massas obtidos por cromatografia líquida com um detector por tempo de vôo (LC/TOF); e espectros de massas obtidos por desorção/ionização por laser de superfície acoplado a um detector por tempo de vôo (SELDI-TOF). Os dados de ATR-FTIR foram utilizados para diferenciar duas classes de fungos do gênero Cryptococcus, enquanto que os dados de espectrometria de massas foram utilizados para identificar câncer de ovário e de próstata em soro sanguíneo. Além disso, novas técnicas de análise discriminante bidimensionais utilizando análise de componentes principais com análise discriminante linear (2D-PCA-LDA), análise discriminante quadrática (2D-PCA-QDA) e máquinas de vetores suporte (2D-PCA-SVM) foram desenvolvidas para aplicações em dados químicos de segunda ordem compostos por matrizes de excitação-emissão (EEM) por fluorescência molecular em amostras simuladas e reais. Os resultados obtidos mostraram que as técnicas desenvolvidas tiveram alto desempenho classificatório tanto para os dados de primeira quanto de segunda ordem, com taxas de acerto, sensibilidade e especificidade atingindo valores entre 90 a 100%. Além disso, as técnicas bidimensionais desenvolvidas tiveram, no geral, desempenho superior do que os métodos tradicionais de classificação multivariada utilizando dados desdobrados, o que mostra seu potencial para outras futuras aplicações analíticas. This dissertation is composed by a theoretical contribution about the development of supervised classification techniques for application using multivariate chemical data. For this, chemometric techniques based on quadratic discriminant analysis (QDA) and support vector machines (SVM) were built combined with principal component analysis (PCA), successive projections algorithm (SPA) and genetic algorithm (GA) for supervised classification using data reduction and feature selection. These techniques were employed in analyzing first-order data, composed by attenuated total reflectance Fourier transform infrared spectroscopy (ATRFTIR) and mass spectra obtained from liquid chromatography time of flight (LC/TOF) and surface-enhanced laser desorption/ionization time of flight (SELDI/TOF). ATR-FTIR data were used to differentiate two classes of fungus of Cryptococcus gene, whereas the mass spectra data was used to identify ovarian and prostate cancer in blood serum. In addition, new twodimensional discriminant analysis techniques based on principal component analysis linear discriminant analysis (2D-PCA-LDA), quadratic discriminant analysis (2D-PCA-QDA) and support vectors machine (2D-PCA-SVM) were developed for applications in second-order chemical data composed by excitation-emission matrices (EEM) molecular fluorescence of simulated and real samples. The results show that the developed techniques had better classification performance for both first and second-order data, with classification rates, sensitivity and specificity reaching values between 90 to 100%. Also, the developed twodimensional techniques had overall performance superior than traditional multivariate classification methods using unfolded data, showing its potential to other future analytical applications. |
Databáze: | OpenAIRE |
Externí odkaz: |