Deep Learning and Uncertainty Modeling in Visual Food Analysis

Autor:	Aguilar, Eduardo
Přispěvatelé:	Radeva, Petia, Universitat de Barcelona. Departament de Matemàtiques i Informàtica
Jazyk:	angličtina
Rok vydání:	2020
Předmět:	Image processing Xarxes neuronals convolucionals Redes neuronales convolucionales Visió per ordinador Processament d'imatges Computer vision Convolutional neural networks Proceso de imágenes Visión por ordenador Ciències Experimentals i Matemàtiques
Zdroj:	TDX (Tesis Doctorals en Xarxa) TDR. Tesis Doctorales en Red Fundación Tecnalia Research & Innovation Dipòsit Digital de la UB Universidad de Barcelona TDR: Tesis Doctorales en Red CBUC, CESCA
Popis:	[eng] Several computer vision approaches have been proposed for tackling food analysis problems, due to the challenging problem it poses, the ease collection of food images, and its numerous applications to health and leisure. However, high food ambiguity, interclass variability and intra-class similarity define a real challenge for the Deep learning and Computer Vision algorithms. With the advent of Convolutional Neural Networks, the complex problem of visual food analysis has experienced significant improvement. Despite this, for real applications, where thousands of foods must be analyzed and recognized it is necessary to better understand what the model learns and, from this, guide its learning on more discriminatives features to improve its accurate and robustness. In this thesis we address the problem of analyzing food images through methods based on deep learning algorithms. There are two distinguishable parts. In the first part, we focus on the food recognition task and delve into uncertainty modeling. First, we propose a new multi-task model that is able to simultaneously predict different food-related tasks. Here, we extend the homoscedastic uncertainty modeling to allow single-label and multilabel classification and propose a regularization term, which jointly weighs the tasks as well as their correlations. Second, we propose a novel prediction scheme based on a class hierarchy that considers local classifiers, in addition to a flat classifier. For this, we define criteria based on the Epistemic Uncertainty estimated from the ’children’ classifiers and the prediction from the ’parent’ classifier to decide the approach to use. And third, we propose three new data augmentation strategies that analysis class-level or sample-level epistemic uncertainty to guide the model training. In the second part we contribute to the design of new methods for food detection (food/nonfood classification), for ensemble of food classifiers and for semantic food detection. First, we proposes an overview of the last advances on food/non-food classification and an optimal model based on the GoogLeNet architecture, Principal Component Analysis, and a Support Vector Machine. Second, we propose a combination of multiple classifiers for food recognition based on two different Convolutional models that complement each other and thus, achieve an improvement in performance. And third, we address the problem of automatic food tray analysis in canteens and restaurants environment through a new approach that integrates in the same framework food localization, recognition and segmentation for semantic food detection. All the methods designed in this thesis are validated and contrasted over relevant public food datasets and the results obtained are reported in detail. [spa] El desafiante problema que plantea el análisis de alimentos, la facilidad para recopilar imágenes de alimentos y sus numerosas aplicaciones para la salud y el ocio son algunos de los factores principales que han incentivado la generación de varios enfoques de visión por computadora para abordar este problema. Sin embargo, la ambigüedad alimentaria, variabilidad entre clases y similitud dentro de la clase definen un desafío real para los algoritmos de aprendizaje profundo y visión por computadora. Con la llegada de las redes neuronales convolucionales, el complejo problema del análisis visual de los alimentos ha experimentado una mejora significativa. A pesar de ello, para aplicaciones reales, donde se deben analizar y reconocer miles de alimentos, es necesario comprender mejor lo que aprende el modelo y, a partir de ello, orientar su aprendizaje en aspectos más discriminatorios para mejorar su precisión y robustez. En esta tesis abordamos el problema del análisis de imágenes de alimentos mediante métodos basados en algoritmos de aprendizaje profundo. Hay dos partes distinguibles. En la primera parte, nos centramos en la tarea de reconocimiento de alimentos y profundizamos en el modelado de incertidumbre. Primero, proponemos un nuevo modelo multi-tarea que es capaz de predecir simultáneamente diferentes tareas relacionadas con los alimentos. Aquí, ampliamos el modelo de incertidumbre homocedástica para permitir la clasificación tanto de etiqueta única como de etiquetas múltiples, y proponemos un término de regularización, que pondera conjuntamente las tareas y sus correlaciones. En segundo lugar, proponemos un novedoso esquema de predicción basado en una jerarquía de clases que considera clasificadores locales y un clasificador plano. Para decidir el enfoque a utilizar (plano o local), definimos criterios basados en la incertidumbre epistémica estimada a partir de los clasificadores de 'hijos' y la predicción del clasificador de 'padres'. Y tercero, proponemos tres nuevas estrategias de aumento de datos que analizan la incertidumbre epistémica a nivel de clase o de muestra para guiar el entrenamiento del modelo. En la segunda parte contribuimos al diseño de nuevos métodos para la detección de alimentos (clasificación food/non-food), para generar predicciones a partir de un conjunto de clasificadores de alimentos y para la detección semántica de alimentos. Primero, establecemos en estado del arte en cuanto a últimos avances en clasificación de food/non-food y proponemos un modelo óptimo basado en la arquitectura GoogLeNet, Análisis de Componentes Principales (PCA) y una Máquina de Vector de Soporte (SVM). En segundo lugar, proponemos medidas difusas para combinar múltiples clasificadores para el reconocimiento de alimentos basados en dos arquitecturas convolucionales diferentes que se complementan y de este modo, logran una mejora en el rendimiento. Y tercero, abordamos el problema del análisis automático de bandejas de alimentos en el entorno de comedores y restaurantes a través de un nuevo enfoque que integra en un mismo marco la localización, el reconocimiento y la segmentación de alimentos para la detección semántica de alimentos. Todos los métodos diseñados en esta tesis están validados y contrastados sobre conjuntos de datos de alimentos públicos relevantes y los resultados obtenidos se informan en detalle.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::4e5e3fec3768d897d1f05934c8c3fda3 http://hdl.handle.net/2445/173819 Zobrazit plný text záznamu