Modeling fish species distributions with machine learning techniques

Autor: Garcia Ventura, Cristian
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Zdroj: RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia
instname
Popis: [ES] Los sistemas naturales de agua dulce se ven ampliamente afectados por las presiones hidromorfológicas, las cuales derivan principalmente de la acción humana en el medio ambiente y de el consumo excesivo de los recursos naturales. Para proteger dichos sistemas, la Unión Europea creó en 2000 la Directiva Marco del Agua, cuyo principal objetivo consiste en mejorar el estado ambiental de las masas de agua dulce mediante Planes de Gestión de Recursos Hídricos de Cuenca. En el caso de los ríos, existe una relación directa entre su estado ecológico y la presencia o ausencia de determinadas especies de peces. Las técnicas de aprendizaje automático son herramientas de gran valor que permiten estudiar la relación entre la distribución de las especies de peces y los descriptores que caracterizan los mesohábitats, áreas fluviales de 10-1 - 10-3 metros que pueden considerarse hábitats funcionales. ¿Random Forests¿ es una de las técnicas de aprendizaje automático más utilizadas. Esta técnica, la cual se basa en el uso de árboles de decisión, ha sido criticada en los últimos años debido a que dota de mayor importancia a aquellas variables con más valores o clases posibles. En este contexto, nace la técnica de ¿Conditional Inference Forests¿, cuyo enfoque reduce el sesgo de selección de variables mediante la utilización de un criterio de división en dos pasos durante la construcción de los árboles de decisión que componen el bosque de predictores. Más concretamente, el objetivo del proyecto consiste en comparar el rendimiento de ambas técnicas cuando se utilizan para predecir la habitabilidad de tres especies de peces (ejemplares jóvenes de Lethenteron Zanandreai y ejemplares adultos de Padogobius Bonelli y Phoxinus Lumaireul) a lo largo de varios ríos situados en Piamonte y Emilia-Romaña, Italia. El proyecto también estudia los efectos de equilibrar el conjunto de datos de entrada previamente a su uso para construir los modelos. Para lograr los objetivos del proyecto, se ha escrito un código basado en el lenguaje de programación R. El código se ha desarrollado con RStudio, un entorno de desarrollo integrado para R y el cual dispone de un considerable número de paquetes disponibles (como Boruta, partykit y cforest), los cuales han sido utilizados para implementar las técnicas de ¿Random Forests¿ y ¿Conditional Inference Forests¿; así como para calibrar los diferentes modelos desarrollados y comparar sus rendimientos, entre otras tareas. Finalmente, tras representar y comparar los resultados, el proyecto concluyó que los modelos que alcanzaron los mejores rendimientos fueron aquellos basados en el enfoque de Inferencia Condicional y cuyos datos de entrada habían sido previamente equilibrados con un método de sobremuestreo; dichos modelos alcanzaron los menores errores y las mayores sensibilidades y especificidades.
[CAT] Els sistemes naturals d'aigua dolça es veuen àmpliament afectats per les pressions hidromorfològiques, les quals deriven principalment de l'acció humana en el medi ambient i del consum excessiu dels recursos naturals. Per a protegir aquests sistemes, la Unió Europea va crear en 2000 la Directiva Marc de l'Aigua, el principal objectiu de la qual consisteix a millorar l'estat ambiental de les masses d'aigua dolça mitjançant Plans de Gestió de Recursos Hídrics de Conca. En el cas dels rius, existeix una relació directa entre el seu estat ecològic i la presència o absència de determinades espècies de peixos. Les tècniques d'aprenentatge automàtic són eines de gran valor que permeten estudiar la relació entre la distribució de les espècies de peixos i els descriptors que caracteritzen els mesohàbitats, àrees fluvials de 10-1 - 10-3 metres que poden considerar-se hàbitats funcionals. “Random Forests” és una de les tècniques d'aprenentatge automàtic més utilitzades. Aquesta tècnica, la qual es basa en l'ús d'arbres de decisió, ha estat criticada en els últims anys pel fet que dota de major importància a aquelles variables amb més valors o classes possibles. En aquest context, neix la tècnica de “Conditional Inference Forests”, l'enfocament de la qual redueix el biaix de selecció de variables mitjançant la utilització d'un criteri de divisió en dos passos durant la construcció dels arbres de decisió que componen el bosc de predictors. Més concretament, l'objectiu del projecte consisteix a comparar el rendiment de totes dues tècniques quan s'utilitzen per a predir l'habitabilitat de tres espècies de peixos (exemplars joves de Lethenteron Zanandreai i exemplars adults de Padogobius Bonelli i Phoxinus Lumaireul) al llarg de diversos rius situats a Piemont i Emília-Romanya, Itàlia. El projecte també estudia els efectes d'equilibrar el conjunt de dades d'entrada prèviament al seu ús per a construir els models. Per a aconseguir els objectius del projecte, s'ha escrit un codi basat en el llenguatge de programació R. El codi s'ha desenvolupat amb RStudio, un entorn de desenvolupament integrat per a R i el qual disposa d'un considerable nombre de paquets disponibles (com Boruta, partykit i cforest), els quals han estat utilitzats per a implementar les tècniques de “Random Forests” i “Conditional Inference Forests”; així com per a calibrar els diferents models desenvolupats i comparar els seus rendiments, entre altres tasques. Finalment, després de representar i comparar els resultats, el projecte va concloure que els models que van aconseguir els millors rendiments van ser aquells basats en l'enfocament d'Inferència Condicional i les dades d'entrada de la qual havien estat prèviament equilibrades amb un mètode de sobremostrejo; aquests models van aconseguir els menors errors i les majors sensibilitats i especificitats.
[EN] Freshwater natural systems are widely affected by hydromorphological pressures, which result from human actions in the environment and the overconsumption of natural resources. In order to protect them, the European Union created the Water Framework Directive in 2000. The main aim of the directive is to improve the environmental status of the freshwater bodies by means of River Basin Management Plans. In the case of the rivers, there is a direct relationship between their ecological status and the presence or absence of certain fish species. The machine learning techniques are valuable and powerful tools to study the relationship between the distribution of fish species and the habitat descriptors that characterize the mesohabitats, river areas of 10^(-1) - 10^(-3) meters that can be considered functional habitats. Random Forests is one of the most widely used machine learning techniques. This technique, which is based on the use of decision trees, has been criticized in recent years because it gives greater importance to those variables with more possible values or classes. In this context, the Conditional Inference Forests technique was born, whose approach reduces the variable selection bias by using a two-step division criterion during the construction of the decision trees that make up the forest of predictors. More specifically, the project¿s aim consists of comparing the performance of both techniques when they are used to predict the habitability of three fish species (young specimens of Lethenteron Zanandreai and adult specimens of Padogobius Bonelli and Phoxinus Lumaireul) along various rivers located in Piedmont and Emilia-Romagna, Italy. The project also studies the effects of balancing the input dataset before using them to build the models. In order to achieve the project objectives, a code based on the programming language R has been written. The code was developed with RStudio, an integrated development environment for R, which has a considerable number of packages available (such as Boruta, partykit, and cforest), which have been used to implement the Random Forests and Conditional Inference Forests techniques; as well as to calibrate the different models developed and to compare their performances, among other tasks. Finally, after representing and comparing the results, the project concluded that the models that achieved the best performances were those based on the Conditional Inference approach and whose input data was previously balanced with an oversampling method; those models reached the lowest errors and the highest sensitivities and specificities.
Databáze: OpenAIRE