Osjetljivost semantičke segmentacije na pomak domene
Autor: | Antunović, Željko |
---|---|
Přispěvatelé: | Šegvić, Siniša |
Jazyk: | chorvatština |
Rok vydání: | 2023 |
Předmět: |
poopćenje domene
semantička segmentacija domain adaptation sintetički podatci TEHNIČKE ZNANOSTI. Računarstvo deep learning računalni vid pomak domene transfer learning synthetic data prijenosno učenje prilagođavanje domene computer vision semantic segmentation domain shift TECHNICAL SCIENCES. Computing duboko učenje domain generalization |
Popis: | Današnji modeli za semantičku segmentaciju postižu vrlo dobre rezultate na određenim podatcima, no pomak domene je i dalje neriješen problem u računalnom vidu. U ovome radu proučavamo posljedice pomaka domene u kontekstu sintetičkih podatka te koje su koristi i mane u korištenju sintetičkih podataka. U radu su opisani glavni pojmovi u području dubokog učenja relevantnih za ovu tematiku poput neuronskih mreža, konvolucijskih i semantičkih modela. Također je opisano poopćenje domene, prilagođavanje domene i pojam prijenosnog učenja kao bitne pojmove u kontekstu pomaka domene. Korišteni podatci su GTA i Cityscapes, a arhitektura je SwiftNet s ResNet-18 okosnicom. Kod je napisan u programskom jeziku Python 3 koristeći biblioteke NumPy i PyTorch. Cijeli kod je pokrenut preko platforme Kaggle koja omogućava pokretanje koda na GPU jedinicama. State of the art semantic segmentation models perform very well on specific datasets, but domain shift is still an unresolved problem in computer vision. In this paper we observe the effects of domain shift in a specific case of synthetic data and we discuss both the pros and cons of using said data for training semantic segmentation models. The paper goes over the basics of deep learning relevant to the context, such as neural networks, convolutional and semantic segmentation models. Furthermore, the paper also goes over domain generalization, domain adaptation and transfer learning as important concepts in relation to domain shift. Datasets used in this paper are GTA and Cityscapes, while the used architecture is SwiftNet with a ResNet-18 backbone. The code was written in Python 3 using NumPy and PyTorch libraries. The whole project was run on the Kaggle platform, which allows users to run their Python code on powerful GPUs. |
Databáze: | OpenAIRE |
Externí odkaz: |