Popis: |
Računalni vid ima široku primjenu u stvarnom svijetu. Semantička segmentacija jedan je od njegovih temeljnih, ali i najzanimljivijih, zadataka. Ovaj rad predstavlja CLIP multimodalni sustav za ugrađivanje slika i teksta u isti vektorski prostor te ga iskorištava za generiranje jezičnih ugrađivanja koja se dalje koriste za semantičku segmentaciju. U tu svrhu prenamjenjuje se, modificira i nadograđuje naduzorkovateljem predtrenirani ConvNext-Base vizualni koder CLIP modela koji zatim individualne piksele kodira u isti vektorski prostor kao i CLIP model te, na temelju sličnosti tih kodiranja, ih klasificira. Korišten je CamVid skup podataka. Postupak izgradnje, rezultati i evaluacija pažljivo su i precizno opisani u radu. Dodatno su opisanu dijelovi i postupci treniranja dubokih modela, semantička segmentacija te korištene tehnologije i metrike. Computer vision has found many applications in the real world. Semantic segmentation is one of its most basic components, but arguably one of the most interesting too. This paper presents the multimodal CLIP model for embedding images and text into the same vector space and uses it to generate language embeddings to further use in semantic segmentation. To that purpose, its ConvNext-Base visual tower is repurposed, modified and upgraded with an upsampling module so that it may embed individual pixels into the aforementioned space and exploit that for classification. All of this is done on the CamVid data set. The process of building such a model, evaluating it and the results are described with precision and detail. Additionally described are: deep neural network training, semantic segmentation and the used technologies and metrics. |