Part-Based Representations for Robust 3D Object Classification under Domain Shift
Autor: | Weibel, Jean-Baptiste Nicolas |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2022 |
Předmět: | |
DOI: | 10.34726/hss.2022.101381 |
Popis: | Das Verstehen von Szenen ist ein zentrales Problem, das gelöst werden muss, damit Serviceroboter nützliche Aktionen durchführen können, wie z. B. das Aufräumen eines Raums oder das Bringen eines gewünschten Gegenstands. Methoden, die versuchen, dieses Problem mit 3D-Daten zu lösen, haben vom Aufkommen des Deep Learning stark profitiert. Insbesondere Faltungsneuronale Netze haben zur Weiterentwicklung des Fachgebiets beigetragen, wurden jedoch hauptsächlich im Zusammenhang mit 2D-Daten untersucht. Welche Lernarchitektur bei 3D-Daten, die sich nicht auf eine einzige Ansicht reduzieren lassen, verwendet werden sollte, ist jedoch noch ein offenes Problem. In dieser Arbeit werden mehrere Methoden vorgestellt, die robust gegenüber Rotation, Maßstabsänderung und Verdeckung sind, was bei 3D-Daten, die von einem Roboter erfasst werden, häufig vorkommt.Weithin verfügbare Tiefensensoren und die Fortschritte bei der Schätzung der Kameraposition haben die Erfassung von realen 3D-Daten in bisher unerreichtem Ausmaß erleichtert, und künstliche 3D-Modelle werden seit Jahrzehnten mit CAD-Software für Fertigungs- oder Unterhaltungszwecken erstellt. Die Nutzung dieses großen Pools an bereits semantisch annotierten Daten erfordert Methoden, die mit beiden Quellen gleichberechtigt umgehen können. Der Domänenwechsel zwischen künstlichen und realen Daten bleibt jedoch eine große Herausforderung im Umgang mit 3D-Daten. In dieser Arbeit wird eine teilbasierte Repräsentation eingeführt, um dieses Problem zu lösen. Insbesondere der Maßstab künstlicher Modelle ist oft inkonsistent, aber Teile, die Teile, die auf der Krümmung der Objektoberfläche basieren, können über verschiedene Bereiche hinweg konsistent sein und lassen sich leicht individuell auf einen kanonischen Raum skalieren. In ähnlicher Weise kann Rotationsinvarianz erreicht werden erreicht werden, indem die Teile selbst auf der Grundlage ihrer lokalen Kovarianz ausgerichtet werden. Schließlich können auch schließlich bleiben auch bei Verdeckung viele Teile des Objekts gleich, was die Abhängigkeit der der Darstellung vom Vorhandensein des gesamten Objekts.In bestimmten Szenarien kann es besonders schwierig sein, eine genaue Schätzung der Kamera Schätzung der Kameraposition zu erreichen, z. B. wenn es um große Szenen geht. Außerdem hat jede Tiefen Erfassungsmodalität ihre eigenen Beschränkungen. Beide Probleme zusammen können zu einer sehr großen Lücke zwischen künstlichen und realen Daten führen. In dieser Arbeit wird eine dateneffiziente Architektur vorgestellt die die Vorteile der Prioritäten nutzt, die durch ein Jahrzehnt der Forschung im Bereich des Roboter-Sehens eingeführt wurden. Durch die Kombination der Punkt-Paar-Merkmal-Darstellung mit einem teilbasierten Sampling der Paaren und einer geeigneten Lernarchitektur, erreicht diese Methode ein hohes Maß an Robustheit gegenüber verrauschten Daten. Scene understanding is a key problem to solve to enable service robots to perform use fulactions such as tidying up the room, or bringing a requested item. Methods attempting to solve this problem using 3D data have greatly benefited from the advent of deeplearning. Convolutional neural networks in particular have contributed to advancing the field but have mostly been studied when dealing with 2D data. Which learning architecture to use when dealing with 3D data that cannot be reduced to a single viewis however still an open problem. This thesis introduces multiple methods that are robust to rotation, scale change and occlusion, which is commonly found in 3D data captured by a robot.Widely available depth sensors and the progress in camera pose estimation have made real 3D data collection much more accessible at scales never reached before, and artificia l3D models have been produced using CAD software for decades for manufacturing or entertainment purposes. Taking advantage of this large pool of already semantically annotated data requires methods that can deal with both sources indifferently. The domain shift between artificial and real data however remains a major challenge when dealing with 3D data. This thesis introduces a part-based representation to tackle thisissue. In particular, the scale of artificial models is often inconsistent, but parts createdbased on the curvature of the object surface can be be consistent across domains andare easily scaled individually to a canonical space. Similarly, rotation invariance can beachieved by orienting the parts themselves based on their local covariance. Finally, even under occlusion, many parts of the object will remain the same, limiting the dependency of the representation on the entire object being present.Under certain scenarios, it can be particularly challenging to achieve accurate camerapose estimation, for example when dealing with large scenes. Moreover, each depth sensing modality has its own limitation. Both issues combined can lead to a very largegap between artificial and real data. This thesis introduces a data efficient architecture that takes advantage of the priors introduced by a decade of research in robot vision.Combining the Point Pair Feature representation with a part-based sampling of thepairs and a suitable learning architecture, this method a achieves high level of robustness to noisy data. |
Databáze: | OpenAIRE |
Externí odkaz: |