Automatic Template Detection for Camera Calibration
Autor: | Dantas, Marrone Silvério Melo, Bezerra, Daniel, Oliveira Filho, Assis T. de, Barbosa, Gibson, Rodrigues, Iago Richard, Sadok, Djamel H. J., Kelner, Judith, Souza, Ricardo |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | Research, Society and Development; Vol. 11 No. 14; e173111436168 Research, Society and Development; Vol. 11 Núm. 14; e173111436168 Research, Society and Development; v. 11 n. 14; e173111436168 Research, Society and Development Universidade Federal de Itajubá (UNIFEI) instacron:UNIFEI |
ISSN: | 2525-3409 |
Popis: | Camera calibration is the process of extract the intrinsic and extrinsic parameters of a camera. Those parameters guide the 3-dimensional localization into relation to the 2-dimensional space from the images acquired by the camera. The 3-dimensional correlation can be generated with an object with known measures, being the most common checkerboard for this purpose. From these checker- boards, the usual approach extracts the position of the inner points, equivalent to the corners of the squares, to generate this correlation. A broad range of algorithms tries to find those points on the image. Still, usually, they require previous knowledge about the dimensions of the image, the pattern distribution, or even the pattern type. In some scenario, maybe is difficult, or impossible, to implement such precise solution, targeting these limitations our work proposes a two-step end-to-end convolutional neural network architecture that processes the corner detection on a unique flow. Our proposal is agnostic to checkerboard size, pattern disposal, and positioning. In our work, first, a segmentation CNN extracts only the checkerboard from the input image (CheckerNet); from the extracted checkerboard, we extract the corner points with a corner detection CNN (Point- Net). The PointNet also works as a segmentation CNN, and the generated points are heatmaps related to points on the checkerboard corners. We performed post-processing with a K-Means-based clustering to convert those heatmaps into single positions (x,y) from the image. We compare our proposed method with the other well-known convolutional neural networks used for corner detection MATE and CCDN. For the evaluation, two datasets were used: GoPro e uEye. Our method provides better results in both datasets, reducing missed corners, double detections, false positives, and competitive results on pixel accuracy. La calibración de la cámara es el proceso de extraer los parámetros intrínsecos y extrínsecos de una cámara. Esos parámetros guían la localización tridimensional en relación con el espacio bidimensional de las imágenes adquiridas por la cámara. La correlación tridimensional se puede generar con un objeto de medidas conocidas, siendo el damero más común para este fin. De estos tableros de ajedrez, el enfoque habitual extrae la posición de los puntos interiores, equivalentes a las esquinas de los cuadrados, para generar esta correlación. Una amplia gama de algoritmos intenta encontrar esos puntos en la imagen. Aún así, por lo general, requieren conocimientos previos sobre las dimensiones de la imagen, la distribución del patrón o incluso el tipo de patrón. En algún escenario, tal vez sea difícil, o imposible, implementar una solución tan precisa, teniendo en cuenta estas limitaciones, nuestro trabajo propone una arquitectura de red neuronal convolucional de extremo a extremo de dos pasos que procesa la detección de esquinas en un flujo único. Nuestra propuesta es independiente del tamaño del tablero de ajedrez, la eliminación de patrones y el posicionamiento. En nuestro trabajo, primero, una CNN de segmentación extrae solo el tablero de ajedrez de la imagen de entrada (CheckerNet); Del damero extraído, extraemos los puntos de las esquinas con una CNN de detección de esquinas (Point-Net). PointNet también funciona como una CNN de segmentación, y los puntos generados son mapas de calor relacionados con puntos en las esquinas del tablero de ajedrez. Realizamos un procesamiento posterior con un agrupamiento basado en K-Means para convertir esos mapas de calor en posiciones únicas (x, y) de la imagen. Comparamos nuestro método propuesto con las otras redes neuronales convolucionales bien conocidas utilizadas para la detección de esquinas MATE y CCDN. Para la evaluación, se utilizaron dos conjuntos de datos: GoPro e uEye. Nuestro método proporciona mejores resultados en ambos conjuntos de datos, reduciendo esquinas perdidas, detecciones dobles, falsos positivos y resultados competitivos en precisión de píxeles. A calibração da câmera é o processo de extrair os parâmetros intrínsecos e extrínsecos de uma câmera. Esses parâmetros orientam a localização tridimensional em relação ao espaço bidimensional a partir das imagens adquiridas pela câmera. A correlação tridimensional pode ser gerada com um objeto com medidas conhecidas, sendo o tabuleiro de xadrez mais comum para este fim. A partir desses tabuleiros, a abordagem usual extrai a posição dos pontos internos, equivalentes aos cantos dos quadrados, para gerar essa correlação. Uma ampla gama de algoritmos tenta encontrar esses pontos na imagem. Ainda assim, geralmente, eles exigem conhecimento prévio sobre as dimensões da imagem, a distribuição do padrão ou até mesmo o tipo de padrão. Em algum cenário, talvez seja difícil, ou impossível, implementar uma solução tão precisa, visando essas limitações, nosso trabalho propõe uma arquitetura de rede neural convolucional de duas etapas que processa a detecção de canto em um fluxo único. Nossa proposta é agnóstica ao tamanho do tabuleiro de xadrez, disposição do padrão e posicionamento. Em nosso trabalho, primeiro, uma segmentação CNN extrai apenas o tabuleiro de damas da imagem de entrada (CheckerNet); do tabuleiro de damas extraído, extraímos os pontos de canto com uma CNN de detecção de canto (Point-Net). O PointNet também funciona como uma CNN de segmentação, e os pontos gerados são mapas de calor relacionados a pontos nos cantos do tabuleiro de xadrez. Realizamos o pós-processamento com um agrupamento baseado em K-Means para converter esses mapas de calor em posições únicas (x,y) da imagem. Comparamos nosso método proposto com outras redes neurais convolucionais conhecidas usadas para detecção de cantos MATE e CCDN. Para a avaliação, foram utilizados dois conjuntos de dados: GoPro e uEye. Nosso método fornece melhores resultados em ambos os conjuntos de dados, reduzindo cantos perdidos, detecções duplas, falsos positivos e resultados competitivos em precisão de pixel. |
Databáze: | OpenAIRE |
Externí odkaz: |