A MODEL AND TRAINING METHOD FOR CONTEXT CLASSIFICATION IN CCTV SEWER INSPECTION VIDEO FRAMES

Autor: V. V. Lysyuk, M. O. Zaretsky, Alyona Moskalenko, A. O. Panych, V. V. Moskalenko
Rok vydání: 2021
Předmět:
Zdroj: Radio Electronics, Computer Science, Control. :97-108
ISSN: 2313-688X
1607-3274
Popis: A model and training method for observational context classification in CCTV sewer inspection vide frames was developed and researched. The object of research is the process of detection of temporal-spatial context during CCTV sewer inspections. The subjects of the research are machine learning model and training method for classification analysis of CCTV video sequences under the limited and imbalanced training dataset constraint. Objective. Stated research goal is to develop an efficient context classifier model and training algorithm for CCTV sewer inspection video frames under the constraint of the limited and imbalanced labeled training set. Methods. The four-stage training algorithm of the classifier is proposed. The first stage involves training with soft triplet loss and regularisation component which penalises the network’s binary output code rounding error. The next stage is needed to determine the binary code for each class according to the principles of error-correcting output codes with accounting for intra- and interclass relationship. The resulting reference vector for each class is then used as a sample label for the future training with Joint Binary Cross Entropy Loss. The last machine learning stage is related to decision rule parameter optimization according to the information criteria to determine the boundaries of deviation of binary representation of observations for each class from the corresponding reference vector. A 2D convolutional frame feature extractor combined with the temporal network for inter-frame dependency analysis is considered. Variants with 1D Dilated Regular Convolutional Network, 1D Dilated Causal Convolutional Network, LSTM Network, GRU Network are considered. Model efficiency comparison is made on the basis of micro averaged F1 score calculated on the test dataset. Results. Results obtained on the dataset provided by Ace Pipe Cleaning, Inc confirm the suitability of the model and method for practical use, the resulting accuracy equals 92%. Comparison of the training outcome with the proposed method against the conventional methods indicated a 4% advantage in micro averaged F1 score. Further analysis of the confusion matrix had shown that the most significant increase in accuracy in comparison with the conventional methods is achieved for complex classes which combine both camera orientation and the sewer pipe construction features. Conclusions. The scientific novelty of the work lies in the new models and methods of classification analysis of the temporalspatial context when automating CCTV sewer inspections under imbalanced and limited training dataset conditions. Training results obtained with the proposed method were compared with the results obtained with the conventional method. The proposed method showed 4% advantage in micro averaged F1 score. It had been empirically proven that the use of the regular convolutional temporal network architecture is the most efficient in utilizing inter-frame dependencies. Resulting accuracy is suitable for practical use, as the additional error correction can be made by using the odometer data. Розроблено та досліджено модель та метод навчання для класифікації контекстів спостереження на кадрах відеоінспекції стічних труб. Об’єктом дослідження є процес виявлення просторово-часового контексту під час інспекцій стічних труб. Предметом дослідження є модель та метод машинного навчання для класифікаційного аналізу кадрів відеоінспекції в умовах обмеженого та незбалансованого набору розмічених навчальних даних. Мета дослідження – розроблення ефективних моделі і методу машинного навчання для класифікаційного аналізу контексту відеокадрів інспекції стічних труб в умовах обмеженого обсягу та незбалансованості розміченого навчального набору даних. Методи дослідження. Запропоновано чотирьох етапний алгоритм навчання класифікатора. Перший етап полягає у навчанні з нормалізованою триплетною функцією втрат і регуляризуючою складовою, яка штрафує за помилку округлення вихідного сигналу до двійкового подання. Наступний етап полягає у визначенні двійкового коду для кожного класу для реалізації кодів, що виправляють помилки, але з урахуванням внутрішньокласових та міжкласових відношень. Отриманий еталонний двійковий вектор для кожного класу потім використовується як цільова мітка під час наступного етапу навчання з бінарною крос-ентропійною функцією втрат. Останній етап машинного навчання пов’язаний з оптимізацією параметрів правила прийняття рішень за інформаційним критерієм для визначення допустимих меж відхилення двійкового подання спостережень кожного класу від відповідного еталонного вектора. Розглядається 2D згортковий екстрактор ознак у поєднанні з темпоральною мережею для аналізу міжкадрових залежностей. Розглядаються варіанти з 1D згорткова мережа з дірявими регулярними згортками, 1D згорткова мережа з дірвими причинно-наслідковими згортками, рекурентна мережа LSTM та рекурентна мережа GRU. Порівняння ефективності моделей проводиться на основі мікро усередненої F1-міри, обчисленої на тестовому наборі даних. Результати. Результати, отримані за набором даних, наданим Ace Pipe Cleaning, Inc, підтверджують придатність моделі та методу для практичного використання, оскільки отримана точність дорівнює 92%. Порівняння результатів навчання із запропонованим методом та традиційним методом показало перевагу на 4% за мікро-усередним значенням F1-міри. Подальший аналіз матриці помилок показав, що найбільш суттєве підвищення точності порівняно зі традиційними методами досягається для складних класів, які поєднують як орієнтацію камери, так і особливості конструкції стічної труби. Висновки. Наукова новизна роботи полягає у нових моделях та методах класифікаційного аналізу просторово-часового контексту для автоматизації відеоінспекції стічних труб в умовах обмеженого обсягу та незбалансованості розмічених навчальних даних. Результати навчання, отримані за пропонованим методом, порівнюються з результатами, отриманими за допомогою традиційного методу класифікаційного аналізу зображень. Запропонований метод продемонстрував перевагу на 4% за мікро-усередненим значенням F1-міри. Емпірично було доведено, що темпоральна мережа на основі 1D згорткової мережі з дірявими регулярними згортками є найбільш ефективною для аналізу міжкадрових залежностей. Отримана точність забезпечує придатність отриманих моделей для практичного використання, оскільки додаткове виправлення помилок можна реалізувати на основі даних одометра.
Databáze: OpenAIRE