Модель и метод обучения для классификационного анализа уровня воды в сточных трубах по данным видео инспекции
Autor: | Moskalenko, Viacheslav Vasylovych, Zaretskyi, Mykola Oleksandrovych, Korobov, Artem Hennadiiovych, Kovalskyi, Yaroslav Yuriiovych, Shaiekhov, Artur Fanisovych, Semashko, Viktor Anatoliiovych, Panych, Andrii Oleksandrovych |
---|---|
Jazyk: | ukrajinština |
Rok vydání: | 2021 |
Předmět: |
регуляризация
инспекция свёрточная нейронная сеть информационно-экстремального машинное обучение згорткова нейронна мережа стічні труби регуляризація convolutional neural network класифікаційний аналіз сточные трубы loss function рекурентна нейронна мережа рекуррентная нейронная сеть regularization классификационный анализ information-extreme machine learning інформаційно-екстремальне машинне навчання classification analysis функція втрат recurrent neural network функция потерь inspection sewer pipe інспекція |
Popis: | Розроблено та досліджено модель та метод навчання для класифікаційного аналізу рівня води на кадрах відео інспекції стічних труб. Об’єктом дослідження є процес розпізнавання рівня води з урахуванням просторово-часового контексту під час інспекції стічних труб. Предметом дослідження є модель та метод машинного навчання для класифікаційного аналізу рівня води на відео-послідовностях інспекції труб за умов обмеженого та незбалансованого набору навчальних даних. Запропоновано чотирьохетапний алгоритм навчання класифікатора. На першому етапі навчання відбувається навчання з нормалізованою триплетною функцією втрат та регуляризуючою складовою для штрафування за помилку округлення вихідного сигналу мережі до двійкового коду. Наступний етап потрібний для визначення двійкового коду класу відповідно до принципів завадозахищеного кодування з самовиправленням помилок, але з урахуванням внутрікласових і міжкласових відношень. Обчислений еталонний вектор кожного класу використовується як цільова розмітка зразка для подальшого навчання з використанням об’єднаної крос-ентропійної функції втрат. Останній етап машинного навчання пов’язаний з оптимізацією параметрів вирішувальних правил за інформаційним критерієм для врахування меж відхилення двійкового подання спостережень кожного класу від відповідних еталонних векторів. Як модель класифікатора розглядається поєднання 2D згорткового екстрактора ознак кадру з темпоральною мережею для аналізу міжкадрових залежностей. При цьому виконується порівняння різних варіантів темпоральної мережі. Розглядаються 1D регулярна згорткова мережа з дірявими згортками, 1D каузальна згорткова мережа з дірявими згортками, рекурентна LSTM-мережа, рекурентна GRU-мережа. Порівняння ефективності моделей відбувається за мікро-усередненою метрикою F1, що обчислюється на тестовій вибірці. Результати, отримані на наборі даних від компанії Ace Pipe Cleaning (Канзас Сіті, США), підтверджують придатність моделі і методу навчання до практичного використання, отримане значення F1-метрики дорівнює 0,88. При цьому результати навчання за запропонованим методом порівнювалися з результатами, отриманими традиційним методом. Було показано, що запропонований метод забезпечує збільшення значення мікро-усередненої метрики F1 на 9 %. Разработаны и исследованы модели и метод обучения для классификационного анализа уровня воды на кадрах видео инспекции сточных труб. Объектом исследования является процесс распознавания уровня воды с учетом пространственно-временного контекста во время инспекции сточных труб. Предметом исследования является модель и метод машинного обучения для классификационного анализа уровня воды на видео-последовательностях инспекции труб в условиях ограниченного и несбалансированного набора обучающих данных. Предложено четырех этапный алгоритм обучения классификатора. На первом этапе обучения происходит обучение с нормализованной триплетной функцией потерь и регуляризирующей составляющей для штрафования за ошибку округления выходного сигнала сети к двоичному коду. Следующий этап нужен для определения двоичного кода класса в соответствии с принципами помехозащищенного кодирования с само исправлением ошибок, но с учетом внутриклассовых и межклассовых отношений. Вычисленный эталонный вектор каждого класса используется как целевая разметка образца для дальнейшего обучения с использованием объединенной кросс-энтропийной функции потерь. Последний этап машинного обучения связан с оптимизацией параметров решающих правил по информационному критерию для учета границ отклонения двоичного представления наблюдений каждого класса от соответствующих эталонных векторов. Как модель классификатора рассматривается сочетание 2D свёрточного экстрактора признаков кадра с темпоральной сетью для анализа межкадровых зависимостей. При этом выполняется сравнение различных вариантов темпоральной сети. Рассматриваются 1D регулярная свёрточная сеть с дырявыми свертками, 1D каузальная свёрточная сеть с дырявыми свёртками, рекуррентная LSTM-сеть, рекуррентная GRU-сеть. Сравнение эффективности моделей происходит по микро-усредненной метрике F1, вычисляемой на тестовой выборке. Результаты, полученные на наборе данных от компании Ace Pipe Cleaning (Канзас Сити, США), подтверждают пригодность модели и метода обучения к практическому использованию, полученное значение F1-метрики равно 0,88. При этом результаты обучения по предложенному методу сравнивались с результатами, полученными традиционным методом. Было показано, что предложенный метод обеспечивает увеличение значения микро-усредненной F1-метрики на 9 %. Models and training methods for water-level classification analysis on the footage of sewage pipe inspections have been developed and investigated. The object of the research is the process of water-level recognition, considering the spatial and temporal context during the inspection of sewage pipes. The subject of the research is a model and machine learning method for water-level classification analysis on video sequences of pipe inspections under conditions of limited size and an unbalanced set of training data. A four-stage algorithm for training the classifier is proposed. At the first stage of training, training occurs with a softmax triplet loss function and a regularizing component to penalize the rounding error of the network output to a binary code. The next step is to define a binary code (reference vector) for each class according to the principles of error-correcting output codes, but considering the intraclass and interclass relations. The computed reference vector of each class is used as the target label of the sample for further training using the joint cross-entropy loss function. The last stage of machine learning involves optimizing the parameters of the decision rules based on the information criterion to account for the boundaries of deviation of the binary representation of the observations of each class from the corresponding reference vectors. As a classifier model, a combination of 2D convolutional feature extractor for each frame and temporal network to analyze inter-frame dependencies is considered. The different variants of the temporal network are compared. We consider a 1D regular convolutional network with dilated convolutions, 1D causal convolutional network with dilated convolutions, recurrent LSTM-network, recurrent GRU-network. The performance of the models is compared by the micro-averaged metric F1 computed on the test subset. The results obtained on the dataset from Ace Pipe Cleaning (Kansas City, USA) confirm the suitability of the model and training method for practical use, the obtained value of F1-metric is 0.88. The results of training by the proposed method were compared with the results obtained using the traditional method. It was shown that the proposed method provides a 9 % increase in the value of micro-averaged F1-measure. |
Databáze: | OpenAIRE |
Externí odkaz: |