Special Aspects of Matrix Operation Implementations for Low-Precision Neural Network Model on the Elbrus Platform

Autor: Vladimir L. Arlazarov, Jsc \\'Mcst\\', M.I. Neiman-zade, Elena Limonova
Rok vydání: 2020
Předmět:
Zdroj: Bulletin of the South Ural State University. Series "Mathematical Modelling, Programming and Computer Software". 13:118-128
ISSN: 2071-0216
Popis: E.E. Limonova1,2, M.I. Neiman-zade3, V.L. Arlazarov1 1Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences, Moscow, Russian Federation 2Smart Engines Service LLC, Moscow, Russian Federation 3JSC “MCST” , Moscow, Russian Federation E-mails: elena.e.limonova@gmail.com, muradnz@mcst.ru, vladimir.arlazarov@gmail.com. Елена Евгеньевна Лимонова, магистр, Федеральный исследовательский центр ≪Информатика и управление≫ РАН, Институт системного анализа (г. Москва, Российская Федерация); ООО ≪Смарт Энджинс Сервис≫ (г. Москва, Российская Федерация), elena.e.limonova@gmail.com. Мурад Искендер-оглы Нейман-заде, кандидат физико-математических наук, начальник отделения систем программирования, АО МЦСТ (г. Москва, Российская Федерация), muradnz@mcst.ru. Владимир Львович Арлазаров, доктор технических наук, профессор, член- корреспондент РАН, Федеральный исследовательский центр ≪Информатика и управление≫ РАН (г. Москва, Российская Федерация), vladimir.arlazarov@gmail.com. В работе исследуется возможность эффективной реализации вычислений в малобитных нейросетевых моделях на платформе с VLIW архитектурой Эльбрус. Такие модели широко применяются на практике для повышения вычислительной эффективности распознавания и хорошо подходят для вычислителей таких архитектур, как x86 и ARM. В данной работе была рассмотрена 8-битная нейросетевых модель, в которой наиболее ресурсоемкой частью реализации является матричное умножение. В данной работе приведена эффективная реализация матричного умножения, учитывающая особенности архитектуры Эльбрус: наличие нескольких вычислительных каналов с различными арифметико-логическими устройствами, буфера предварительной подкачки массивов и собственного SIMD-расширения. Проведено теоретическое и экспериментальное сравнение вычислительной производительности малобитной и классической нейросетевых моделей, показавшее, что процессоры Эльбрус имеют гораздо больше возможностей для выполнения оптимальных вещественных вычислений и требуют разработки новых подходов к повышению вычислительной эффективности нейросетевых моделей. This paper investigates the possibility of effective implementation of calculations in lowprecision neural network models on the Elbrus platform with the VLIW architecture. Such models are widely used in practice to increase the computational efficiency of recognition and well suit computers with the x86 and ARM architectures. In this paper, we consider an 8-bit neural network model, in which matrix multiplication is the most resource-intensive part of the implementation. This paper presents an effective implementation of matrix multiplication that takes into account the features of the Elbrus architecture: the presence of several computational channels with various arithmetic and logic devices, an array prefetch buffer, and its own SIMD extension.We carry out theoretical and experimental comparisons of the computational efficiency of low-precision and classical neural network models, which show that Elbrus processors have much more capabilities for performing fast floating point calculations and require the development of new approaches to increase the computational efficiency of neural network models.
Databáze: OpenAIRE