Agent-oriented approach to simulate exaflop supercomputer with application to distributed stochastic simulation

Autor: Glinsky, B. M., Rodionov, A. S., Marchenko, M. A., Podkorytov, D. I., Weins, D. V.
Rok vydání: 2012
Předmět:
Popis: В работе рассматривается возможность применения агентно-ориентированной системы имитационного моделирования для решения ряда проблем, возникающих при создании экзафлопсных компьютеров, содержащих десятки и сотни миллионов вычислительных узлов. Предлагается двухуровневая децентрализованная схема управления вычислениями и соответствующая имитационная модель, в которой все вычислительные узлы поделены между областями вычислений, которые контролируются своими локальными управляющими агентами. Головной управляющий агент распределяет между областями поток больших задач и контролирует общие ресурсы. В качестве примера масштабируемого алгоритма рассматривается метод Монте-Карло, перспективный для компьютерного моделирования на экзафлопсных компьютерах. В этом методе существенно то, что чем больше объем выборки из независимых реализаций, тем выше точность оценивания. В работе предлагается генератор базовых псевдослучайных чисел, пригодный для больших расчетов по методу Монте-Карло. При распределении вычислений по узлам допускается возможность реализации различных объемов выборки на различных узлах с использованием статистически оптимального способа осреднения результатов. Объем памяти, доступный каждому вычислительному узлу, и его быстродействие должны быть достаточными для эффективного моделирования реализаций. Данный алгоритм распределенного статистического моделирования асинхронен, и при использовании предлагаемого генератора базовых псевдослучайных чисел масштабируется практически на неограниченное число узлов. Примером масштабируемого приложения распределенного статистического моделирования для современных компьютеров терафлопсного уровня производительности является библиотека PARMONC. Кроме того, в работе рассматривается вариант реализации мультиагентного моделирования для прогнозирования сбоев и отказов вычислительных узлов. Предлагается архитектура динамической системы прогнозирования сбоев, которая состоит из агентов различного назначения, каждый из которых выполняет свою функцию для достижения общей цели. A possibility of using an agent-oriented simulation system for solving a variety of problems that arise in design and implementation of exaflop supercomputers consisting of ten and hundred millions of computational nodes is discussed in the paper. We suggest twoewel decentralized scheme of computations control and the corresponding simulation model in which all the computational nodes are distributed over computational domains controlled by their control agents. Master control agent distributes a flow of big problems over computational domains and manages common resources. Monte-Carlo method considered to be promising to use on exaflop supercomputers is given as an example of highly scalable algorithm. In this method, is essential that the lager sample size of independent realizations, the higher accuracy of estimating. We also suggest a parallel pseudorandom numbers generator suitable for large-scale computations with Monte Carlo method. When distributing stochastic computations over different nodes it is possible to simulate different sample volumes on different nodes using statistically optimal technique of results averaging. Naturally, an amount of computer resources available on each node must be quite enough to simulate the realizations effectively. The described algorithm of distributed stochastic simulation is asynchronous one and can be scaled to a practically infinite number of nodes using the described parallel pseudorandom numbers generator. An example of the highly scalable application utilizing distributed stochastic simulation on up-to-date teraflop supercomputers is the program library PARMONC. Also, the multi-agent simulation is used for the prediction and processing of possible failures of computational nodes. Architecture of dynamic system of failures prediction is given. The system consists of the agent for different purposes; each agent is playing its role to achieve the common goal. Борис Михайлович Глинский, доктор технических наук, профессор, ИВМиМГ СО РАН, (г. Новосибирск, Российская Федерация), gbm@opg.sscc.ru. B.M. Glinsky, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (Novosibirsk, Russian Federation). Алексей Сергеевич Родионов, доктор технических наук, ИВМиМГ СО РАН, (г. Новосибирск, Российская Федерация), alrod@rav.sscc.ru. A.S. Rodionov, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (Novosibirsk, Russian Federation). Михаил Александрович Марченко, кандидат физико-математических наук, ИВМиМГ СО РАН, (г. Новосибирск, Российская Федерация), mam@osmf.sscc.ru. M.A. Marchenko, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (Novosibirsk, Russian Federation). Дмитрий Игоревич Подкорытов, ИВМиМГ СО РАН, (г. Новосибирск, Российская Федерация), d.podkorytov@gmail.com.D.I. Podkorytov, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (Novosibirsk, Russian Federation). Дмитрий Владимирович Винс, ИВМиМГ СО РАН, (г. Новосибирск, Российская Федерация), wns.dmitry@gmail.com. D.V. Weins, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (Novosibirsk, Russian Federation)
Databáze: OpenAIRE