Скачать 93.95 Kb.
|
- - ИНСТРУКЦИЯ по использованию вычислительного кластера Т-Платформы TEdge-48 Версия 2 Основные сведения о кластере Вычислительный кластер Т-Платформы TEdge-48 состоит из 24 вычислительных модулей. Каждый модуль содержит 2 четырехядерных процессора с тактовой частотой 2.33 ГГц и 8 Гбайт оперативной памяти. Кроме того, есть управляющий модуль, предназначенный для компиляции и запуска задач, с файловым хранилищем на 6 Тб. Для связи между вычислительными модулями используются две сети Gigabit Ethernet и одна оптоволоконная сеть Infiniband. Кластер Т-Платформы предназначен для запуска только параллельных задач, написанных с использованием стандарта MPI. Однопроцессорные задачи можно запускать на кластере nwo5.ihed.ras.ru. На каждом модуле установлена операционная система Linux (свободно-распространяемый клон UNIX). Для работы на кластере желательно знать основные команды Linux и иметь навыки работы с текстовым редактором. Ниже перечислен минимум команд, необходимых для компиляции и запуска тестовой программы с помощью системы очередей Torque (один из свободно-распространяемых клонов PBS). Регистрация на кластере. Необходимые программыВ настоящее время кластер доступен через Интернет по имени tpl.ihed.ras.ru (IP адрес 83.149.226.18). Регистрация на кластере производится по протоколу SSH2. Существует довольно много программ-клиентов SSH2 под Windows, рекомендуется использовать свободно-распространяемую программу PUTTY, доступную в Интернете по адресу: http://the.earth.li/~sgtatham/putty/latest/x86/putty.exe. Программа SSH2-клиент также присутствует во всех современных версиях UNIX. Для регистрации необходимо получить имя пользователя (login) и пароль в ИВЦ (московский тел. 485-85-63, местный тел. 0-06, e-mail pasha@ihed.ras.ru). При настройке клиента SSH2 под Windows нужно указать hostname (tpl.ihed.ras.ru) и протокол (SSH2). При подключении будут запрошены имя пользователя и пароль. При регистрации на кластере из операционной системы UNIX нужно дать команду: ssh –l tpl.ihed.ras.ru где – имя пользователя (login), l – латинская буква «эл». Для обмена файлами между кластером и Windows-машиной можно использовать свободно-распространяемую программу WinSCP (доступна в Интернете по адресу: http://winscp.net/download/winscp419setup.exe). Интерфейс программы очень напоминает Windows Commander, что сильно облегчает освоение программы. Обмен файлами между UNIX-машиной и кластером осуществляется посредством команды scp. На кластере доступно несколько редакторов, в частности, широко распространенные vi и emacs. Установлена также командная оболочка Midnight Commander (напоминающая Norton Commander), которая запускается из командной строки командой mc. Для пользователей, не работавших ранее в Unix, возможно, покажется удобным редактор, доступный из Midnight Commander по клавише F4 (если функциональные клавиши не будут работать в терминальном режиме, нужно использовать эквивалентную комбинацию Esc-<�цифра>, например, вместо F4 нужно набрать последовательно Esc, затем 4, вместо F10 — Esc, затем 0 и т. д.) Также можно редактировать файлы на кластере непосредственно из Windows из программы WinSCP, по нажатию на клавишу F4. Редактор в этом случае можно использовать любой, для этого нужно соответствующим образом настроить WinSCP (меню Options->Preferences->Editors). Пример запуска задачи на кластере Далее в тексте в качестве имени пользователя (login name) будет использоваться имя testuser. После регистрации на кластере на экран выводится приглашение: testuser@oivt-master:~> Это приглашение командного процессора bash (расширенная версия Bourne shell). После регистрации текущим каталогом становится /home/testuser (в UNIXе директории разделяются символом slash / в отличие от Windows, где используется backslash \). В этот каталог, называемый обычно домашним, можно попасть с помощью команд: cd /home/testuser cd ~ cd (все три команды делают одно и то же). Список файлов в текущем каталоге можно посмотреть с помощью команды ls Определить, какой каталог в данный момент является текущим, можно с помощью команды pwd В домашнем каталоге находится директория с примером параллельной программы. Рекомендуется для каждой задачи иметь отдельный каталог. Его можно создать в текущей директории командой mkdir. Например, для создания каталога newdir нужно ввести команду: mkdir newdir Перейдем в каталог test.parallel: cd ~/test.parallel Знак ~ перед путем к файлу эквивалентен комбинации /home/testuser. В директории test.parallel присутствуют файлы test.f (тестовая программа на Фортране), Makefile (файл, задающий порядок и условия компиляции) и файл pbsrun (скрипт для постановки задачи в очередь). Компиляция программы осуществляется с помощью команды make: testuser@oivt-master:~/test.parallel> make mpif90 test.f -lm -o test testuser@oivt-master:~/test.parallel> Запуск программ на кластере должен осуществляться с помощью системы управления очередями заданий (PBS). Головная машина, на которую попадает пользователь после регистрации, служит для компиляции и постановки задач в очередь, но не для запуска программ непосредственно на ней (используя mpirun, mpiexec или как-то еще). Подробнее о компиляции и постановке задач в очередь см. раздел «Компиляция программ на кластере». Постановка тестовой задачи в очередь: testuser@oivt-master:~/test.parallel> qsub pbsrun 1819.oivt-master.localdomain testuser@oivt-master:~/test.parallel> Строка 1819.oivt-master.localdomain означает, что задаче присвоен номер 1819 (этот номер уникальный и может быть любым целым числом для других задач). Команда qstat позволяет получить информацию о состоянии задачи в очереди: testuser@oivt-master:~/test.parallel> qstat Job id Name User Time Use S Queue ------------------------- ---------------- --------------- -------- - ----- 1819.oivt-master test levashov 0 R short testuser@oivt-master:~/test.parallel> Из этой таблицы видно, что задача с именем test, запущенная пользователем test выполняется в течение 0 секунд (буква R означает, что задача выполняется) и находится в очереди с именем short. Время выполнения задачи обновляется примерно раз в минуту. Чтобы просмотреть состояние всех доступных очередей, используется команда qstat –Q: testuser@oivt-master:~/test.parallel> qstat -Q Queue Max Tot Ena Str Que Run Hld Wat Trn Ext T ---------------- --- --- --- --- --- --- --- --- --- --- - route 0 0 yes yes 0 0 0 0 0 0 R short 0 0 yes yes 0 0 0 0 0 0 E middle 0 0 yes yes 0 0 0 0 0 0 E long 0 0 yes yes 0 0 0 0 0 0 E Из вывода команды видно (последний столбец), что определены 4 очереди, в которых нет выполняющихся задач. В последней колонке можно найти тип очереди: R (Route) – очередь для перенаправления задачи в другие очереди и E (Execute) – очередь для выполнения задач. Параметры каждой очереди можно определить с помощью команды qstat –q: server: oivt-master Queue Memory CPU Time Walltime Node Run Que Lm State ---------------- ------ -------- -------- ---- --- --- -- ----- route -- -- -- -- 0 0 -- E R short -- -- 02:00:00 24 0 0 -- E R middle -- -- 48:00:00 8 0 0 -- E R long -- -- 336:00:0 2 0 0 -- E R ----- ----- 0 0 Из вывода видно, что максимальное общее время счета задачи (Walltime) варьируется от 2 часов (очередь short) до 336 часов (2 недели, очередь long). Кроме того, на три показанных очереди в настоящее время установлены следующие дополнительные ограничения: Очередь short – 1 задача на выполнение, до 2-х задач в очереди (включая выполняющуюся), до 24 узлов (до 192 процессоров); Очередь middle – до 8 задач на выполнение, до 12 задач в очереди (включая выполняющиеся), до 8 узлов (до 64 процессоров); Очередь long – до 2-х задач на выполнение, до 4 задач в очереди (включая выполняющиеся), до 2 узлов (до 16 процессоров). Любая задача в очереди может находиться в одном из следующих состояний: E – задача в стадии выхода из состояния выполнения; H – задача приостановлена системой, выполнение будет продолжено; Q – задача находится в очереди на исполнение; R – задача выполняется; T – задача была перемещена в другую очередь. Полная информация о задаче с номером 1819 может быть получена с помощью команды qstat –f 1819 (вывод очень длинный и здесь не приводится). При работе программы информация, которая обычно выводится на экран, сохраняется в специальном файле с именем <�имя программы>.o<�номер задачи>, например test.o1819. Информация об ошибках содержится в файле <�имя программы>.e<�номер задачи> (test.e1819). Эти файлы после завершения задачи помещаются в тот каталог, откуда выполнялась команда qsub. Просмотреть файл test.o1819 можно командой testuser@oivt-master:~/test.parallel> cat test.o1819 Process 7 size 16 Process 9 size 16 Process 5 size 16 Process 6 size 16 Process 10 size 16 Process 8 size 16 Process 4 size 16 Process 2 size 16 Process 0 size 16 Process 3 size 16 Process 1 size 16 Process 13 size 16 Process 15 size 16 Process 12 size 16 Process 14 size 16 Process 11 size 16 (порядок строк может отличаться). Если вывод очень длинный, удобно пользоваться командой-просмотрщиком less: testuser@oivt-master:~/test.parallel> less ~/test.o1819 При этом доступны следующие операции: перемещение по файлу (вперед и назад – с помощью стрелок, в начало файла – клавиша g, в конец – G, на страницу вперед – пробел, на страницу назад – клавиша b); поиск по файлу (поиск – клавиша /, поиск следующего совпадения – клавиша n). Выход из программы – клавиша q. После исполнения программы очередь очищается. Максимальное запрашиваемое время запуска зависит от очереди. Удаление задачи из очереди выполняется с помощью команды qdel <�номер задачи>. Следует учитывать, что на удаление задачи из очереди требуется несколько секунд. В редких случаях, когда команда qdel не срабатывает, то есть задача не удаляется из очереди или не прекращает исполнение, попробуйте исполнить команду qsig –s 0 <�номер задачи>. Если и это не помогает, обратитесь к администратору кластера. Для компиляции программ в операционной системе UNIX традиционно используют весьма гибкую и простую в использовании систему make. При этом вся последовательность компиляции описывается в одном файле (обычно Makefile, пример можно найти в директории ~/test.parallel). Конфигурации параллельной среды На кластере определены несколько конфигураций параллельной среды. Каждая конфигурация может использовать различные компиляторы, параллельные библиотеки, библиотеки коммуникационной среды и т.д. Работа с конфигурациями производится с помощью команды switcher. Посмотреть текущую конфигурацию можно командой testuser@oivt-master:~> switcher mpi --show user:default=openmpi-intel-1.3.1 user:exists=1 Из вывода видно, что конфигурация по умолчанию использует параллельную библиотеку OpenMPI и компиляторы Фортрана и C фирмы Intel. Список доступных конфигураций можно посмотреть командой testuser@oivt-master:~> switcher mpi --list openmpi-intel-1.3.1 mvapich-intel-1.0.0 openmpi-gnu-1.3.1 mvapich-intel-1.1 impi-1.3 Используются следующие библиотеки и компиляторы: openmpi-intel-1.3.1 – OpenMPI-1.3.1, компиляторы Intel mvapich-intel-1.0.0 – mvapich-1.0.0, компиляторы Intel openmpi-gnu-1.3.1 – OpenMPI-1.3.1, компиляторы GNU mvapich-intel-1.1 – mvapich-1.1, компиляторы Intel impi-1.3 – Intel MPI – 1.3., компиляторы Intel Переключиться на другую конфигурацию можно следующим образом: testuser@oivt-master:~> switcher mpi = openmpi-gnu-1.3.1 (пробелы здесь существенны!) Нужно согласиться с заданным вопросом и после этого выйти из оболочки с помощью команды exit, а затем зайти снова под своим учетным именем. Изменения вступят в силу только после этой процедуры, в чем можно убедиться с помощью команды switcher mpi –show. Необходимо отметить, что в разных конфигурациях параллельной среды используются различные команды для запуска параллельных задач. Во избежание проблем рекомендуется пользоваться конфигурациями openmpi за исключением тех случаев, когда Вы уверены, что в конфигурациях openmpi нет необходимых Вам особенностей. Компиляция программ на кластере В настоящее время на кластере установлены компиляторы C++ и Fortran90 компании Intel версии 10.1, а также свободно-распространяемые компиляторы C++ и Fortran90 версии 4.1.2. В конфигурации по умолчанию используются компиляторы Intel, параллельная программа на Fortran’е может быть скомпилирована командой mpif90 –O2 file1.f file2.f file3.f –lm –o file Здесь file1.f, file2.f, file3.f – список исходных файлов с фортрановским текстом программы, –O2 – ключ оптимизации, -lm – линковка с использованием стандартной математической библиотеки, file – имя выходного исполняемого файла (в системе UNIX исполняемым может быть файл с любым названием). Документацию по компиляторам можно посмотреть с помощью команд man <�имя компилятора>, например, man ifort. Напоминаем, что не следует запускать полученный исполняемый файл на головной машине. Для запуска программы следует сформировать «задание», для описания которого служит специальный файл. Рассмотрим далее формат файла pbsrun из директории ~/test.parallel, который служит для постановки задачи в очередь: #!/bin/bash ###PBS script to run task #PBS -S /bin/bash #PBS -N test #PBS -l nodes=2:ppn=8 #PBS -l walltime=00:15:00 # -------Do not edit the script below this line! -------------- cd $PBS_O_WORKDIR mpirun ./$PBS_JOBNAME Этот файл представляет собой скрипт (интерпретируемую программу), содержащий помимо команд и директивы для системы очередей. Строки, начинающиеся со знака #, являются комментариями. Директивы для системы очередей начинаются с последовательности #PBS. Директива #PBS –S /bin/bash задает командный процессор для запуска задачи. Директива #PBS –N test, описывает имя задачи и одновременно имя исполняемого файла задачи (в данном случае test). Это имя будет фигурировать в поле Name в выводе команды qstat. Все директивы #PBS –l задают параметры задачи. В данном случае запрашивается количество узлов (#PBS -l nodes=2:ppn=8) и время работы программы (#PBS -l walltime=00:15:00, 15 минут). При запуске нужно запросить определенное число узлов, в данном случае, 2 по восемь процессоров на каждом (ppn – processors per node). Если нужно, например, запросить 32 процессора, директива может быть такой: #PBS –l nodes=4:ppn=8 Здесь запрашивается 4 узла по восемь процессоров на каждом. Остальные директивы рекомендуется оставить без изменения. Более подробно об их работе можно узнать с помощью команды man qsub Обо всех изменениях в программном обеспечении и организации работы на кластере зарегистрированные пользователи будут оповещаться по электронной почте. |
Федеральное государственное бюджетное образовательное учреждение высшего образования «Поставка вычислительной платформы с характеристиками, соответствующими техническому заданию заказчика, для повышения производительности... |
Должностная инструкция экономиста вычислительного (информационно-вычислительного)... Экономист вычислительного (информационно-вычислительного) центра (далее вц (ивц) относится к категории специалистов |
||
Томский политехнический университет Лаборатория мультифизического моделирования на базе вычислительного кластера «скиф-политех» |
Документация об электронном запросе котировок По на территории рф, права пользования по ibm для вычислительного кластера для нужд ОАО «Авиадвигатель» |
||
Программа развития туристско-рекреационного кластера Мурманской области на 2015-2017 г г Описание кластера и факторы, определяющие его текущее положение в экономике. 5 |
Руководство пользователя вычислительного кластера Руководство предназначено для работы на вычислительном кластере Оренбургского государственного университета. Руководство содержит... |
||
Программа «Интерробанг». Версия Инструкция по использованию С помощью кнопки Импорт откройте для правки файл в формате txt c кодировкой utf-8 |
Программа развития биотехнологического инновационного территориального... Директор Некоммерческого партнерства «Содействие развитию Биотехнологического кластера Пущино» |
||
Инструкция по использованию программы «Калькулятор нмцк», версия 0 Федеральный закон от 5 апреля 2013 г. N 44-фз «О контрактной системе в сфере закупок товаров, работ, услуг для обеспечения государственных... |
Инструкция по использованию программы «Калькулятор нмцк», версия 0 Федеральный закон от 5 апреля 2013 г. N 44-фз «О контрактной системе в сфере закупок товаров, работ, услуг для обеспечения государственных... |
||
Программа развития кластера высокотехнологичного машиностроения и приборостроения 2016 Паспорт программы развития Кластера высокотехнологичного машиностроения и приборостроения 4 |
Пошаговое руководство по настройке двухузлового отказоустойчивого... В настоящем руководстве приводятся инструкции по установке и настройке отказоустойчивого кластера для сервера печати с двумя узлами.... |
||
Руководство для пользователей linux кластера лит оияи В нашем «Руководстве для пользователей Linux кластера лит оияи» обобщен опыт работы на данном кластере и содержатся основные сведения,... |
Инструкция по использованию: [Текст], написанный серым шрифтом в... Руководство пользователя сервиса предоставление сведений о строениях, расположенных на территории одной из территориальных единиц... |
||
Об утверждении программы развития инновационного территориального... В целях повышения конкурентоспособности экономики Самарской области за счет реализации потенциала эффективного взаимодействия участников... |
«Oktell Connect» : система интеграции «1С: Предприяти 2» с коммуникационной платформой Oktell Решение предназначено для оптимизации обработки входящих и исходящих телефонных звонков в малых, средних и крупных организациях.... |
Поиск |