Министерство образования и науки Российской Федерации
Государственное образовательное учреждение высшего профессионального образования
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ НАЦИОНАЛЬНОГО ИССЛЕДОВАТЕЛЬСКОГО УНИВЕРСИТЕТА
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет информационных технологий и вычислительной техники
Кафедра информационные технологии и автоматизированные системы
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
на тему
Разработка и программная реализация модульной интегрируемой системы предоставления средств голосового интерфейса для разработки программного обеспечения
Выполнил студен группы АПМ-121
Ильский А.А.
Научный руководитель:
доцент, канд.техн.наук Клышинский Э.С.
Консультант:
доцент, канд.техн.наук. Клышинский Э.С.
Москва 2013
ОГЛАВЛЕНИЕ
АННОТАЦИЯ 4
ВВЕДЕНИЕ 6
ГЛАВА 1. Голосовой интерфейс и технологии распознавания речи в разработке программного обеспечения 11
1.1. Интерфейсы - основа реализации взаимодействия всех современных информационных систем 11
1.2. Голосовые интерфейсы, компоненты, виды и задачи Системы распознавания речи Исторический обзор систем распознавания речи 13
1.4. Обзор продуктов использующих технологии распознавания речи и голосового интерфейса, потребителей и перспективы 27
1.5. Специализированные голосовые интерфейсы, голосовой интерфейс в разработке программного обеспечения 34
ГЛАВА 2. Адаптация технологий голосового интерфейса и распознавания речи к разработке программного обеспечения. Проектирование системы 40
2.1. Анализ задачи программирования 40
2.2. Условия разработки системы и ее программной реализации 44
2.3. Концептуальная архитектура модульной, интегрируемой системы предоставления средств голосового интерфейса 50
2.4. Платформа плагинов и расширений 52
2.5. Инструменты разработки 59
ГЛАВА 3. Разработка прототипа программной реализации системы и специализированных средств голосового интерфейса 64
3.1. Архитектура прототипа программной реализации 64
3.2. Описания программной реализации 65
3.3. Разработанные общие решения и функционал голосового интерфейса 68
3.4. Разработанные средства голосового интерфейса 71
ЗАКЛЮЧЕНИЕ 83
Список используемой литературы 85
АННОТАЦИЯ
к магистерская диссертация на тему: «Разработка и программная реализация модульной интегрируемой системы предоставления средств голосового интерфейса для разработки программного обеспечения».
Автор: Ильский А.А.
Объем магистерской диссертации 81 страница, в ней содержится 29 таблиц, 4 рисунка, 30 источников литературы.
Ключевые слова:голосовой интерфейс, распознавание речи, разработка программного обеспечения.
Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.
Цель - разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения, а также разработка системы и прототипа ее программной реализации.
Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.
Диссертационное исследование состоит из введения, трех глав основного содержания, заключения, списка библиографии и приложений.
В первой главе введены основные понятия, произведен обзор предметных областей, выявлена специфика применения средств голосового интерфейса для разработки программного обеспечения.
Во второй главе рассмотрена задача разработки программного обеспечения, предложен подход для адаптации, обозначены современные условия разработки в отрасли информационных технологий, произведено проектирование архитектуры и выбор инструментария для разработки программной реализации.
В третьей главе разработана архитектура программной реализации, представлено ее программное описание и базовый набор средств голосового интерфейса, разработанных с использованием ее прототипа.
В заключении - основным теоретическим результатом данной магистерской диссертации является выработка, концепции, подхода и формулировка правил, условий и ограничений задачи разработки и программной реализации систем предоставления средств специализированных голосовых интерфейсов в частности для разработки программного обеспечения.
Основным практическим результатом стала разработка базового функционала и прототипа голосового интерфейса для разработки программного обеспечения, на основе созданного исследовательского прототипа программной реализации.
Публикации: По материалам диссертации опубликована 1 печатная работа.
А.А. Ильский Программирование голосом, как необходимость Материалы шестнадцатого научно-практического семинара «Новые информационные технологии в автоматизированных системах», 2013 года.
ВВЕДЕНИЕ
Создание интерфейсов, поддерживающих и предлагающих более эргономичные и естественные формы диалога между пользователями и компьютерной техникой, движется и ускоряется внедрением информационных технологий в след растущим потребностям профессиональной и повседневной деятельности человека. В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированны на пользователя.
Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс - он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Голосовой интерфейс качественным образом изменяет способ, а следовательно и эффективность взаимодействия пользователя с системой. Голосовой поиск от компании Google и голосовой ассистент Siri от компании Apple являются этому яркими примерами, подтверждая насущную необходимость внедрения речевых технологий, в частности распознавания речи и голосовых интерфейсов.
Важный и практический аспект данных проблем связаны с тем, что голосовой интерфейс является необходимой компонентой, когда речь идет о создании комфортных условий жизни для людей с нарушениями опорно-двигательного аппарата, а также специалистам утратившим возможность использовать стандартные средства в результате профессионального заболевания, травмы или увечья. Такие системы со временем войдут в повседневный быт в процессе реализации концепции так называемых «умных домов».
Современность темы исследования определяется тем, что Рынок речевых технологий стремительно развивается, охватывая практически все сферы нашей жизни. По данным отчета «Automatic Speech Recognition Application Market 2010-2013», на сегоднейший день мировой рынок речевых технологий оценивается примерно в 900 млн. долларов,а рост составляет около 28% в год.
Российский рынок систем распознавания речи и других высоко технологичных решений в области речевых технологий невелик. По оценки компании «Стэл — компьютерные системы», его объем составляет порядка $10 млн., а динамика — порядка 15-30%.
В связи с вышесказанным становится актуальной проблема возможности создания голосовых интерфейсов для специалистов и систем предоставляющих такие средства, учитывая невозможность мгновенного перехода и необходимость адаптации к новым инструментам и средствам, очевидной становится потребность в интеграции с уже существующими системами. На практике решение подобной задачи и создание необходимой интегрируемой системы оказывается нетривиальным.
Далеко не все задачи разработки голосового интерфейса в настоящее время можно считать решенными. Проблема разработки голосового интерфейса является достаточно сложной и комплексной, что требует от разработчика знаний в различных предметных областях, таких как компьютерные науки, лингвистика и психология поведения человека. Даже при наличии продвинутых средств проектирования, разработка эффективного голосового пользовательского интерфейса требует от его создателей детального понимания как задач, выполняемых системой, так и психологии пользователей системы.
Проведенный библиографический поиск и анализ информации в Internet подтвердил актуальность данной темы тем, что в настоящее время многие ведущие компании усиливают работу в направлении развития голосовых интерфейсов и технологии распознавания речи.
Распознавание речи - технология, позволяющая использовать естественный для человека речевой интерфейс для взаимодействия с электронной техникой [1]. Сложность распознавание речи состоит в том, что совокупность таких характеристик голоса и речи как тембр, громкость, высота, темп, интонация, качество дикции делают речь каждого человека по-своему неповторимой и уникальной как отпечатки пальцев. Задачей компьютерной техники и программного обеспечения в состоит в том, чтобы распознать сказанные человеком слова в любых, не беря экстремальные, условиях без какой-либо предварительной адаптации под конкретный голос.
Применение средств голосового интерфейса и технологий распознавания речи для разработки программного обеспечения только начинает свое развитие в мире и еще не представлено в России.
Целью работы является — разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения, а также разработка интегрируемой системы предоставляющей средства такого интерфейса и прототип ее программной реализации.
Для достижения цели сформулированы и поставлены следующие задачи:
изучение текущего состояния голосовых интерфейсов и соответственно области распознавания речи;
произвести анализ предметных областей, обозначить существующие проблемы, трудности и недостатки применения не специализированных средств голосового интерфейса;
разработать концептуальную архитектуру системы;
разработать прототип программной реализации системы, имеющую модульную архитектуру с возможностями интеграции, учитывая условия и современные тенденции отрасли информационных технологий;
разработать базовый набор средств голосового интерфейса для разработки программного обеспечения.
Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.
Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.
Работа состоит из введения, трех глав и заключения. Введение раскрывает актуальность, определяет степень научной разработки темы, объект, предмет, цель, задачи и методы исследования, раскрывает теоретическую и практическую значимость работы В первой главе введены основные понятия, произведен обзор предметных областей, выявлена специфика применения средств голосового интерфейса для разработки программного обеспечения. Во второй главе рассмотрена задачи и потребности разработки программного обеспечения, предложен подход для адаптации, обозначены современные условия разработки в отрасли информационных технологий, произведено проектирование архитектуры и выбор инструментария для разработки программной реализации. В третьей главе разработана архитектура программной реализации, представлено ее программное описание и базовый набор средств голосового интерфейса, разработанный с использованием ее прототипа.
ГЛАВА 1. Голосовой интерфейс и технологии распознавания речи в разработке программного обеспечения
1.1. Интерфейсы - основа реализации взаимодействия всех современных информационных систем
Попытки научить компьютеры общаться с людьми при помощи естественного голосового интерфейса предпринимались с первых лет истории компьютерной техники.
Интерфейс – способ взаимодействия компьютерной системы (программы) с пользователями и устройствами.
На основе интерфейса реализуется взаимодействие всех современных информационных систем. Под интерфейсом понимается набор средств, правил и методов, за счет которых осуществляется коммуникация между элементами системы, различными программами и устройствами. Под совокупностью средств, методов и правил подразумевают: средства вывода информации из устройства(системы) пользователю — весь доступный спектр воздействий на организм человека (зрительных, слуховых, тактильных, обонятельных и других.), средства ввода информации/команд пользователем реализуются сейчас множеством всевозможных устройств. Методы как набор правил, заложенных разработчиком устройства, согласно которым совокупность действий пользователя должна привести к необходимой реакции устройства и выполнению требуемой задачи,и правила эти должны быть достаточно ясны для понимания и легки для запоминания.
По наличию тех или иных средств ввода, интерфейсы разделяются на типы:
голосовой,
жестовый ,
возможны смешанные варианты.
Пользовательский интерфейс (англ. user interface,) - разновидность интерфейсов взаимодействия управляемых человеком систем. Термин применяется по отношению к компьютерным программам (приложениям).
Как любая система общения с устройствами, которые способны к интерактивному взаимодействию с пользователем, существуют: графический интерфейс пользователя (программные функции реализуются графическими элементами экрана), диалоговый интерфейс (поисковая строка), интерфейс программирования приложений, сетевой интерфейс, интерфейс операционной системы(ОС).
Одним из самых важных показателей, характеризующих интерфейс пользователя, является usability – логичность и простота элементов управления, удобство программы или системы в пользовании с целью быть необходимыми и достаточными, удобными и практичными, расположенными и скомпонованными разумно и понятно, и соответствовать психофизиологии человека.
Увеличение в устройстве (при равной функциональности) средств ввода-вывода дает упрощение построения методов управления и упрощение правил пользования, но зато приводит к сложности восприятия информации пользователем — интерфейс становится перегруженным.
И наоборот — уменьшение средств отображения и контроля приводит к усложнению правил управления, так как каждый элемент несет на себе слишком много функций.
В связи с увеличением интенсивности обмена информацией в системе «человек-машина» особое значение имеет снижение нагрузки на тактильно-зрительные каналы человека. Например, в системах управления востребованной является идея голосового контроля и управления состоянием системы (речевое общение для контроля состояния работы самолета, бес кнопочный телефон, речевое управление производственными процессами).
Внедрение голосового интерфейса оставит глаза и руки оператора (пилота, водителя, рабочего за станком) свободными от перегрузки, что повысит надежность и качество управления.
Использование речевого диалога в системах массового обслуживания населения также актуально[2]. Помимо исключительного удобства для населения, такие системы повышают коммерческую выгоду как за счет привлечения дополнительной клиентуры, так и путем замены человека-оператора компьютерными системами с голосовым интерфейсом.
1.2. Голосовые интерфейсы, компоненты, виды и задачи Системы распознавания речи Исторический обзор систем распознавания речи
Преимущества голосового интерфейса:
оперативность и естественность;
минимум специальной подготовки пользователя;
возможность управления объектом в темноте, за пределами его визуальной видимости (в частности, с использованием существующей телефонной сети);
возможность использования одновременно ручного (с помощью клавиатуры) и голосового ввода информации;
обеспечение мобильности оператора при управлении.
К основным классам задач голосового интерфейса следует отнести:
синтез речи – эта задача включает в себя комплекс подзадач и заключается в обеспечении возможности произнесение речи компьютером на основе произвольного орфографического текста;
анализ и распознавание речи – комплекс задач, включающих запись, оцифровку и анализ речи для распознавания полученного речевого сообщения компьютерной системой;
понимание (интерпретация) речи – это комплекс задач, связанных с анализом смысла речевых сообщений и формированием реакции (ответа) компьютерной системы;
распознавание голоса – комплекс задач, включающих анализ особенностей голоса говорящего с целью выявления каких-либо его индивидуальных (личностных) особенностей и качеств;
компьютерное клонирование голоса и дикции – это создание близкой копии, но не биологической, а компьютерной, и не всего существа в целом (в данном случае человека), а только одной из его интеллектуальных функций: чтение произвольного орфографического текста[3].
Общая структура голосового интерфейса включает два основных компонента:
синтез речи;
распознавание речи.
Каждая из задач голосового интерфейса является достаточно сложной, то в соответствие указанным компонентам ставятся два отдельных класса систем:
системы синтеза речи;
системы распознавания речи.
Реализация речевого диалога происходит посредством диалога, при котором запрос и ответ со стороны пользователя ведется на языке, близком к естественному. Пользователь свободно формулирует задачу, но с набором установленных программной средой слов, фраз и синтаксиса языка Разновидностью интерактивного естественного диалога является речевое общение с компьютерной системой. В этом случае человеческий голос может преобразовываться, например, в текст, или использоваться для интерактивного управления системой, или для идентификации личности. В основе данных процессов лежит технология и решение задачи распознавания речи.
Речь в физическом смысле - это акустический сигнал, генерируемый артикуляционными органами человека, передающийся через физическую среду, воспринимаемый ухом человека. При естественной или искусственной генерации речи в акустическом сигнале изменяются физические параметры. Эти изменения воздействуют на мембрану уха, создают траектории звуковых образов, понимаемых человеком как соответствующие звуки данного языка, или иначе говоря, при произнесении слов человек генерирует звуки (фонемы), которые несут информацию о тех символах, с помощью которых эти слова могут быть записаны в виде текста.
Математическую модель генерации звука можно представить в виде возбуждающих генераторов тонового и белого шума, группы резонаторов, модуляторов и ключей (рот, нос, язык, губы), обеспечивающих формирование ощущения определенного звука.
Системы распознавания речи - это системы, анализирующие акустический сигнал алгоритмами, основанными на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующие его в различной полноте в необходимую форму.
Заблаговременно формируется база фонем языка, содержащая шаблоны базового набора слов при «усредненной» речи, то есть независящей от диктора. Речь переводится в фонемное описание и поступает в файл описания фонем, откуда это описание поступает в блок распознавания, проводящий сравнение поступившей информации с той, которая хранится в базе. Формируются распознанные слова, которые преобразуются в текстовые данные или команду.
Системы распознавания речи состоят из двух частей - акустической и лингвистической. В общем случае могут включат в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка.
Акустическая - отвечает за представление речевого сигнала, за его преобразование в некоторую форму, в которой в более явном виде присутствует информация в содержании речевого сообщения.
Лингвистическая - интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю.
Задачи распознавания речи - автоматическое восстановление текста произносимых человеком слов, фраз или предложений на естественном языке и проблемы идентификации, шумоочистки, распознавания языков, оценки психофизического состояния человека. При решении задачи распознавания слитной речи человек применяет свои знания о естественном языке, а также смысл произносимого для устранения неоднозначности при восстановлении текста предложения.
Поэтому задачу распознавания речи дополнительно разделяют на две независимые задачи:
задачу локального распознавания речи;
задачу восстановления текста слитной речи по множеству возможных гипотез распознавания.
Рассмотрим мировую историю развития области распознавания речи и голосовых интерфейсов.
Обзор предметной области. История развития систем распознавания речи и голосовых интерфейсов.
|