МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Государственное образовательное учреждение высшего профессионального
образования
«Российский государственный гуманитарный университет»
Отделение интеллектуальных систем в гуманитарной сфере
Кафедра математики, логики и интеллектуальных систем в гуманитарной сфере
На правах рукописи
Волкова Анна Юрьевна
РАЗРАБОТКА АЛГОРИТМИЧЕСКИХ И ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РЕАЛИЗАЦИИ СТРАТЕГИЙ ДСМ-МЕТОДА АВТОМАТИЧЕСКОГО ПОРОЖДЕНИЯ ГИПОТЕЗ
05.13.17 – Теоретические основы информатики
Диссертация на соискание ученой степени кандидата
технических наук
Научный руководитель:
д.т.н., профессор
В.К. Финн
Москва 2014
ОГЛАВЛЕНИЕ
1)ДСМ-метод является синтезом познавательных процедур для извлечения знаний из баз фактов (БФ). 4
2)ДСМ-системы удовлетворяют принципу качественного анализа данных: «сходство фактов в БФ влечет наличие (отсутствие) изучаемого эффекта и его повторяемость». Мы можем задать алгебраическую операцию нахождения сходства двух фактов, так как в БФ реализуется определенная структура данных. Правдоподобные рассуждения используют отношение сходства. 5
3)ДСМ-метод включает несколько этапов фальсификации, встроенные в процедуры индукции и аналогии. 5
4)ДСМ-рассуждение завершается применением абдукции – процедуры объяснения исходного множества фактов и принятия на этом основании порождённых гипотез. 5
5)Знания в базах знаний (БЗ) представлены в виде квазиаксиоматических теорий (КАТ), которые содержат формализованное представление множества аксиом (частично характеризующих предметную область), расширяемые БФ и множество гипотез, а также множество правил вывода. 5
6)ДСМ-метод АПГ фактически реализует схему роста знаний эволюционной эпистемологии К.Р. Поппера [8, С. 164-165]. 5
7)Диагностика двух заболеваний глаз: дегенеративного ретиношизиса и наследственных витреоретинальных дистрофий (Лаборатория клинической физиологии зрения МНИИ глазных болезней им. Гельмгольца). 12
8)Диагностика системной красной волчанки (Отделение нефрологии Городской клинической больницы им. Боткина). 13
9)Прогнозирование продолжительности жизни больных меланомой и оценка прогностического биохимического маркера – протеина S100 (Российский Онкологический Научный Центр РАМН имени Н.Н. Блохина). 13
1. Назначение программы 240
1. Обзор 249
2.Технические требования для работы с системой 250
3.Проведение эксперимента 251
9.1. Подготовка файла SPSS 251
9.2. Приложение «Проведение эксперимента» 252
13)Если в выборке респондентов присутствуют те, у которых оценка изучаемого эффекта – «неопределенно», и после получения гипотез система смогла доопределить оценку хотя бы для одного респондента, то процесс ДСМ-рассуждений будет повторяться до стабилизации (все неопределенные объекты доопределены или ни один пример больше не доопределяется). 276
3.Просмотр результатов эксперимента 281
4.Обратная связь 305
введение
Огромную роль в развитии направления исследований «искусственный интеллект» играет интеллектуальный анализ данных (ИАД). В англоязычной литературе ему обычно соответствуют термины «data mining» и «knowledge discovery», однако, по-видимому, это верно лишь при широком толковании ИАД как извлечения нового полезного знания из неформализованных данных посредством различных формальных методов (статистические процедуры, нейронные сети, генетические алгоритмы, деревья решений и др.). Мы же под ИАД понимаем анализ данных посредством интеллектуальной системы (ИС) [1].
Структуру интеллектуальной системы можно представить в виде трех основных блоков: Информационная среда, Решатель задач и Интеллектуальный интерфейс [2]. Информационная среда состоит из базы фактов (БФ) и базы знаний (БЗ). БФ содержит множество фактов, которые являются результатами эмпирического исследования. БЗ включает аксиомы, характеризующие исследуемую предметную область, аксиомы структуры данных и процедуры, которые реализует Решатель задач.
Решатель задач в свою очередь состоит из трех модулей: Рассуждатель, Вычислитель и Синтезатор. Они осуществляют, соответственно, правдоподобные выводы, вычисления, необходимые для решения поставленной задачи, объединение рассуждений, вычислений и комбинаторных алгоритмов. Синтезатор также выбирает стратегии решения задач [3].
Интеллектуальный интерфейс является средством общения пользователя с ИС и выполняет такие функции, как [4]: диалог на естественном языке (обычно ограниченном), автоматический синтез программы (в данном случае речь идет способность вызывать процедуры Решателя задач), обоснование полученных результатов и обучение работе с системой.
Интеллектуальные системы типа ДСМ (ДСМ-системы) являются примером ИС, которые реализуют когнитивные правдоподобные эмпирические (КПЭ) рассуждения типа «индукция + аналогия + абдукция» (с возможным применением дедукции). Как рассмотрено в [1], КПЭ-рассуждения можно эффективно использовать для имитации познавательных способностей естественного интеллекта, а именно – цикла «анализ данных – порождение гипотез (предсказание) - объяснение» [3].
ДСМ-рассуждения формализуются средствами бесконечнозначной логики предикатов с кванторами по кортежам переменной длины [5] и реализуются в ИС с использованием машинного (индуктивного) обучения для knowledge discovery в базах фактов [3].
ДСМ-метод автоматического порождения гипотез (АПГ) включает 6 компонент [3, 6]: условия применимости, правдоподобные рассуждения, квазиаксиоматические теории как средство организации БФ и БЗ, исследования предметной области (дедуктивная имитация индукции, аналогии и абдукции, определения исходных предикатов, препроцессинг), средства распознавания эмпирических закономерностей и интеллектуальные системы типа ДСМ (ИС-ДСМ). Все компоненты ДСМ-метода представлены в диссертации.
ДСМ-метод является мощным логико-комбинаторным методом интеллектуального анализа данных, который применим в различных предметных областях при выполнении следующих условий [7]:
(а) Знания предметной области могут быть плохо формализованы, но данные хорошо структурированы, что позволяет определить на изучаемых объектах операцию сходства.
(б) База фактов содержит описание предметной области и «..образована фактоподобными высказываниями вида «объект C имеет множество свойств А», которым приписаны оценки «фактически истинно» (1), «фактически ложно» (-1), «фактически противоречиво» (0), «неопределенно» (τ)» [7, С.400]. Множество свойств А называют эффектом. Положительные примеры (с типом истинностного значения, равным 1) обладают исследуемым эффектом, отрицательные примеры (с типом истинностного значения, равным -1) – не обладают. Неопределенные примеры (с типом истинностного значения, равным τ) – это примеры, требующие доопределения.
(в) В БФ неявно должны содержаться зависимости причинно-следственного типа: (±)-причины исследуемых эффектов.
ДСМ-метод АПГ отвечает принципам компьютерного интеллектуального анализа данных (knowledge discovery), а именно [6]:
1)ДСМ-метод является синтезом познавательных процедур для извлечения знаний из баз фактов (БФ).
2)ДСМ-системы удовлетворяют принципу качественного анализа данных: «сходство фактов в БФ влечет наличие (отсутствие) изучаемого эффекта и его повторяемость». Мы можем задать алгебраическую операцию нахождения сходства двух фактов, так как в БФ реализуется определенная структура данных. Правдоподобные рассуждения используют отношение сходства.
3)ДСМ-метод включает несколько этапов фальсификации, встроенные в процедуры индукции и аналогии.
4)ДСМ-рассуждение завершается применением абдукции – процедуры объяснения исходного множества фактов и принятия на этом основании порождённых гипотез.
5)Знания в базах знаний (БЗ) представлены в виде квазиаксиоматических теорий (КАТ), которые содержат формализованное представление множества аксиом (частично характеризующих предметную область), расширяемые БФ и множество гипотез, а также множество правил вывода.
6)ДСМ-метод АПГ фактически реализует схему роста знаний эволюционной эпистемологии К.Р. Поппера [8, С. 164-165].
Таким образом, ДСМ-метод АПГ является формализованной эвристикой, которая позволяет создавать компьютерные системы, решающие определенный круг задач для различных предметных областей. ДСМ-системы успешно применялись к таким предметным областям, как фармакология, медицинская и техническая диагностика, социология, криминалистика, робототехника [5, 7, 9, 10, 11, 12]. Перечень основных публикаций можно найти в [12].
Эффективность ИС-ДСМ зависит как от возможностей Решателя, так и представления данных в БФ и знаний в БЗ. Созданные ранее ДСМ-системы обычно применялись для решения практических задач одной предметной области и имели Решатель, реализующий базовые методы ДСМ-рассуждений: простой метод сходства и его усиления – запрет на контрпримеры.
Созданная в ходе диссертационного исследования ДСМ-система не только предоставила реализацию стандартных методов, но и расширила возможности Решателя новыми стратегиями. На практике удалось провести анализ данных на разных предметных областях, удовлетворяющих условиям применимости ДСМ-метода. Было разработано представление данных трех предметных областей: фармакологии, медицинской диагностики и социологии. Архитектура системы позволила применить к ним один и тот же Решатель, что делает систему универсальной относительно рассматриваемых БФ и БЗ.
В Решателе впервые было реализовано четыре индуктивных метода Д.С. Милля [13]. Созданные методы были протестированы на данных фармакологии и медицинской диагностики. Проведенные эксперименты показали интересные результаты и позволили сравнить различные стратегии между собой. В процессе работы с социологическими данными были реализованы процедуры обратного ДСМ-метода и предусмотрена поддержка ситуационного расширения ДСМ-рассуждений.
Концепция ИС-ДСМ и архитектура Решателя были специализированы для решения социологических задач. Была создана автономная компьютерная ИС JSM-Socio, посредством которой были исследованы задачи с новым представлением знаний: описание субъекта (социальный характер субъекта, индивидуальные черты личности, биографические данные), мнение субъекта (о ситуации, о возможном поведении), ситуация (контекст поведения). JSM-Socio является подспорьем социологам для решения задач качественного анализа социологических данных.
Актуальность диссертационного исследования обусловлена необходимостью создания Решателя задач, применимого к сериям компьютерных ИС для различных предметных областей и обладающего эффективными средствами для извлечения знаний из баз фактов. Такие ИС должны предоставить реализацию новых стратегий ДСМ-рассуждений, способных облегчить работу эксперта по анализу результатов работы системы.
Таким образом, предметом исследования диссертации являются методы анализа данных посредством правдоподобных рассуждений типа ДСМ и их применимость для задач фармакологии, медицинской диагностики и социологии. Средства анализа данных включают различные логические процедуры ДСМ-рассуждений, подходящую структуру представления данных и комфортный интерфейс для работы эксперта.
Цель диссертационной работы – создание Решателя задач и компьютерной интеллектуальной системы, реализующих ДСМ-метод АПГ для различных предметных областей в науках о жизни и социальном поведении, а также обоснование того факта, что разработанная ИС может эффективно применяться в конкретной предметной области – социологии. В связи с этим необходимо было разработать не зависящие от предметной области алгоритмы и программы, реализующие ДСМ-рассуждения; создать компьютерную ДСМ-систему, допускающую широкий выбор возможных ДСМ-стратегий; провести эксперименты (с использованием реализованных программных средств) на данных различных предметных областей и сравнить полученные результаты; создать спецификацию ИС для качественного анализа социологических данных.
Для достижения указанной цели были поставлены и решены следующие задачи:
разработана ДСМ-система с гибкой архитектурой, допускающей расширение ее функциональных возможностей, для анализа данных различных предметных областей;
реализованы различные версии ДСМ-метода АПГ (прямой [13] /обратный [14] ДСМ-метод, ситуационное расширение [15] ДСМ-метода);
создана программная реализация различных методов ДСМ-рассуждений
(в том числе четырех индуктивных методов Д.С. Милля [13]);
созданы различные дополнительные процедуры ДСМ-рассуждений (например, реализация фильтров для гипотез (специальные ограничения на структуру гипотез, требующие присутствие определенных признаков в «теле» гипотезы), процедура «доопределение по одному» (процедура, позволяющая охарактеризовать исходную базу фактов относительно выбранной стратегии), построение дерева гипотез, вычисление непротиворечивости массивов гипотез);
реализованы структуры данных для различных предметных областей и разработаны представления и форматы данных, обрабатываемых ДСМ-системой, для фармакологии, медицинской диагностики и социологии;
разработан базовый графический интерфейс пользователя для «универсального» ДСМ-Решателя с целью проведения экспериментов с данными указанных выше областей;
проведено сравнение результатов экспериментов, полученных разными стратегиями на фармакологических и медицинских данных;
создана независимая ДСМ-система JSM-Socio для качественного анализа социологических данных с удобным графическим интерфейсом и апробация системы на практическом материале.
Для решения указанных задач использовались следующие методы: многозначная логика с целью представления знаний и формализации рассуждений, алгоритмы порождения сходств, технологии создания баз данных.
Информационной базой исследования стали многочисленные публикации по ДСМ-методу АПГ, приведенные в списке используемой литературы, а также знания, полученные в процессе тесного взаимодействия с экспертами в данной области.
Основные научные результаты, полученные в ходе исследования:
Разработана архитектура ДСМ-системы, позволяющая применять ее для различных предметных областей. Архитектура ИС представлена в первой главе «ДСМ-Решатель для анализа данных различных предметных областей». Графический интерфейс ИС рассмотрен в третьей главе «Графический интерфейс ДСМ-Решателя». «Руководство пользователю» представлено в Приложении Б.
Разработано представление данных фармакологии, медицинской диагностики и социологии, адекватное для применения процедур ДСМ-рассуждений. Внутреннее представление данных рассмотрено в первой главе, а внешнее (формат необходимые характеристики данных) – во второй главе «Визуальное представление данных».
Впервые был реализован ДСМ-Решатель, отличающийся наличием широкого выбора методов и стратегий ДСМ-рассуждений (в том числе четырех индуктивных методов Д.С. Милля [13]: метод простого сходства, метод различия, метод сходства-различия, метод остатков). Методы алгоритмически и программно были реализованы впервые, тем самым удалось расширить существующий арсенал методов машинного обучения. Все созданные процедуры ДСМ-рассуждений рассмотрены в первой главе. Основные классы для реализации процедур и стратегий ДСМ-метода АПГ представлены в Приложении А.
Была осуществлена симметризация ДСМ-процедур в Решателе (все методы можно применять как для (+)-, так и для (–)-предикатов). Появилась возможность проводить эксперименты, выбирая одинаковые или разные по силе методы, и сравнивать результаты относительно исследуемой БФ. Реализация процедур рассмотрена в первой главе.
Был установлен тот факт, что метод различия Д.С.Милля [13], который он считал наиболее полезным для выявления причинно-следственных закономерностей, не дает полезных результатов в практических исследованиях. Результаты представлены в четвертой главе «Анализ фармакологических и медицинских данных: экспериментальная проверка».
Проведено сравнение результатов применения различных стратегий ДСМ-метода (среди которых ряд стратегий программно был реализован впервые) к фармакологическим и медицинским данным. Эксперименты проводились на реальных данных, для анализа которых ранее использовали только базовые методы ДСМ-рассуждений (метод простого сходства и запрет на контрпримеры). Были получены интересные результаты, хотя порой данные не удовлетворяли условиям ДСМ-процедур. Эксперименты с применением новых методов рассмотрены в четвертой главе.
В ходе исследования медицинских (онкологических) данных была реализована процедура, упрощающая метод остатков. С ее помощью была подтверждена важная причинно-следственная связь на данных больных меланомой между протеином S100 и продолжительностью жизни больного: при значении уровня S100 меньше 0,12 нг/мл продолжительность жизни больного – больше 5 лет, при значении уровня S100 больше 0,12 нг/мл – меньше 5 лет. (Впервые эта связь была обнаружена Добрыниным Д.А. и Панкратовой Е.С. в результате компьютерных экспериментов с использованием ДСМ-системы, созданной в ВИНИТИ РАН [26]). Реализация этой процедуры рассмотрена в первой главе, детали эксперимента – в четвертой главе.
Удалось выявить связь между протеином S100 и продолжительностью жизни больных меланомой с помощью преобразования метода сходства-различия, образующего современную формализацию индуктивного метода различия Д.С.Милля (что означает большее правдоподобие этой гипотезы). Этот результат представлен в четвертой главе.
В результате практических экспериментов на данных фармакологии была скорректирована формулировка метода сходства-различия (с заменой отношения невложения друг в друга найденных причин на неравенство). Это продемонстрировано в четвертой главе.
Созданы средства распознавания непротиворечивости гипотез, которые могут применяться в связи с задачами поиска эмпирических закономерностей [44] и для объединения результатов разных стратегий. Реализация процедуры рассмотрена в первой главе, пример применения – в четвертой главе.
Реализована компьютерная поддержка качественного (нестатистического) анализа социологических данных посредством интеллектуальной системы (ИС-ДСМ JSM-Socio). Разработанное представление социологических данных позволяет анализировать примеры со сложной структурой, включающей описание субъекта, его мнение и ситуацию. Продемонстрировано, что JSM-Socio может эффективно использоваться на практике. Система рассмотрена в пятой главе «ДСМ-система JSM-Socio для анализа социологических данных». Кроме того, в Приложении В представлено «Руководство пользователю».
Первые системы, предназначенные для решения задач медицинской диагностики, были разработаны в 1970-х годах и являлись экспертными [16]. Экспертная система (ЭС) является частным случаем интеллектуальной системы. На основе сообщений эксперта строятся база фактов (проверенные знания, которые публикуются в статьях и справочниках) и база знаний (эмпирические правила, эвристики, которые представляют собой методы и правила, которые эксперт применяет в своей практике). Разработчики ЭС формализуют полученные знания в виде продукционных правил вида {«условия» -> «действия»} или {антецедент -> консеквент}, представленных в языке логики предикатов I-ого порядка и его усилений, с помощью семантических сетей и проч. [16, С.61] и реализуют устройство вывода, которое использует имеющиеся формализованные знания. В системе продукций для реализации вывода используется вывод, «определяемый условиями» (condition-driven inference) или вывод, «определяемый действием» (action-driven inference) [16, С.61-62]. Когда пользователь задает вопрос системе, устройство вывода дает ответ на основе БФ, БЗ и стратегий, которые были в него заложены. Очевидно, что эффективность работы ЭС в этом случае зависит только от тех знаний, которые удалось получить от эксперта.
Одна из наиболее известных систем такого типа – это система MYCIN, разработанная в начале 1970-х годов в Стэнфордском университете (http://ru.wikipedia.org/wiki/MYCIN). Система была предназначена для диагностирования бактерий, вызывающих тяжелые инфекции (бактериемия, менингит), для рекомендации необходимого количества антибиотиков в зависимости от массы тела пациента и для диагностики заболеваний свертываемости крови. MYCIN оперировала с помощью базы знаний из около 600 правил и машины вывода, которая осуществляла процедуры обратного поиска (вывод, «определяемый действием»).
Другой пример подобных систем - это система CASNET, предназначенная для диагноза и терапии глазных заболеваний [16, С.65]. Знания в системе были формализованы с помощью причинно-следственной семантической сети, посредством которой устройство вывода определяло эффективность терапии и стадию заболевания пациента.
Недостатки ЭС (трудность формализации знаний эксперта, неспособность обучаться и порождать новые знания) послужили толчком к развитию интеллектуальных экспертных систем (ИЭС), которые способны автоматически порождать правила и эмпирические зависимости [16, С.68]. На сегодняшний день в литературе можно найти много примеров таких систем. Они предназначены для решения различных задач и используют самые разные методы, в том числе методы искусственного интеллекта, например: машинное обучение, нейронные сети, генетические алгоритмы, распознавание образов и т.д. Стоит отметить, что одно из крупнейших зарубежных издательств Elsevier публикует журнал, который так и называется «Искусственный Интеллект в Медицине» (Artificial Intelligence in Medicine, http://www.aiimjournal.com).
В 1980-90-х годах был создан ряд отечественных медицинских систем: ДИАГЕН для диагностики наследственных болезней, ЭСТЕР для диагностики лекарственных отравлений, ГЕНРОСТ для диагностики заболеваний с нарушением роста, ДИН для диагностики неотложных состояний у детей, ВЕСТ-СИНДРОМ для диагностики судорожных состояний (эпилепсии) и др. [17]
Извлечение знаний в этих системах осуществлялось с привлечением интеллектуальной составляющей, например, введение ассоциативных знаний о симптомах заболевания, представленных в виде двунаправленного взвешенного графа, определение степени значимости каждого признака, выступающей в роли априорной вероятности для байесовского метода, введение признаков-отрицаний, однозначно отсекающих заболевания с альтернативным проявлением признаков (ДИАГЕН); построение таблицы запрещенных значений «диагностический признак – класс решений» (ЭСТЕР); использование технологии виртуальных статистик, которые формировались с использованием теоремы Байеса и учитывали диагностические оценки экспертов по обобщенным проявлениям болезни [17].
Другой пример отечественной медицинской системы, использующей непосредственно методы искусственного интеллекта, – это ДИАКОР-КС для диагностики и коррекции коммуникативного стресса [18]. Система использует оригинальное матричное представление данных и знаний и алгоритмы логико-комбинаторного выявления закономерностей с использованием и без использования генетических алгоритмов, а также включает механизмы проверки обучающей выборки на непротиворечивость и определения ее репрезентативности. На основе результатов системы ДИАКОР-КС была построена система ДИАПРОД для экспресс-диагностики и профилактики 3-х степеней тяжести депрессии. Инструментальный аппарат ДИАПРОД базируется на пороговой и нечеткой логике [19].
Наиболее распространенные средства, которые используют зарубежные медицинские системы, – это нейронные сети, теория вероятностей, нечеткая логика, генетические алгоритмы, деревья принятий решений [20]. Интеллектуальные системы широко используются для решения различных задач клинической диагностики и прогнозирования заболеваний, для назначения необходимого лечения пациентам, для анализа изображений в рентгенографии и гистопатологии, для анализа электроэнцефалограмм [21, 22], а также при создании медицинских интеллектуальных роботов [23, 24]. Примеры таких систем – это PERFEX для автоматического анализа снимков, полученных с помощью компьютерной томографии сердца и сосудов (1991); GIDEON для диагностики тропических и инфекционных заболеваний (1994); PAIRS для диагностики сложных случаев более 7000 заболеваний (2001); ERA для диагностики онкологических больных (2001); LISA для предоставления консультаций о дозах лекарств при лечении острого лимфобластного лейкоза у детей (2004); медицинские роботы Aesop (1994) и EndoAssist (2002), система da Vinci® (2001), которые используются врачами для проведения хирургических операций.
ДСМ-метод АПГ использует формализацию рассуждений и реализует познавательный цикл «анализ данных – порождение гипотез (предсказание) - объяснение» с использованием машинного (индуктивного) обучения [3].
Первая ДСМ-система для анализа данных медицинской диагностики была создана в ВИНИТИ РАН. ДСМ-метод применялся для прогнозирования и диагностики различных заболеваний. Решались следующие задачи [7, 9, 25, 26]:
Прогнозирование высокопатогенных типов вируса папилломы человека (ВПЧ) по цитологическим результатам исследования мазков (Кафедра клинической и лабораторной диагностики Российской медицинской академии последипломного образования).
7)Диагностика двух заболеваний глаз: дегенеративного ретиношизиса и наследственных витреоретинальных дистрофий (Лаборатория клинической физиологии зрения МНИИ глазных болезней им. Гельмгольца).
8)Диагностика системной красной волчанки (Отделение нефрологии Городской клинической больницы им. Боткина).
9)Прогнозирование продолжительности жизни больных меланомой и оценка прогностического биохимического маркера – протеина S100 (Российский Онкологический Научный Центр РАМН имени Н.Н. Блохина).
Применялись стратегии простого метода сходства и сходства с запретом на контрпримеры.
На текущий момент в ВИНИТИ РАН действующие системы для анализа медицинских данных программно были реализованы Д.А. Добрыниным и О.П. Шестерниковой [27]. Системы реализуют прямой ДСМ-метод АПГ. Множество свойств изучаемого объекта атомарно, то есть оно может включать только одно свойство. Для проведения экспериментов доступны процедуры простого метода сходства и запрета на контрпримеры. Среди дополнительных характеристик систем следует отметить возможность вводить ограничения на число родителей гипотез, на структуру гипотез (фильтры), а также проводить процедуру «доопределение по одному». Каждая система имеет развитый предметно-ориентированный графический интерфейс. Необходимо также упомянуть, что официально была зарегистрирована "Компьютерная интеллектуальная система прогнозирования клинического течения меланомы", предназначенная для применения в качестве компьютерного инструмента для врача-онколога (Свидетельство №2012615098). Система используется в РОНЦ им. Н.Н.Блохина РАМН для формирования группы риска больных меланомой. Система такого типа создана впервые.
Первым примером задач, для решения которых применялся ДСМ-метод, было выявление причинно-следственных закономерностей в фармакологии [5, 7, 9]. Эти задачи представляли собой прогнозирование биологических активностей химических соединений (например, противоопухолевой, психотропной, антибактериальной, антилепрозной, канцерогенной, мутагенной и токсичной активностей), прогнозирование канцерогенного эффекта при совместном введении двух химических соединений, а также прогнозирование путей биотрансформации (преобразование введенного в организм вещества в другие соединения).
Действующая система для анализа фармакологических данных программно была реализована Д.А. Добрыниным. ДСМ-Решатель системы поддерживает прямой атомарный ДСМ-метод АПГ, включающий процедуры простого метода сходства и запрета на контрпримеры.
В социологии ДСМ-системы применялись для решения таких задач, как изучение поведения рабочих на примере участия или неучастия в забастовках [28, 29, 30, 31], анализ и предсказание электоральных предпочтений студентов старших курсов Российского Государственного Гуманитарного Университета накануне декабрьских выборов в Государственную Думу в 2003 и 2007 годах [9].
Первая ДСМ-система для анализа социологических данных была разработана М.А. Михеенковой [30], а ее первое программное обеспечение было реализовано С.С. Московским [31]. Позже разработкой программных средств в этой области занимались Д.В. Панкратов [32], Ж.И. Бурковская [33], Т.Л. Феофанова [34]. Необходимо заметить, что на текущий момент существуют программы (с достаточно ограниченными функциональными возможностями) для качественного анализа социологических данных, реализующие метод «сравнительного качественного анализа» QCA (Qualitative Comparative Analysis) [35]. Метод QCA использует логику высказываний, тогда как ДСМ-метод – логику предикатов и машинное обучение. Поэтому применение метода QCA, обладающего более слабыми выразительными средствами, достаточно ограничено.
Программа, разработанная С.С. Московским, была лишена графического интерфейса и позволяла проводить эксперименты только с помощью стандартных средств прямого ДСМ-метода.
В работе Д.В. Панкратова был создана ДСМ-система, в которой впервые были представлены прямой и обратный ДСМ-метод; для выбора стратегии доступны процедуры простого метода сходства и запрета на контрпример(ы); создан первый графический пользовательский интерфейс для проведения экспериментов, визуализации исходных данных и порождаемых гипотез; предложены средства для кластеризации гипотез (с помощью диаграммы Хассе), создан блок преобразования исходных данных («правила сворачивания» признаков). Система была способна обрабатывать только текстовые файлы. Представление данных допускало введение ситуационных параметров, но практических экспериментов с использованием ситуационного ДСМ-метода не проводилось.
Целью диссертационного исследования Ж.И. Бурковской было создание системы, которая могла бы автоматизировать значительную часть работы эксперта-социолога. Были разработаны Информационная Среда ДСМ-системы (представляющая базу фактов и базу знаний), которая обеспечивает хранение данных и предоставляет различные инструменты формирования исходной БФ, и Интерфейс для навигации по Информационной Среде. Также был интегрирован Решатель, разработанный Д.В. Панкратовым.
В работе Т.Л. Феофановой была создана обучающая ДСМ-система на языке Prolog, позволяющая ознакомить эксперта-социолога с работой самого метода.
|