Концептуальные подходы к разработке экспертных систем для анализа неформализованных текстов и верификации в них знаний

Михаил Тыщенко

	+79165023786
	admin@minobrmonitor.ru

На сегодняшний день не существует однозначного определения для термина ЭКСПЕРТНАЯ СИСТЕМА (ЭС). В большинстве случаев, ЭС описывается как компьютерная программа, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации. В информатике ЭС неразрывно связана с БАЗОЙ ЗНАНИЙ (БЗ), представляющей собой совокупность фактов и правил логического вывода в выбранной предметной области. Целью применения ЭС является получение конкретной информации по заданным прямым или косвенным параметрам. Туманность и неопределенность данных констатаций позволяет подгонять под определение ЭС поисковые или справочные системы или даже обычный калькулятор.

Ситуационно-статистические экспертные системы (СС ЭС)

Классический пример: диагностирование заболевания по симптомокомплексу. Суть: каждому зарегистрированному в системе заболеванию ставится в соответствие список присущих ему симптомов из заранее подготовленного списка, таким образом строится матрица симптоматики, что по сути и есть База знаний. Порядок работы – пользователь (фельдшер, медсестра, не опытный врач, …) выбирает в списке симптомов те, которые наблюдает у пациента, а система рассчитывает вероятность диагноза по правилам статистической математики.
Достоинства СС ЭС: простой интерфейс пользователя, высокая степень достоверности получаемых результатов, автономность, низкие требования к аппаратно-программному обеспечению.
Недостатки СС ЭС: очень узкая специализация, необходимость своевременного наполнения БЗ которая не возможна без эксперта-человека, результат решения, скорее всего, будет не однозначным и окончательное решение придется принимать человеку, что чревато серьезной ошибкой.

Графо-иерархические экспертные системы (ГИ ЭС)

База знаний ГИ ЭС основывается на древовидной структуре, в которой каждый узел есть логическое продолжение знаний верхнего уровня с большей степенью детализации. Порядок работы – движение по графу «сверху в низ», на каждом узле принимается решение: по какой ветви двигаться дальше, в финале – результат решения для данной ЭС. ГИ ЭС часто применяются для поиска различных неисправностей, а также для принятия оптимального решения при заключении крупной сделки (покупка недвижимости, автомобиля, …).
Классический пример: поиск неисправности в устройстве. Суть – сначала ЭС предлагает выбрать группу неисправности (изделие не работает, работает с перерывами и т.д.), затем, на более низких уровнях идет уточнение и детализация и в финале ответ – типа: «сгорела микросхема N45-346345.321».
Достоинства ГИ ЭС: возможность визуального анализа всех предусмотренных ситуаций, получение предварительных экспертных выводов на каждом узле аналитического графа, однозначность полученного решения при условии достижения конечной ветви, автономность, низкие требования к аппаратно-программному обеспечению.
Недостатки ГИ ЭС: узкая специализация, высокая вероятность получения неверного конечного результата при допущении хотя бы одной ошибки в процессе движения по аналитическому графу (можно уйти не в ту сторону) .

Информационно поисковые системы высокого уровня на основе теории фреймов Марвина Мински

Теория фреймов М. Мински достаточно сложна для понимания, а потому почти не востребована в практическом плане, если коротко: ФРЕЙМ – это структура данных для представления стереотипных ситуаций, другими словами: это единица ЗНАНИЯ о понятии, выраженная в свободной форме на естественном языке. Тождественные фреймы – это знания об одном и том же, но выраженные разными словами. В современных условиях Теория фреймов получила свое развитие в системах Семантического анализа текстов (САТ), которые позволяют осуществлять автоматизированную обработку неформализованных текстов (например: научно-технических отчетов, РКД, рефератов, статей и т.д.), на предмет извлечения ЗНАНИЙ (искомых фреймов), когда в качестве исходного поискового критерия фигурирует тождественный искомому фрейм.
Чтобы проиллюстрировать разницу в процессах полнотекстового поиска и процесса извлечения ЗНАНИЙ рассмотрим следующую ситуацию: имеем загруженную документами базу данных, среди документов есть пять в которых слово «РТУТЬ» фигурирует в различных контекстах и морфологических словоформах. В двух документах это слово фигурирует в контексте «ликвидация … розлива РТУТного заражения», в одном оно фигурирует в контексте «спортсмен Иванов был быстрым как РТУТЬ …», в четвертом присутствует словосочетание «… давление 760 мм РТУТного столба» и в последнем присутствует предложение «Фамилия солиста группы Queen Фредди Меркури переводится с английского как «РТУТЬ». При использовании системы полнотекстового поиска в поле «Поиск» вводим критерий: «ликвидация розлива ртути», нажимаем кнопку «Найти», получаем в списке найденных документов ссылки на все пять документов, ибо все они содержат слово «РТУТЬ» пусть и в разных контекстах и словоформах, а от полнотекстового поиска это и требуется. Придется последовательно открывать и просматривать каждый документ, чтобы на основе собственных умозаключений выбрать из них те два, которые содержат информацию о ртутном заражении. Хорошо если найдено пять документов, а если 50 или больше … долго придется искать то, что надо.