|
Все статьи
ПОИСК ИНФОРМАЦИИ в БАЗАХ ДАННЫХ
<<---
--->>
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
ПОИСК ТЕКСТОВОЙ ИНФОРМАЦИИ
по
ФОРМАЛИЗОВАННЫМ ЗАПРОСАМ
По мере развития электронной вычислительной техники
росли объемы текстовой информации, хранимой в памяти ЭВМ и
совершенствовались языковые и программные средства этих систем.
Сначала поиск документов велся на основе их ПОДов,
представленных числовыми кодами понятий. Затем числовые коды
понятий стали заменяться на их наименования. Позднее в
поисковые массивы стали вводиться заголовки и рефераты
документов, и, еще позднее, появилась возможность вводить в ЭВМ
полные тексты документов. В порядок дня встал вопрос о поиске
документов в полнотекстовых базах данных. Вопрос этот весьма
непростой. Ведь в текстах одни и те же явления могут описываться
в терминах различной степени общности с привлечением различных
выразительных средств естественных языков. Кроме того, тексты,
как и устная речь, представляют собой линейные
последовательности наименований понятий, а описываемые ими
явления, как правило, многомерны. Возникает проблема адаптации
традиционных форм представления речевой информации к
возможностям электронной вычислительной техники (электронных
“алгоритмических” машин). При этом приходится учитывать
противоречивые требования к форме хранения информации в памяти
ЭВМ: с одной стороны, для удобства человека необходимо хранить
тексты в их “естественной форме” а, с другой стороны, для
удобства выполнения процедур поиска информации над ними нужно
надстраивать некоторую формализованную структуру. Вначале роль
такой структуры выполняли поисковые образы документов, позднее –
инверсная форма представления текстов и гипертекст.
При формулировке запросов с использованием
операторов приходится, прежде всего, считаться с
многообразием форм слов в текстах. Ведь в процессе
поиска информации необходимо обеспечить отождествление
слов запросов и документов, несмотря на различие их
грамматических форм. Это можно делать тремя способами:
1) путем лемматизации (приведения к основной словарной
форме) всех слов запросов и слов инверсного файла; 2)
путем генерации для слов запросов всех их
словоизменительных и словообразовательных форм; 3) путем
усечения форм запросов. Первый способ представляется
наиболее предпочтительным. Но при этом потребуется
переформировывать и перезагружать в ЭВМ ранее
накопленные массивы баз данных, что не всегда
оказывается приемлемым. Применение второго способа
приведет к резкому увеличению объема запроса (для
русского языка, в случае генерации одних только
словоизменительных форм, - в восемь раз). При третьем
способе возникает опасность увеличения поискового
“шума”. Но если применять усечение слов только на
границах их словоизменительных основ и окончаний, то
уровень шума может оказаться вполне приемлемым. В состав запросов желательно вводить синонимы и
гипонимы слов (слова с более узким значением). Это можно
делать вручную, но лучше этот процесс автоматизировать.
С самого начала появления автоматизированных
документальных поисковых систем встал вопрос о качестве
поиска. Дело в том, что часть документов, выдаваемых
потребителю в результате автоматического поиска,
оказывалась нерелевантной запросу (не отвечающей ему “по
смыслу”), а часть релевантных документов, содержащихся в
поисковом массиве, ему не выдавалась. Первое явление
получило название “поисковый шум”, второе – “потери
информации”. Для количественной оценки этих явлений были
введены понятия коэффициента шума и коэффициента потерь.
Коэффициент шума полагался равным отношению количества
нерелевантных документов к общему количеству документов,
выданных в результате поиска, а коэффициент потерь –
отношению количества релевантных документов, не
найденных в поисковом массиве, к общему количеству таких
документов, содержащихся в поисковом массиве. Были
введены также понятия коэффициента точности поиска и
коэффициента его полноты. Значение коэффициента точности
полагалось равным дополнению до единицы значения
коэффициента шума, а значение коэффициента полноты -
дополнению до единицы значения коэффициента
потерь.
Другой метод решения проблемы обеспечения полноты и
точности поиска состоит в использовании концепции
гипертекста. Обычно гипертекст (hypertext
) определяется как технология работы с текстовыми данными,
позволяющая устанавливать ассоциативные связи –
“гиперсвязи” между отдельными терминами, фрагментами
документов и статьями в текстовых массивах и благодаря
этому допускающая не только последовательную, линейную
работу с текстом, как при обычном чтении, но и
произвольный доступ к информации и ее ассоциативный
просмотр в соответствии с установленной структурой
связей.
Гипертекстовые связи представляют собой по существу
перекрестные ссылки, которые дают возможность
мгновенного обращения к нужным фрагментам информации.
Эти связи наиболее эффективны тогда, когда они
используются при поиске в больших массивах информации,
расчлененных на множество мелких ассоциированных по
смыслу фрагментов и когда пользователю в каждый данный
момент требуются только небольшие объемы информации.
Гипертекст наиболее эффективно используется в
мультимедийных коммерческих вычислительных системах.
Гипертекст представляет собой некоторую сеть, узлы
которой соответствуют некоторым блокам информации, а
дуги – ассоциативным связям между ними. Узлом
гипертекста может быть фрагмент текста, рисунок,
фотография, движущееся или мультипликационное
изображение, звуковая речь или музыкальное произведение
и даже выполняемая программа. Если часть данных является
нетекстовой, то о конечном продукте говорят как о
мультимедийной системе (multimedia,
hypermedia).
Инверсные файлы и гипертекстовое представление
информации часто используются совместно, в одной и той
же поисковой системе. При этом инверсные файлы
обеспечивают начальное обращение к фрагментам текстов по
запросам, а гипертекст дает возможность продолжать
поиск, используя ассоциативные связи между этими
фрагментами.
Совершенствование логики поиска в инверсных файлах может
происходить по следующим направлениям:
1. Представление слов в их входных словарях не в
текстовой форме (что обычно практикуется в настоящее
время), а в нормализованной форме. Это позволит более
эффективно использовать при поиске парадигматические
связи между словами. Эти связи могут быть выявлены путем
словоизменительного и словообразовательного
морфологического анализа слов.
2. Использование машинных словарей синонимов, гипонимов
и гиперонимов для автоматического установления таких
парадигматических связей между словами, которые не
выявляются средствами морфологического анализа. Эти
словари могут применяться как для “избыточного”
индексирования запросов (обогащения их синонимами и
гипонимами), так и для “избыточного” индексирования
документов (для дополнения нормализованных слов
поисковых словарей их синонимами и гиперонимами).
3. Использование машинных тезаурусов для установления
парадигматических связей между словосочетаниями, которые
не сводятся к парадигматическим связям слов, входящих в
эти словосочетания.
Важным направлением повышения эффективности и
комфортности поиска информации в полнотекстовых базах
данных является также разработка ИПС, в которых
пользователям предоставляется возможность формулировать
запросы на естественном языке.
|