КОМПЬЮТЕРНАЯ   ЛИНГВИСТИКА
 
 

 

 

  

 



 

 

                                                        Все статьи

ПОИСК ИНФОРМАЦИИ в БАЗАХ ДАННЫХ <<---  --->> ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

ПОИСК ТЕКСТОВОЙ ИНФОРМАЦИИ
по ФОРМАЛИЗОВАННЫМ ЗАПРОСАМ

По мере развития электронной вычислительной техники росли объемы текстовой информации, хранимой в памяти  ЭВМ и совершенствовались языковые и программные средства этих систем. Сначала поиск документов велся на основе их ПОДов, представленных числовыми кодами понятий. Затем числовые коды понятий стали заменяться на их наименования.  Позднее в поисковые массивы стали вводиться заголовки и рефераты документов, и, еще позднее, появилась возможность вводить в ЭВМ полные тексты документов. В порядок дня встал вопрос о поиске документов в полнотекстовых базах данных. Вопрос этот весьма непростой. Ведь в текстах одни и те же явления могут описываться в терминах различной степени общности с привлечением различных выразительных средств естественных языков. Кроме того, тексты, как и устная речь, представляют собой линейные последовательности наименований понятий, а описываемые ими явления, как правило, многомерны. Возникает проблема адаптации традиционных форм представления речевой информации к возможностям электронной вычислительной техники (электронных “алгоритмических” машин). При этом приходится учитывать противоречивые требования к форме хранения информации в памяти ЭВМ: с одной стороны, для удобства человека необходимо хранить тексты в их “естественной форме” а, с другой стороны, для удобства выполнения процедур поиска информации над ними нужно надстраивать некоторую формализованную структуру. Вначале роль такой структуры выполняли поисковые образы документов, позднее – инверсная форма представления текстов и гипертекст.

При формулировке запросов с использованием операторов приходится, прежде всего, считаться с  многообразием форм слов в текстах. Ведь в процессе поиска информации необходимо обеспечить отождествление слов запросов и документов, несмотря на различие их грамматических форм. Это можно делать тремя способами: 1) путем лемматизации (приведения к основной словарной форме) всех слов запросов и слов инверсного файла; 2) путем генерации для слов запросов всех их словоизменительных и словообразовательных форм; 3) путем усечения форм запросов. Первый способ представляется наиболее предпочтительным. Но при этом потребуется переформировывать и перезагружать в ЭВМ ранее накопленные массивы баз данных, что не всегда оказывается приемлемым. Применение второго способа приведет к резкому увеличению объема запроса (для русского языка, в случае генерации одних только словоизменительных форм, - в восемь раз). При третьем способе возникает опасность увеличения поискового “шума”. Но если применять усечение слов только на границах их словоизменительных основ и окончаний, то уровень шума может оказаться вполне приемлемым. В состав запросов желательно вводить синонимы и гипонимы слов (слова с более узким значением). Это можно делать вручную, но лучше этот процесс автоматизировать.

С самого начала появления автоматизированных документальных поисковых систем встал вопрос о качестве поиска. Дело в том, что часть документов, выдаваемых потребителю в результате автоматического поиска, оказывалась нерелевантной запросу (не отвечающей ему “по смыслу”), а часть релевантных документов, содержащихся в поисковом массиве, ему не выдавалась. Первое явление получило название “поисковый шум”, второе – “потери информации”. Для количественной оценки этих явлений были введены понятия коэффициента шума и коэффициента потерь. Коэффициент шума полагался равным отношению количества нерелевантных документов к общему количеству документов, выданных в результате поиска, а коэффициент потерь – отношению количества релевантных документов, не найденных в поисковом массиве, к общему количеству таких документов, содержащихся в поисковом массиве. Были введены также понятия  коэффициента точности поиска и коэффициента его полноты. Значение коэффициента точности полагалось равным дополнению до единицы значения коэффициента шума, а значение  коэффициента полноты - дополнению до единицы значения коэффициента потерь.

Другой метод решения проблемы обеспечения полноты и точности поиска состоит в использовании концепции гипертекста. Обычно гипертекст (hypertext ) определяется как технология работы с текстовыми данными, позволяющая устанавливать ассоциативные связи – “гиперсвязи” между отдельными терминами, фрагментами документов и статьями в текстовых массивах и благодаря этому допускающая не только последовательную, линейную работу с текстом, как при обычном чтении, но и произвольный доступ к информации и ее ассоциативный просмотр в соответствии с установленной структурой связей. Гипертекстовые связи представляют собой по существу перекрестные ссылки, которые дают возможность мгновенного обращения к нужным фрагментам информации. Эти связи наиболее эффективны тогда, когда они используются при поиске в больших массивах информации, расчлененных на множество мелких ассоциированных по смыслу фрагментов и когда пользователю в каждый данный момент требуются только небольшие объемы информации. Гипертекст наиболее эффективно используется в мультимедийных коммерческих вычислительных системах.

Гипертекст представляет собой некоторую сеть, узлы которой соответствуют некоторым блокам информации, а дуги – ассоциативным связям между ними. Узлом гипертекста может быть фрагмент текста, рисунок, фотография, движущееся  или мультипликационное изображение, звуковая речь или музыкальное произведение и даже выполняемая программа. Если часть данных является нетекстовой, то о конечном продукте говорят как о мультимедийной системе (multimedia, hypermedia). Инверсные файлы и гипертекстовое представление информации часто используются совместно, в одной и той же поисковой системе. При этом инверсные файлы обеспечивают начальное обращение к фрагментам текстов по запросам, а гипертекст дает возможность продолжать поиск, используя ассоциативные связи между этими фрагментами.

Совершенствование логики поиска в инверсных файлах может происходить по следующим направлениям:

1. Представление слов в их входных словарях не в текстовой форме (что обычно практикуется в настоящее время), а в нормализованной форме. Это позволит более эффективно использовать при поиске парадигматические связи между словами. Эти связи могут быть выявлены путем словоизменительного и словообразовательного морфологического анализа слов.
2. Использование машинных словарей синонимов, гипонимов и гиперонимов для автоматического установления таких парадигматических связей между словами, которые не выявляются средствами морфологического анализа. Эти словари могут применяться как для “избыточного” индексирования запросов (обогащения их синонимами и гипонимами), так и для “избыточного” индексирования документов (для дополнения нормализованных слов поисковых словарей их синонимами и гиперонимами).
3. Использование машинных тезаурусов для установления парадигматических связей между словосочетаниями, которые не сводятся к парадигматическим связям слов, входящих в эти словосочетания.

Важным направлением повышения эффективности и комфортности поиска информации в полнотекстовых базах данных является также разработка ИПС, в которых пользователям предоставляется возможность формулировать запросы на естественном языке.