КОМПЬЮТЕРНАЯ   ЛИНГВИСТИКА
 
 

 

 
 



 

 

                                                        Все статьи

СОЕДИНЕНИЯ АЛГОРИТМОВ <<--- 
---
>> СИСТЕМА СЛОВООБРАЗОВАНИЯ РУССКОГО ЯЗЫКА

МЕТОД АНАЛОГИИ в КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Применение метода аналогии к различным задачам имеет свою специфику. Такая специфика есть и у задач  компьютерной  лингвистики. Тем не менее, можно для этих задач определить общую последовательность  действий,  которой  полезно придерживаться почти во всех случаях. Эта последовательность может быть следующей:
1. Формулирование гипотезы о признаках (свойствах, характеристиках) некоторого класса объектов А, который, в свою очередь, может характеризоваться набором других заранее известных признаков. Такая гипотеза может быть сформулирована либо в результате применения процедуры индуктивного логического вывода, либо на основе интуитивной догадки.
2. Применение процедуры логического вывода по аналогии, в результате которой гипотетические признаки (свойства, характеристики) класса объектов А приписываются конкретным объектам, если их известные признаки  совпадают (полностью или частично) c известными признаками класса А.
3. Оценка эффективности процедуры вывода по аналогии путем ее многократного применения к различным объектам и определения вероятности получения правильного результата. Эффективность каждой конкретной процедуры логического вывода по аналогии определяется характером гипотезы о признаках класса объектов и вероятностью получения на ее основе правильного результата.

Следует отметить  два  важных  свойства  метода аналогии:
а) его применение не требует предварительного строгого доказательства правильности гипотезы, на основе которой делается вывод;
б) не требуется также и полного вхождения признаков класса объектов, относительно которого высказывается гипотеза, в число признаков объекта, на который переносятся гипотетические признаки этого класса. Одним словом, и гипотеза строго не доказывается, и идентификационные признаки могут не все совпадать.

Если же правильность гипотезы относительно некоторого класса строго доказывается, а идентификационные признаки этого класса полностью входят в состав идентификационных признаков рассматриваемого конкретного объекта, то вывод по аналогии превращается в дедуктивный вывод.

Среди многих больших и малых проблем, возникавших при создании систем автоматической обработки текстов, была проблема "новых" слов. Эта проблема возникала при разработке процедур синтаксического  анализа и синтеза  текстов, где для каждого слова необходимо было знать его грамматические характеристики. Такие характеристики обычно определяются в результате морфологического анализа с использованием машинных словарей. Но если какое-либо слово текста не содержится в словаре, то не может быть выполнен и его морфологический анализ. Процедуру морфологического анализа слов на основе применения метода аналогии можно реализовать по-разному. Можно, например, построить ее с использованием словаря словоформ, в котором каждая словоформа сопровождается набором грамматической информации. Словарь инвертируется и сортируется по алфавиту - представляется в виде обратного инвертированного словаря словоформ. При этом последняя буква каждой словоформы ставится на первое слева место, за ней следует предпоследняя и т.д.

Если по текстам достаточно большого объема (например, в несколько миллионов слов) составить словарь словоформ, назначить каждой словоформе грамматические признаки и преобразовать  полученный таким образом  словарь  в обратный словарь словоформ, то можно обнаружить,  что многие участки словаря (иногда довольно значительного размера) имеют совершенно одинаковые наборы признаков.  Этим можно воспользоваться,  чтобы  существенно  сократить объем словаря для морфологического анализа. Для этого необходимо на всех его участках с одинаковой грамматической информацией оставить только по две словоформы (начальную и конечную) а остальные исключить.  Это никак не повлияет на  точность  морфологического анализа.  Более того, можно в каждой паре словоформ с одинаковой грамматической  информацией  оставить  только по одной, например, начальной словоформе, условившись,  что  если  словоформа текста не совпадает ни с одной словоформой обратного словаря, то ей, по окончании  дихотомического  поиска,  приписывается информация непосредственно предшествующей словоформы этого словаря.


Добавить свое объявление
Загрузка...