КОМПЬЮТЕРНАЯ   ЛИНГВИСТИКА
 
 

 

 

 

 

 
 

                                                        Все статьи

МЕТОД АНАЛОГИИ в КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ <<--- 
---
>> СИНТАКСИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ

СИСТЕМА СЛОВООБРАЗОВАНИЯ РУССКОГО ЯЗЫКА

Русский язык имеет богатую систему словоизменения и словообразования. Это затрудняет распознавание смыслового тождества и смысловой близости слов при решении многих задач автоматической обработки текстовой информации, например, таких как поиск информации в текстах, их автоматическое реферирование, автоматическое индексирование и автоматическая классификация. Поэтому есть необходимость в разработке процедур, которые позволяли бы производить автоматическую идентификацию различных форм слов, имеющих один и тот же или примерно один и тот же смысл.

При отождествлении слов можно применять два подхода. Первый из них заключается в том, что различные словообразовательные и словоизменительные варианты слов, имеющие примерно один и тот же смысл, заменяются на одну нормализованную каноническую форму. Тогда отождествление одинаковых по смыслу слов можно свести к отождествлению их канонических форм. Другой подход состоит в том, что при отождествлении двух слов текстовая форма одного слова заменяется на множество эквивалентных ей по смыслу нормализованных словообразовательных вариантов, а текстовая форма другого слова нормализуется только на уровне словоизменения. Затем нормализованная форма второго слова сравнивается со всеми нормализованными словообразовательными вариантами первого слова и, в случае совпадения с одним из них, она считается эквивалентной по смыслу первому слову. Обычно под нормализованной (канонической) формой слова понимается та его форма, которая традиционно указывается в словарях. Например, для существительного это - форма именительного падежа единственного или (в случае pluralia tantum) множественного числа, для глагола – форма инфинитива, для прилагательного – форма именительного падежа единственного числа мужского рода. Процедура замены исходной вариантной формы слова на каноническую называется процедурой лемматизации.

В системах автоматической обработки текстовой информации для получения канонической формы слова вместо лемматизации можно применять и другую операцию – операцию замены исходной формы слова на сочетание ее словоизменительной основы и номера флективного (словоизменительного) класса. При нормализации слов на словообразовательном уровне каноническая форма слова должна представлять по возможности всю его словообразовательную парадигму. Выбор канонической формы слова, представляющей множество его словообразовательных вариантов, имеющих примерно одинаковый смысл, должен производиться с учетом системы словообразования русского языка. Система словообразовательных классов русских слов, создавалась с целью разработки комплекса программ автоматического обнаружения и исправления орфографических ошибок в текстах. При этом ставилась задача при заданном эталонном орфографическом словаре обеспечить контроль правильности написания как можно большего числа слов, а распознавание смыслового тождества слов, встречающихся в текстах, и слов из эталонного словаря играло подчиненную роль. Поэтому в одну словообразовательную парадигму слова иногда включались его производные формы, обозначающие различные понятия.

Для представления множества членов словообразовательной парадигмы можно также ввести свою каноническую форму. В качестве такой формы может выступать существительное, если оно является членом парадигмы, или, (если нет существительного) инфинитив. В тех случаях, когда в составе парадигмы нет ни существительного, ни инфинитива, в качестве канонической формы может выступать прилагательное. Если и прилагательного нет, то любая другая форма. Переход от вариантной словообразовательной формы слова к его канонической форме можно представить себе как замену  суффикса или сочетания суффиксов вариантной формы на суффикс (сочетание суффиксов) канонической формы. Для этого необходимо уметь выделять в слове его словообразовательную основу и суффиксы, иметь ассоциативный словарь суффиксов, в котором для каждого суффикса (сочетания суффиксов) будет указан один или несколько вариантов его замены на суффикс или на сочетание суффиксов соответствующей канонической формы, и иметь процедуру проверки правильности такой замены (проверки совместимости словообразовательной основы слова и присоединенных к ней суффикса или сочетания суффиксов.

Проверку совместимости словообразовательных основ слов и присоединяемых к ним суффиксов можно проводить путем поиска вновь образованных цепочек букв в словаре словоизменительных основ слов. Если сформированная цепочка букв содержится в словаре словоизменительных основ, то она правильная, и совместимость словообразовательной основы слова и присоединенных к ней суффикса или сочетания суффиксов имеет место; если не содержится, то она вероятно неправильная, и следует повторить попытку формирования канонической словоизменительной основы слов, используя другие суффиксы или сочетания суффиксов. Процедуру замены исходной формы слова на каноническую (процедуру нормализации) следует начинать  морфологического анализа исходной формы слова. Далее по результатам морфологического анализа формируется сочетание буквенного кода словоизменительной основы слова и номера ее флективного класса. Если при этом окажется, что сформированное цепочка символов представляет существительное, то на этом процедура нормализации и заканчивается. Если не существительное, то можно попытаться расчленить словоизменительную основу слова на словообразовательную основу и суффикс или сочетание суффиксов.


 

Добавить свое объявление
Загрузка...