КОМПЬЮТЕРНАЯ   ЛИНГВИСТИКА
 
 

 

 
 



 

 

                                                        Все статьи

СИСТЕМА СЛОВООБРАЗОВАНИЯ РУССКОГО ЯЗЫКА <<--- 
---
>> КОНЦЕПТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ

СИНТАКСИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ

В системах автоматической обработки информации семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры – выделения в них смысловых единиц и установления связей между ними. Для эффективного решения этой задачи необходимо не только уметь выделять в текстах составляющие их смысловые единицы (слова и словосочетания), но и располагать информацией о понятиях, ими представляемых. А еще лучше располагать моделью человеческого мышления, в которой была бы достаточно полно представлена  система знаний о мире – “модель мира”. Но в настоящее время этого нет. Поэтому еще долго придется мириться с тем, что процедуры семантико-синтаксического анализа текстов будут приближенными.

Идея такого анализа показана на примере разработанного алгоритма, который использовался в различных системах автоматической обработки текстовой информации. В этом алгоритме для каждого предложения текста строилось его дерево, в котором отображались буквенные коды слов, связи между словами и грамматическая информация к словам. В процессе анализа фиксировался только факт наличия смысловой связи между словами и направление этой связи (от подчиняющего слова к подчиненному). Анализ синтаксической структуры предложения выполнялся на основе информации о словах, полученной на этапе морфологического анализа. При этом каждой словоформе текста приписывался соответствующий символ грамматического класса и набор грамматических признаков. Для личной формы глагола (ГЛ) – это были сведения о грамматическом числе и лице, а также о модели управления (о падежных формах управляемых слов); для глаголов прошедшего времени, кратких прилагательных и кратких причастий (ГП) - сведения о грамматическом роде и числе и о модели управления; для инфинитива (ГИ) – сведения о модели управления; для существительного (С) – признаки глагольности, местоименности, одушевленности и сведения о роде, числе и падеже; для прилагательного (П) – признаки глагольности, местоимености и сведения о роде, числе и падеже; для наречия – признаки глагольности и местоименности; для предлога (Р) – модель управления. Кроме того, для всех отглагольных форм слов – отглагольного существительного (СГ), отглагольного прилагательного (ПГ) и отглагольного наречия (НГ) – указывались модели управления.  

Установление факта наличия и направления синтаксической связи между словами производилось исходя из следующих принципов: 
1. Глагол, краткая форма прилагательного или причастие считается управляющим словом для существительного, если в его модели управления есть хотя бы один признак падежа, имеющийся одновременно и в информации к существительному.
2. Существительное всегда управляет стоящим справа от него другим существительным, если последнее имеет в своей информации признак родительного падежа. Другие падежи у управляемого существительного (дательный, творительный) допускаются только в том случае, если управляющее существительное отглагольное и если в его модели управления имеются эти падежи.
3. Предлог всегда управляет следующим за ним существительным, если в его модели управления хотя бы один падеж совпадает с одним из падежей в наборе информации к существительному.
4. Предлог может управляться только глаголом или стоящей слева от него отглагольной формой. В частности, если существительное, стоящее слева от предлога, не является отглагольным, то в качестве управляющего слова выбирается ближайший предшествующий ему глагол или отглагольная форма. Это правило иногда приводит к ошибкам, но достаточно редко.
5. Прилагательное обычно управляется стоящим справа от него существительным. При этом оно должно иметь хотя бы один признак падежа, совпадающий с одним из возможных падежей существительного. Если этого нет, то проверяется, не выступает ли прилагательное по отношению к существительному в качестве управляющего слова. В последнем случае оно должно иметь признак глагольности (являться причастием) и содержать в своей модели управления хотя бы один признак падежа, совпадающий с признаком падежа существительного. Кроме того, для такого прилагательного необходимо найти другое существительное, согласующееся с ним в падеже (обычно оно стоит слева, значительно реже справа).
6. Наречие может управлять другими словами лишь в том случае, если оно отглагольное (является деепричастием). При этом управляемое им существительное должно иметь хотя бы один признак падежа, совпадающий с одним из признаков падежа в его модели управления.
7. Существительные в именительном или винительном падеже, перед которыми не стоит предлог, могут управляться только глаголами, краткими прилагательными, причастиями и деепричастиями.

Простые предложения анализировались независимо друг от друга в описанном ниже порядке: 
1. Начальное слово “скелета” проверялось на принадлежность к одному из классов ГЛ, ГП, или ГИ. При положительном результате проверки устанавливалась его связь с предшествующими словами предложения; при отрицательном – сначала устанавливалась связь с ближайшим словом, принадлежащим к классу ГЛ, ГП или ГИ, затем – с предшествующими словами. Если при этом опорное слово становилось зависимым от одного из предшествующих ему слов, то его связь с представителем класса ГЛ, ГП, или ГИ переключалась на это предшествующее слово.
2. Бралась первая от начала предложения пара опорных элементов “скелета” и делалась попытка установления связи между этими элементами. Если это удавалось, то устанавливались связи заключенных между ними неопорных элементов с правым опорным элементом. Если при этом оказывалось, что один из неопорных элементов управляет правым опорным элементом, то ранее установленная связь между опорными элементами разрывалась, а для нового управляющего слова искался “хозяин” (один из предшествующих ему по цепочке элементов). Если непосредственная связь между рассматриваемой парой опорных элементов была невозможна, то сначала устанавливалась связь заключенных между ними неопорных элементов с правым опорным элементом, а затем связь этого последнего (или его управляющего слова) с одним из слов, предшествующих ему по цепочке управления. Далее рассматривалась следующая пара опорных элементов. У этой пары левым элементом был правый элемент предшествующей пары, а правым – ближайший справа от него опорный элемент. Переход от одной пары опорных элементов к другой продолжался до тех пор, пока не было проанализировано все предложение.
3. Если по пути продвижения от начала предложения к его концу встречался сочинительный союз, то соединяемые им опорные элементы (или элементы, управляющие опорными) проверялись на однородность и подчинялись общему для них управляющему слову. Они замыкались также на общее управляемое слово, если оно имелось. Признаком однородности элементов служила  их принадлежность к одному и тому же лексико-грамматическому классу, а для существительных и прилагательных помимо этого требовалось еще и совпадение падежей.

Эксперименты показали, что описанный алгоритм позволяет правильно выявлять 95% синтаксических связей между словами, но, одновременно, он устанавливает 4,6% ложных связей.