|
Все статьи
ПАРАДИГМАТИЧЕСКИЕ ОТНОШЕНИЯ МЕЖДУ СЛОВАМИ
<<---
--->>
АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ
ЗАДАЧА КОНТРОЛЯ ТЕКСТОВ
В практической деятельности информационных центров есть
необходимость решения задачи контроля, автоматизированного обнаружения и
исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная
задача может быть условно расчленена на три задачи - задачи
орфографического, синтаксического и семантического контроля
текстов. Первая из них может быть решена с помощью процедуры
морфологического анализа, использующей достаточно мощный
эталонный машинный словарь основ слов. В процессе
орфографического контроля слова текста подвергаются
морфологическому анализу, и если их основы отождествляются с
основами эталонного словаря, то они считаются правильными; если
не отождествляются, то они в сопровождении микроконтекста
выдаются на просмотр человеку. Человек обнаруживает и исправляет
искаженные слова, а соответствующая программная система вносит
эти исправления в корректируемый текст.
Задача синтаксического контроля текстов с целью обнаружения в
них ошибок существенно сложнее задачи их орфографического
контроля. Во-первых, потому, что она включает в свой состав и
задачу орфографического контроля как свою обязательную
компоненту, а, во-вторых, потому, что проблема синтаксического
анализа неформализованных текстов в полном объеме еще не решена.
Тем не менее, частичный синтаксический контроль текстов вполне
возможен. Здесь можно идти двумя путями: либо составлять
достаточно представительные машинные словари эталонных
синтаксических структур и сравнивать с ними синтаксические
структуры анализируемого текста; либо разрабатывать сложную
систему правил проверки грамматической согласованности элементов
текста. Первый путь нам представляется более перспективным, хотя
он, конечно, не исключает и возможности применения элементов
второго пути. Синтаксическая структура текстов должна
описываться в терминах грамматических классов слов (точнее - в
виде последовательностей наборов грамматической информации к
словам)
Задачу семантического контроля текстов с целью обнаружения в них
смысловых ошибок следует отнести к классу задач искусственного
интеллекта. В полном объеме она может быть решена только на
основе моделирования процессов человеческого мышления. При этом,
по-видимому, придется создавать мощные энциклопедические базы
знаний и программные средства манипулирования знаниями. Тем не
менее, для ограниченных предметных областей и для
формализованной информации эта задача вполне разрешима. Она
должна ставиться и решаться как задача семантико-синтаксического
контроля текстов.
|