|
Все статьи
КОМПЬЮТЕРНАЯ
ЛИНГВИСТИКА
<<---
--->>
ПАРАДИГМАТИЧЕСКИЕ ОТНОШЕНИЯ МЕЖДУ СЛОВАМИ
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ
Перед компьютерной лингвистикой стоят, прежде всего, задачи
лингвистического обеспечения процессов сбора, накопления,
обработки и поиска информации. Наиболее важными из них
являются:
1. Автоматизация составления и лингвистической обработки
машинных словарей;
2. Автоматизация процессов обнаружения и исправления ошибок при
вводе текстов в ЭВМ;
3. Автоматическое индексирование документов и информационных
запросов;
4. Автоматическая классификация и реферирование документов;
5. Лингвистическое обеспечение процессов поиска информации в
одноязычных и многоязычных базах данных
6. Машинный перевод текстов с одних естественных языков на
другие;
7. Построение лингвистических процессоров, обеспечивающих
общение пользователей с автоматизированными интеллектуальными
информационными системами (в частности, с экспертными системами)
на естественном языке, или на языке, близком к естественному;
8. Извлечение фактографической информации из неформализованных
текстов.
Машинные
словари являются неотъемлемой частью любой системы
автоматической обработки текстовой информации. Они могут
представлять собой словари слов и/или словари словосочетаний,
выражающих устойчивые научно-технические понятия. При
составлении словарей необходимо стремиться к тому, чтобы они в
максимальной степени отражали лексический состав текстов.
Поэтому их нужно составлять по текстам достаточно большого
объема (как минимум, по текстам объемом в несколько десятков
миллионов лексических единиц). А такая работа может быть
выполнена в разумные сроки только на основе широкого применения
средств автоматизации.
Задача
автоматизированного составления словарей словосочетаний,
выражающих научно-технические понятия, сложнее задачи
составления словарей слов, поскольку словосочетания в тексте
формально не выделены и их границы "отмечены" лишь в сознании
человека. Тем не менее, как показывают эксперименты, границы
именных словосочетаний могут быть определены с
удовлетворительной точностью на основе простых процедур
синтаксического анализа, а возникающие при этом ошибки могут
быть устранены с помощью статистических методов и путем
последующего редактирования составленного словаря.
В системах
автоматической обработки текстовой информации важной проблемой
является проблема установления парадигматических отношений между
понятиями, выраженными отдельными словами или словосочетаниями
(отношений типа "синонимия", "род-вид", "целое-часть",
"причина-следствие" и других устойчивых в неконтекстных
ассоциативных отношений). Такие отношения может устанавливать
человек, опираясь на свой интеллект и различного рода словарные
пособия. Однако это очень трудная и трудоемкая задача. Поэтому
при ее выполнении желательно использовать средства автоматизации
и новые программы.
|