|
Все статьи
--->>
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ
Проблемами использования естественного языка в системах
автоматической обработки информации занимается наука
компьютерная лингвистика. Она возникла сравнительно недавно
– на рубеже пятидесятых и шестидесятых годов прошлого столетия.
Поначалу, в период своего становления, у нее были различные
названия: математическая лингвистика, вычислительная
лингвистика, инженерная лингвистика. Но в начале восьмидесятых
годов закрепилось название компьютерная лингвистика.
За прошедшие полвека в области компьютерной лингвистики
были получены значительные научные и практические результаты:
были созданы системы машинного перевода текстов с одних
естественных языков на другие, системы автоматизированного
поиска информации в текстах, системы автоматического анализа и
синтеза устной речи и многие другие. Но были и разочарования.
Например, проблема машинного перевода текстов с одних языков на
другие оказалась значительно сложнее, чем это представляли себе
пионеры машинного перевода и их последователи. То же самое можно
сказать об автоматизированном поиске информации в текстах и о
задаче анализа и синтеза устной речи. Ученым и инженерам
придется по-видимому еще немало потрудиться, чтобы достигнуть
нужных результатов.
Компьютерная лингвистика - это область знаний, связанная
решением задач автоматической обработки информации,
представленной на естественном языке. Центральными научными
проблемами компьютерной лингвистики являются проблема
моделирования процесса понимания смысла текстов (перехода от
текста к формализованному представлению его смысла) и проблема
синтеза речи (перехода от формализованного представления смысла
к текстам на естественном языке). Эти проблемы возникают при
решении ряда прикладных задач и, в частности, задач
автоматического обнаружения и исправления ошибок при вводе
текстов в ЭВМ, автоматического анализа и синтеза устной речи,
автоматического перевода текстов с одних языков на другие,
общения с ЭВМ на естественном языке, автоматической
классификации и индексирования текстовых документов, их
автоматического реферирования, поиска документов в
полнотекстовых базах данных. Лингвистические средства,
создаваемые и применяемые в компьютерной лингвистике, можно
условно разделить на две части: декларативную и процедурную. К
декларативной части относятся словари единиц языка и речи,
тексты и различного рода грамматические таблицы, к процедурной
части - средства манипулирования единицами языка и речи,
текстами и грамматическими таблицами.
В качестве
единиц языка и речи могут выступать единицы различного уровня:
морфемы, слова, словосочетания, фразы, сверхфразовые единства.
Эти единицы в совокупности представляют собой иерархическую
систему, в которой смысловое содержание единиц более высокого
уровня не сводимо или не полностью сводимо к смысловому
содержанию составляющих их единиц более низкого уровня (смысл
единиц более высокого уровня не всегда может быть "вычислен" на
основе информации о смысле единиц более низкого уровня и
информации о связях между этими единицами). В качестве средств
манипулирования единицами языка и речи и текстами могут
выступать процедуры морфологического, семантико-синтаксического
и концептуального анализа и синтеза.
Успех в
решении прикладных задач компьютерной лингвистики зависит,
прежде всего, от полноты и точности представления в памяти ЭВМ
декларативных средств и от качества процедурных средств. На
сегодняшний день необходимый уровень решения этих задач пока еще
не достигнут, хотя работы в области компьютерной лингвистики
ведутся во всех развитых странах мира. Можно отметить
серьезные научные и практические достижения в области
компьютерной лингвистики. Так в ряде стран (Россия, США,
Япония, и др.) построены экспериментальные и промышленные
системы машинного перевода текстов с одних языков на другие,
построен ряд экспериментальных систем общения с ЭВМ на
естественном языке, ведутся работы по созданию терминологических
банков данных, тезаурусов, двуязычных и многоязычных машинных
словарей (Россия, США, Германия, Франция и др.), строятся
системы автоматического анализа и синтеза устной речи (Россия,
США, Япония и др.), ведутся исследования в области построения
моделей естественных языков.
|