Основные направления в современной прикладной лингвистике

Реферат

Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке)». Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части — средства манипулирования единицами языка и речи, текстами и грамматическими таблицами.

Это направление прикладной лингвистики возникла сравнительно недавно — на рубеже пятидесятых и шестидесятых годов прошлого столетия. Поначалу, в период своего становления, у нее были различные названия: математическая лингвистика, вычислительная лингвистика, инженерная лингвистика. Но в начале восьмидесятых годов закрепилось название компьютерная лингвистика. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. «Проблема машинного перевода текстов с одних языков на другие оказалась значительно сложнее, чем это представляли себе пионеры машинного перевода и их последователи». То же самое можно сказать об автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной речи.

В качестве единиц языка и речи в компьютерной лингвистике могут выступать единицы различного уровня: морфемы, слова, словосочетания, фразы, сверхфразовые единства. Эти единицы в совокупности представляют собой иерархическую систему, в которой смысловое содержание единиц более высокого уровня не сводимо или не полностью сводимо к смысловому содержанию составляющих их единиц более низкого уровня (смысл единиц более высокого уровня не всегда может быть «вычислен» на основе информации о смысле единиц более низкого уровня и информации о связях между этими единицами).

8 стр., 3855 слов

Использование информационных технологий в лингвистике

... информационные технологии (далее ИТ) стали играть при обучении , в процессе алгоритмизации лингвистических задач, при обработке лингвистических текстов и т. д. (см. Зубов 2004). Использование информационных технологий в лингвистике ... образом построенное большое собрание текстов естественных языков. 3. Он широко использует компьютерный анализ, в том числе автоматические и интерактивные приемы. 4. ...

В качестве средств манипулирования единицами языка и речи и текстами могут выступать процедуры морфологического, семантико-синтаксического и концептуального анализа и синтеза.

Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира. Можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран (Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

1. Автоматизация составления и лингвистической обработки машинных словарей;

2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

3. Автоматическое индексирование документов и информационных запросов;

4. Автоматическая классификация и реферирование документов;

5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных

6. Машинный перевод текстов с одних естественных языков на другие;

7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

8. Извлечение фактографической информации из неформализованных текстов.

Машинные словари являются неотъемлемой частью любой системы автоматической обработки текстовой информации. Они могут представлять собой словари слов и/или словари словосочетаний, выражающих устойчивые научно-технические понятия. При составлении словарей необходимо стремиться к тому, чтобы они в максимальной степени отражали лексический состав текстов. Поэтому их нужно составлять по текстам достаточно большого объема (как минимум, по текстам объемом в несколько десятков миллионов лексических единиц).

А такая работа может быть выполнена в разумные сроки только на основе широкого применения средств автоматизации.

34 стр., 16674 слов

Опыт деятельности по обогащению словаря младших школьников глаголами

... работы по обогащению словаря учащихся глаголами; разработана система уроков по обогащению словаря учащихся глаголами; отбор конкретного материала (составление словарика, дидактического материала) для работы на уроках русского языка при обогащении речи учащихся глаголами с использованием словаря. ... центром информации, глагол ... языка. Так, что ко времени появления старейших славянских текстов ...

Задача автоматизированного составления словарей словосочетаний, выражающих научно-технические понятия, сложнее задачи составления словарей слов, поскольку словосочетания в тексте формально не выделены и их границы «отмечены» лишь в сознании человека. Тем не менее, как показывают эксперименты, границы именных словосочетаний могут быть определены с удовлетворительной точностью на основе простых процедур синтаксического анализа, а возникающие при этом ошибки могут быть устранены с помощью статистических методов и путем последующего редактирования составленного словаря.

В системах автоматической обработки текстовой информации важной проблемой является проблема установления парадигматических отношений между понятиями, выраженными отдельными словами или словосочетаниями (отношений типа «синонимия», «род-вид», «целое-часть», «причина-следствие» и других устойчивых внеконтекстных ассоциативных отношений).

Такие отношения может устанавливать человек, опираясь на свой интеллект и различного рода словарные пособия. Однако это очень трудная и трудоемкая задача. Поэтому при ее выполнении желательно использовать средства автоматизации.

Были также разработаны программы, которые позволяли компьютеру понимать команды на естественном языке (например, на английском разговорном языке).

Однако созданные до сих пор программы такого рода имели словари небольшого объема (несколько сотен или тысяч лексических единиц) и базы знаний, охватывающие узкие предметные области. Они содержали много информации о значениях слов, относящихся к заданной области знаний, и информацию о грамматических правилах. Способность распознавания графических образов или изображений также относится к задачам класса «искусственный интеллект», так как она включает способность узнавания предметов и способность абстрагирования. В системах, создаваемых для распознавания образов, устройство, управляемое компьютером, сканирует входные изображения, воспринимает их и трансформирует в цифровые представления, которые, в свою очередь, сравниваются с эталонными цифровыми образами, хранящимися в памяти ЭВМ. Эталонные цифровые образы могут представлять собой геометрические фигуры, для распознавания которых были составлены соответствующие программы. Компьютер с большой скоростью обрабатывает вводимые в его память изображения, выделяет в них релевантные признаки, отфильтровывая нежелательные сигналы, и опознает только те новые цифровые образы, которые имеют допустимые отклонения от ранее введенных эталонных образов. Всё это связано с теорией искусственного интеллекта.

Искусственный интеллект — это способность электронной вычислительной машины или управляемого ею робота решать задачи, обычно связываемые с высшими проявлениями человеческой интеллектуальной деятельности, например, такими, как способность рассуждать, распознавать смысл речи, обобщать информацию или обучаться на основе прошлого опыта. Этот термин также часто применяется к тому разделу информатики и вычислительной техники (computer science), который связан с разработкой систем, обладающих такими способностями. Автоматизированные экспертные системы, основанные на знаниях, позволяют решать с помощью ЭВМ логические задачи. Эти системы включают сотни и тысячи логических правил типа «ЕСЛИ…, ТО…», сформулированных на основе знаний, собранных по крупицам у авторитетных специалистов определенной области знаний.

63 стр., 31002 слов

Художественно-конструкторская деятельность как основа формирования ...

... творческой деятельности, человек может формировать в себе эстетическое отношение к миру вещей. Художественное конструирование-это процесс ... и решение дизайнерских проблемных ситуаций на основе специальных знаний; раскрытие в процессе обучения духовно-содержательного ... некоторыми унифицированными практическими умениями, которые от класса к классу совершенствуются, уже недостаточно. Ручные умения и ...

Основным мотивом исследований по «искусственному интеллекту» является стремление понять: как использовать возможности ЭВМ для воспроизведения различных видов умственной деятельности человека, которые в совокупности обозначаются термином «мышление». Таким образом, исследования по «искусственному интеллекту» концентрируются на понимании механизмов умственной деятельности человека и создании программ, моделирующих эту деятельность, начиная с относительно простых явлений с постепенным продвижением к более сложным. Интеллектуальная деятельность человека самым непосредственным образом связана с функционированием языка и мышления. Специфическая роль языка в отношении мысли заключается не в создании материальных звуковых средств для выражения понятий, а в том, чтобы служить посредствующим звеном между мыслью и звуком, и при том таким образом, что их объединение неизбежно приводит к обоюдному разграничению единиц. Мысль, хаотичная по природе, по необходимости уточняется, расчленяясь на части. Нет таким образом ни материализации мыслей, ни «спиритуализации» звуков, а всё сводится к тому в некотором роде таинственному явлению, что соотношение «мысль-звук» требует определенных членений и что язык вырабатывает свои единицы, формируясь во взаимодействии этих двух аморфных масc.

Если предполагается строить системы «искусственного интеллекта», ориентированные на использование естественных языков (а без них ни о каком человеческом интеллекте не может быть и речи!), то необходимо научиться строить и «модели человеческой души». А эта задача либо вообще неразрешима, либо будет решена в весьма отдаленном будущем. Но это вовсе не означает, что в настоящее время не следует создавать модели «интеллектуальных систем», способных решать такие сложные задачи, которые традиционно считались уделом человека. Однако при этом придется в какой-то степени моделировать и «внутренний мир человека», свойства его «души».

Наконец обозначим особенность методической базы компьютерной лингвистики, в частности применение метода аналогии к различным задачам. Для этих задач можно определить общую последовательность действий, которой полезно придерживаться почти во всех случаях. Эта последовательность представляется следующей:

1. Формулирование гипотезы о признаках (свойствах, характеристиках) некоторого класса объектов А, который, в свою очередь, может характеризоваться набором других заранее известных признаков. Такая гипотеза может быть сформулирована либо в результате применения процедуры индуктивного логического вывода, либо на основе интуитивной догадки.

2. Применение процедуры логического вывода по аналогии, в результате которой гипотетические признаки (свойства, характеристики) класса объектов, А приписываются конкретным объектам, если их известные признаки совпадают (полностью или частично) c известными признаками класса А.

3. Оценка эффективности процедуры вывода по аналогии путем ее многократного применения к различным объектам и определения вероятности получения правильного результата. Эффективность каждой конкретной процедуры логического вывода по аналогии определяется характером гипотезы о признаках класса объектов и вероятностью получения на ее основе правильного результата.

4 стр., 1744 слов

Средний класс и его роль в обществе

... и компетентного среднего класса западное общество стало современным, современная западная цивилизация - это цивилизация среднего класса. Роль среднего класса Тойнби видел в следовании новаторству ... среднего класса) и “маргинальной группы” (совмещающей в себе черты как “ядра”, так и рабочего класса). Таким образом, резюмируя положения концепций, определим социальный класс как совокупность людей, ...

Если же правильность гипотезы относительно некоторого класса строго доказывается, а идентификационные признаки этого класса полностью входят в состав идентификационных признаков рассматриваемого конкретного объекта, то вывод по аналогии превращается в дедуктивный вывод.

ЗАКЛЮЧЕНИЕ

Прикладная лингвистика представляет собой деятельность по разработке и употреблению научных методов исследования и знаний о языке и его функционирования в нелингвистических научных дисциплинах, а также в каких-либо сферах практической человеческой деятельности и теоретическое рассмотрение данной деятельности.

Существует несколько современных направлений в рамках данной дисциплины, среди которых основными можно назвать лексикографические исследования на основе корпусных материалов, когнитивистику, математическую, компьютерную лингвистику, исследования дискурса в рамках социолингвистики, теории гипертекста и сверхтекста, переводоведение.

Значимость прикладной лингвистики растёт с развитием компьютерных и Интернет технологий.

Баранов А.Н.

Введение

в прикладную лингвистику. М.: УРСС, 2003 — 358 с.

О. В. Динамика, А. Е. Очерки, А. Г. Сверхтекст, Л. Л. Компьютерная, Бектаев К. Б., В. В. Прагматически, С. А. Фразеологические

Баранов А.Н.

Введение

в прикладную лингвистику. М.: УРСС, 2003 с. 10.

А. Н. Указ

А. Н. Указ

А. Н. Указ

А. Е. Очерки

А. Е. Указ

А. Е. Указ

А. Н. Указ

А. Н. Указ

А. Е. Указ

В. В. Прагматически

В. В. Указ

В. В. Указ

В. В. Указ

В. В. Указ

В. В. Указ

О. В. Динамика

О. В. Указ

О. В. Указ

Бектаев К. Б., Бектаев К. Б., Бектаев К. Б., Бектаев К. Б.

А. Н. Указ

А. Н. Указ

С. А. Фразеологические

с.10

С. А. Указ

А. Е. Указ

А. Е. Указ

А. Г. Сверхтекст

А. Г. Указ

А. Г. Указ

А. Г. Указ

А. Г. Указ

А. Г. Указ

А. Г. Указ

Л. Л. Компьютерная

Л. Л. Указ

Л. Л. Указ

Л. Л. Указ

Л. Л. Указ

Л. Л. Указ

Л. Л. Указ