Использование информационных технологий в лингвистике

Дипломная работа

На современном этапе развития таких, на первый взгляд, непересекающихся дисциплин как лингвистика и информационные технологии, с уверенностью можно говорить о зависимости лингвистики от технических возможностей современной компьютерной науки. С другой стороны, информационные технологии заимствуют некоторые методы лингвистики. На стыке двух дисциплин появилась наука компьютерная лингвистика, а также была создана лингвистическая база знаний, которая составляет основу «лингвистического компонента» некоторых компьютерных систем [2, 225]. К числу таких систем относятся системы искусственного интеллекта, машинного перевода, автоматического порождения текстов и др. К области компьютерной лингвистики относится практически все, что связано с использованием компьютеров в языкознании.

Огромную роль информационные технологии (далее ИТ) стали играть при обучении , в процессе алгоритмизации лингвистических задач, при обработке лингвистических текстов и т. д. (см. Зубов 2004).

Использование информационных технологий в лингвистике стало необходимостью. Однако в реальности для лингвистических задач используется лишь небольшая часть всего объема ИТ: электронные словари и справочники, некоторые программы пакета Microsoft Office. Наиболее распространенной лингвистической задачей в нашей стране является поиск информации в сети Интернет [3, 239].

К сожалению, значительный потенциал современных информационных технологий остается незадействованным, вследствие недостаточной компьютерной грамотности филологов, отсутствия финансирования научно-исследовательских проектов по прикладным вопросам лингвистики, узкоспециальных интересов исследователей и ряда других причин.

Цель данной работы – выявить основные способы и области применения информационных технологий в лингвистическом исследовании.

Настоящая работа состоит из введения, двух глав, заключения, списка использованных источников в количестве 13 наименований, а также предметного указателя.

Во введении обосновывается актуальность исследуемой темы. В первой главе освящаются основные понятия корпусной лингвистики, а также пути ее применения в языковом исследовании. Во второй главе характеризуется современное состояние Интернет-ресурсов, анализируются проблемы лингвистического поиска в Сети, проводится контент-анализ некоторых сайтов в Интернет.

4 стр., 1906 слов

Основные направления в современной прикладной лингвистике

... лингвистика, вычислительная лингвистика, инженерная лингвистика. Но в начале восьмидесятых годов закрепилось название компьютерная лингвистика. За прошедшие полвека в области компьютерной лингвистики ... лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном ...

1.1. Ключевые понятия корпусной лингвистики: корпуса текстов, корпусный анализ

Корпусная лингвистика занимается разработкой общих принципов построения и использованием лингвистических корпусов, т. е. текстов, специально отобранных и размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Впервые мысль о том, что достоверные данные о фонетической , морфологической , синтаксической и семантической структуре языка и речи могут быть получены только из большого массива текстов, были высказаны в докладе «Статистическое исследование лексики и грамматики текста с помощью электронной машины» [12].

С помощью корпусов текстов могут решаться самые различные задачи, поэтому работа с ними стала одним из ведущих методов лингвистических исследований [6, 68-77]. Так, на основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической или синтаксической конструкции, использовании выразительных средств в естественной языковой среде, т. е. в реально существующих, а не искусственно сконструированных контекстах. Кроме того, корпусные исследования позволяют, используя статистические методы, сформулировать, подтвердить или опровергнуть гипотезу о том или ином языковом явлении на большом объеме материала. При этом, если исследователь пользуется уже существующим корпусом, он полностью минует долгий и трудоемкий этап сбора материала (опрос информантов, работа со словарными картотеками или письменными текстами).

Таким образом, возможность широкого применения электронных ресурсов, с одной стороны, значительно облегчила филологам и лингвистам процесс сбора информации, с другой же стороны, ужесточила требования к доказательной базе лингвистических исследований.

Центральным понятием корпусной лингвистики является письменный текстовый массив или корпус текстов. В лингвистической литературе существует несколько определений корпуса текстов. Например, рассматривает корпус текстов как вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области. При этом под корпусом данных понимается сформированная по определенным правилам выборка данных из проблемной области, т. е. из области реализаций языковой системы, содержащей феномены, и которая подлежит лингвистическому описанию [1, 112-113].

рассматривает корпус текстов «как совокупность текстов, являющихся достаточной основой для обеспечения надёжных научных выводов о некотором языке или ином другом подмножестве языка»[4, 64]. Вслед за D. Biber, S. Conrad, R. Reppen под корпусным анализом понимает использование корпусов текстов для проведения лингвистического анализа и выделяет следующие особенности этого вида анализа:

1. Он является исключительно эмпирическим, так как опирается на анализ реальных примеров, использованных в естественных текстах.

2. Его основой является специальным образом построенное большое собрание текстов естественных языков.

3. Он широко использует компьютерный анализ, в том числе автоматические и интерактивные приемы.

59 стр., 29170 слов

Анализ состояния делопроизводства и поиск путей его совершенствования

... работ с документами (ведение переписки, исполнение и контроль исполнения, учет документов, их систематизация, хранение, использование, порядок сдачи законченных производством ... организация делопроизводства в экономике. Целью дипломного проекта является анализ состояния ... Путришки» Гродненской области и поиск путей его улучшения. В ... 70 «Делопроизводство и архивное дело. Термины и определения «установили ...

4. Он опирается на количественный и качественный аналитический прием [4, 64].

Существует несколько требований, предъявляемых к составу и структуре корпуса. Во-первых, это требование полноты. Любое языковое явление, сколь бы редким оно ни было, должно найти отражение в корпусе. Во-вторых, требование репрезентативности. Корпус должен отражать те или иные параметры исследуемого языкового явления в той же пропорции, что и в языке вообще. Важным параметром корпуса также является его объем. Так, если первые корпуса достигали миллиона словоупотреблений, то объем современных корпусов исчисляется сотнями миллионов или даже миллиардами (известно, что объем корпуса Bank of English превышает 2,5 млрд. слов).

1.2. Универсальные и специальные корпуса текстов

Выделяют два основных типа корпусов: универсальный и специальный, и в зависимости от этого разрабатываются критерии и процедуры отбора текстов в корпус. Универсальный корпус текстов создается для отражения внешней по отношению к нему речевой деятельности и может быть использован для всестороннего исследования. Примерами универсальных корпусов текстов могут служить корпусы того или иного естественного языка. Например, Британский национальный корпус (http://www. natcorp. ox. ac. uk), Национальный корпус (**).

Существуют также национальные корпуса для немецкого, китайского, финского, чешского и других языков. Специальный корпус составляется для решения определенной задачи и может быть использован исключительно в тех целях, для которых он создан (к примеру, для обучения иностранному языку и т. д.).

Современные средства позволяют быстро сформировать весьма обширный корпус текстов практически по любой тематике, причем, сделать это может каждый, кто владеет основными навыками работы с ПК и Интернетом.

Большинство современных корпусных менеджеров (т. е. программ, обеспечивающих сортировку результатов поиска, статистические подсчеты, составление конкордансов и словников на основе корпуса) позволяют осуществлять поиск различного рода информации. Например, поиск конкретных , поиск словоформ по лемме (т. е. поиск всех форм одного и того же слова, встретившихся в тексте), поиск неразрывных и разрывных словосочетаний. Более того, благодаря наличию специальной метаразметки, пользователь имеет возможность создавать свой подкорпус текстов, отобранных по жанру, тематике, времени написания и т. д. Каждый из примеров выдачи снабжается информацией об источнике, откуда взят пример. В некоторых корпусах также возможно получать статистическую информацию о том или ином языковом явлении; его относительную частоту, распределение по жанрам или временным срезам, частоту его сочетаемости.

2.1. Современное состояние ресурсов Интернет, посвященных проблемам лингвистики

Интернет как глобальная компьютерная сеть, использующая стандартизованные протоколы (TCP/IP) и объединяющая более 50000 сетей, стал не просто «вершиной человеческой мысли», но развивающимся механизмом, непосредственным прототипом которого является человеческий мозг.

В настоящее время сеть Интернет, а также наиболее популярный сервис данной сети – WWW (World Wide Web), созданный в 1991 г., позволяют пользователям обмениваться практически любой информацией, получать доступ к разнообразным источникам информации, не расположенным в непосредственной близости. Отходя от чисто утилитарного бизнес-применения сети Интернет, современное общество начало грамотно, а главное – также стремительно – применять сервисы мировой сети в научных целях.

7 стр., 3168 слов

Интернет-технологии в процессе поиска и обмена информации

... теоретических основ интернет технологий и основных служб сети интернет. Задачами курсовой работы является: а) ознакомление с возможностями подключения к сети интернет; б) рассмотрение основных служб сети интернет в) изучением принципов поиска информации в ...

Ресурсы сети Интернет в значительном объеме задействованы и для решения ряда лингвистических задач. Так, развиваются сайты, созданные группами исследователей по определенной проблеме (http://**/; http://www. mapryal. org/), членами филологических кафедр на базе вузов (http://slavic. princeton. edu/events/calendar/detail. php? ID=1921; http://. ru/zaslugi. htm), либо пользователями-любителями, интересующимися современными лингвистическими проблемами (http://www. *****/).

На данных сайтах в свободном доступе имеются тексты статей различных ученых, список имеющихся у них публикаций.

Наиболее популярным ресурсом последних лет стали так называемые «живые журналы» – онлайновые блоги (или дневники) пользователей, на страницах которых также организованы сообщества филологов (http://community. /philologist_ru/profile, http://community. /terra_linguarum/profile).

Ценность данного ресурса не только в том, что с его помощью можно общаться со своими коллегами, но также и в том, что живые журналы служат источниками самой новой информации по различным тематическим разделам.

По сравнению с большим количеством разнообразных сайтов и живых журналов по лингвистике, использование других ресурсов Интернет незначительно. К их числу можно отнести (в том числе электронные словари и корпуса текстов) и системы машинного перевода он-лайн.

Для пользователя-лингвиста наличие словарных источников в Сети позволяет решить сразу несколько задач: быстрый доступ к источнику; качественно новый уровень работы с источником вследствие удобного интерфейса словаря online; одновременная работа с несколькими источниками и др. Кажущиеся простыми, данные задачи невозможно было бы решить, используя словари на бумажных носителях. На данном этапе развития лингвистики большинство специальных и переводных словарей имеют электронный формат, снабжены удобной системой поиска, позволяют не только просматривать, но и прослушивать отдельные компоненты словаря. Среды одноязычных словарей одним из первых был запущен словарь английского языка Merriam-Webster Online Dictionary (http://www. ).

В сети Интернет особой популярностью пользуется ресурс «Словари и энциклопедии online» (http://dic. *****/), а также официальный сайт AskOxford, на котором возможен поиск лексических единиц английского языка (http://www. /dictionaries/?view=uk) в различных словарях одновременно.

Для филологов-белорусистов доступен полноформатный сайт, на котором пользователи имеют доступ к ряду специальных словарей в режиме он-лайн. Данный продукт представляет интерес и в том отношении, что содержит корпус текстов на (http://).

Не меньшую значимость в исследовательских целях имеют корпуса текстов на русском (**) и английском языках (http://www. natcorp. ox. ac. uk).

Этот краткий обзор ресурсов Интернет позволяет признать, что объем сайтов, наличие большого числа форумов, словарей и энциклопедий может служить хорошим инструментом для исследователя-лингвиста. Однако не только количество веб-сайтов, сколько качество их содержания необходимо для того, чтобы считать их достаточно пригодными для исследовательской работы, в том числе, при написании диссертационного исследования.

2.2. Контент-анализ ресурсов Интернет, посвященных вопросам лингвистики

Прибегая к Интернет-ресурсам в работе над диссертационным исследованием, совершенно естественно, что первым шагом является поиск информации. Наиболее популярными поисковыми системами являются Google, Yandex, Yahoo, Rambler и некоторые другие. Правильная формулировка запроса неизменно приведет к искомому источнику. Выделяют следующие преимущества использования систем Интернет:

1) Быстрый поиск информации;

2) Идентификация источника информации;

[Электронный ресурс]//URL: https://inzhpro.ru/diplomnaya/informatsionnyie-tehnologii-v-filologii/

3) Получение свежей информации;

4) Получение важных данных [3, 239].

Существует также ряд статей, помогающих пользователю искать необходимую информацию в Сети (например, Интернет ЛикБез).

Однако, как совершенно справедливо отмечает , «полезной информации становится все больше, но найти что-либо необходимое – все сложнее» [3, 240].

В настоящее время некоторую трудность представляет поиск книг либо статей как отечественных, так и зарубежных лингвистов. Большинство авторов не «выкладывает», то есть не публикует свои статьи в Интернете. Для приобретения подобных работ необходима регистрация на сайте, оплата определенных и только после этого пользователь получает доступ к статьям. Очевидно, что несколько иначе дело обстоит в России и в Беларуси. Многие лингвисты понимают преимущества Интернета и публикуют свои статьи на персональных сайтах, что, несомненно, облегчает доступ к ним широкого числа пользователей.

С другой стороны, появляются специальные сайты, содержащие многочисленные ссылки на источники в определенной предметной области (http://orus. slavica. org/taxonomy/term/12).

Следует также отметить, что не все сайты одинаково полезны для исследовательских целей. Интересным примером может служить форум «Международная конференция по компьютерной лингвистике» (http://www. *****/forum/actualtopics. aspx? bid=16).

Внимание к данному ресурсу привлекает тот факт, что основными ведущими данного форума являются известные языковеды. Так, раздел «Лингвистическая семантика» возглавляет известный лингвист Ирина Кобозева (г. Москва).

На форуме каждый пользователь имеет возможность задавать вопросы ведущему форума. Но очевидно, что самым информативным в данном случае являются именно ответы лингвиста. В этом, с одной стороны, недостаток форумов (они притягивают некомпетентных в области людей), а с другой стороны, благодаря быстрой обратной связи, специалисты могут ответить на вопросы большому количеству пользователей сразу, что было бы невозможно в иных случаях.

Кроме того, что до настоящего момента малодоступной в Сети является лингвистическая литература в виде монографий, диссертаций и проч. В популярных библиотеках, например, в Библиотеке Максима Мошкова (www. *****) и некоторых других несмотря на имеющуюся литературу по экономике, физике, кибернетике отсутствует раздел, посвященный вопросам языкознания. И хотя многие библиотеки имеют свои он-лайн каталоги, саму работу получить через Интернет почти невозможно.

Все перечисленные ресурсы сети Интернет активно используются нами при написании диссертационного исследования. Особую значимость имеют корпуса текстов на различных языках и электронные словари. Не менее важными являются и банки лингвистических статей, которые размещены на сайтах вузов и ассоциаций лингвистов.

В настоящее время область информационных технологий переживает мощнейший технологический бум. Сами информационные технологии приобретают новый статус и становятся инструментом в руках исследователя. Так, практически все лингвистические исследовании, включая даже такие масштабные как работы по составлению словарей и грамматик, так или иначе ориентированы на использование представительных корпусов текстов. Например, словари издательства Collins создавались на базе электронного языкового корпуса Bank of English, насчитывающего более 2,5 миллиардов слов. В поле зрения лингвиста имеется также огромное число сайтов, форумов, виртуальных библиотек. Приведенный нами обзор Интернет-источников по теме исследования далеко не полон. Однако он дает некоторое представление о количестве источников информации и ресурсах, представляющих интерес для исследователя. Интернет способен, как никакой другой ресурс, объединить исследователей из разных стран, организовать конференцию участников в Сети, сделать возможным их виртуальное общение.

Совершенно очевидно, что пройдет немного времени до момента, когда появятся заказы на компьютерные программы, призванные обеспечивать лингвистические цели и задачи. В частности, насущной остается проблема статистического подсчета и обработки лексических единиц, которая традиционно выполнялась вручную, но без чего немыслимо ни одно исследование в области языкознания.

Таким образом, на современном этапе развития техники компьютерная грамотность для филолога является уже не требованием, а необходимым условием и одной из составляющих профессионального успеха.

1. Баранов, в прикладную лингвистику / . – М.: Эдиториал УРСС, 2001. – 360с.

2. Голубева, база знаний для генерации интернет-текстов / // Вестник МГЛУ. Сер. 1, Филология. Мн.: МГЛУ, 2006а. – №3 (23).

– С. 225–239.

3. Голубева, проблемы поиска информации в сети Интернет и способы из разрешения / // Вестник МГЛУ. Сер. 1, Филология. Мн.: МГЛУ, 2006б. – № 3 (23).

– С. 239–249.

4. Зубов, перевода терминологических словосочетаний с использованием параллельных текстов / // Теория и практика перевода. – 2005. — №1. – С.64-66.

5. Зубов, технологии в лингвистике: Учеб. пособие / , . – М.: Издательский центр «Академия», 2004. – 208с.

6. Зубов, лингвистика: возможности и проблемы / // Актуальные проблемы компьютерной лингвистики: Сб. научных ст. Отв. ред. . – Минск: МГЛУ, 2005. – С.68-77.

7. Кравченя, информатики, компьютерной графики и средства / . – Мн.: ТетраСистемс, 2004. – 319 с.

8. , . пособие для студ. пед. вузов / , , ; Под ред. . – 3-е изд., перераб. и доп. – М.: Издательский центр «Академия», 2004. – 848 с.

9. Основные понятия и определения информационных технологий [Электронный ресурс]. – Режим доступа: http://*****sedu. info/Article581.html . – Дата доступа: 01.02.2011.

10. Острейковский, : учеб. для вузов / . – Мн.: Высш. шк., 1999. – 511 с.

11. Перепелкин, В. Пользователь персонального компьютера. Соверменный курс / В. Перепелкин; под ред. . – Ростов н/Д: Феникс, 2002. – 704 с.

12. Пиотровский, исследование лексики и грамматики текста с помощью электронно-вычислительной машины / // Проблемы синхронного изучения языка: Материалы науч. конф. – М.: МГПИИЯ, 1965. – с.144-146.

13. Вавилонское столпотворение в Интернете // КомпьютерПресс [Электронный ресурс]. – Режим доступа: http://*****/Archive/CP/2005/2/2/. – Дата доступа: 01.03.2011.

14. Microsoft Manual of Style for Technical Publications / Third Edition. – Microsoft Press, 2003. – 352 p.

15. Microsoft Press Computer Dictionary / Third Edition. – Microsoft Press, 1998. – 336 p.

M

Merriam-Webster Online Dictionary, 11

W

World Wide Web, 10

Б

Библиотеке Максима Мошкова, 14

Ж

живые журналы, 11

К

компьютерная сеть, 10

корпус текстов, 12

корпус текстов на английском языке, 12

корпус текстов на русском языке, 12

Корпусная лингвистика, 6

П

поисковые системы, 12

преимущества использования систем Интернет, 12

Р

ресурсы сети Интернет, 10

С

сайт AskOxford, 11

сообщества филологов, 11

Специальный корпус, 8

У

Универсальный корпус, 8

Ф

форум, 13

http://president. Сайт Президента Республики Беларусь

http:// Сайт белорусского государственного университета. Содержит в числе других разделов направления , объявления о научных конференциях.

http://. ru Сайт кафедры теоретического и славянского языкознания Белорусского государственного университета

http://** На этом сайте помещен корпус современного русского языка объемом более 140 млн. слов.

http://www. *****/ Это Корпус языка, который отражает употребление слов, словоформ, грамматических конструкций, словосочетаний русского языка, начиная с середины 20в. и до настоящего времени.

http://www. natcorp. ox. ac. uk/ Здесь помещен Британский национальный корпус (BNC), включающий более 100 млн. слов.

http://www. americannationalcorpus. org/ Это Американский национальный корпус (ANC)

http://dic. ***** На этом сайте можно найти словари и энциклопедии в режиме online по различным предметным областям

http://www. Это официальный сайт AskOxford, на котором возможен поиск лексических единиц английского языка.

http://www. scientificjournals. org На этом сайте в открытом доступе размещены англоязычные журналы практически по всем научным дисциплинам, в том числе и гуманитарным, например, Journal of Literature, Language and Linguistics.

http://www. hnu. edu/ishs/ Это сайт Международного общества по изучению юмора (International Society for Humor Studies)

http :// ir s b . narod 2. ru

, Универсальный корпус 1

аспиранта

филологический факультет

Специальность 10.02.19. – Теория языка

Смежные специальности

10.02.04 – Германские языки

1. Исследование современных германских языков и их диалектов на фонетическом, , морфологическом, синтаксическом, словообразовательном и лексико-семантическом уровнях в синхронном и диахронном аспектах.

2. Контакты германских языков между собой и с другими языками в различные исторические периоды.

3. Разработка методов лингвистического анализа.

10.02.02 – Русский язык

1. Синхронические, диахронические и проблемы становления, развития и функционирования русского языка.

2. Функциональные стили русского языка, жанры речи.

3. Изучение контактов русского языка с соседними славянскими и неславянскими языками.

Основная специальность

10.02.19. – Теория языка

1. Сущность и структура языка, место языка в обществе и жизни человека как средстве хранения и передаче информации.

2. Вопросы эволюции языка на его различных уровнях.

3. Языки и диалекты, зафиксированные в письменной форме.

4. Закономерности фонетической, фонологической, морфологической, просодической, интонационной, синтаксической, словообразовательной, лексической, фразеологической, стилистической организации языка.

Сопутствующие специальности

10.02.08 – Теория литературы. Текстология

[Электронный ресурс]//URL: https://inzhpro.ru/diplomnaya/informatsionnyie-tehnologii-v-filologii/

1. Теория художественного перевода.

2. Проблема построения текстов.

http://ir-s-b. *****/prezentatsiya_/svoya_.ppt

Универсальный корпус 2

<question type=»close» id=»111″>

— <text> Microsoft Word это: </text>

— <answers type=»request»>

— <answer id=»313759″ right=»0″> графический редактор </answer>

— <answer id=»313760″ right=»1″> текстовый редактор </answer>

— <answer id=»313761″ right=»0″> редактор таблиц </answer>

— </answers>

— </question>

— <question type=»close» id=»112″>

— <text> В редакторе таблиц Microsoft Excel для возведения числа в степень используется клавиша: </text>

— <answers type=»request»>

— <answer id=»313759″ right=»0″> $ </answer>

— <answer id=»313760″ right=»0″>

— </answer>

— <answer id=»313761″ right=»1″> ^ </answer>

— </answers>

— </question>

— <question type=»close» id=»113″>

— <text> В Microsoft Word чтобы выделить абзац целиком нужно: </text>

— <answers type=»request»>

— <answer id=»313759″ right=»0″> щелкнуть на нем мышкой 2 раза </answer>

— <answer id=»313760″ right=»1″> щелкнуть мышкой на полосе выделения при нажатой клавише Ctrl </answer>

— <answer id=»313761″ right=»0″> дважды щелкнуть на полосе выделения </answer>

— </answers>

— </question>

Универсальный корпус 3

Универсальный корпус 4