Автоматическое реферирование и аннотирование текста

Реферат

Реферат и аннотация текста. Общие понятия

Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результа­ты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам (науч­ным книгам, статьям, патентам на изобретение и т.п.) Реферат ак­центирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помо­гает человеку ориентироваться в информационных потоках, опе­ративно отбирать для себя наиболее ценную и полезную информа­цию. Процесс составления реферата называется реферированием.

Аннотацией называют краткое изложение содержания докумен­та, дающее общее представление о его теме. Таким обра­зом, если реферат в краткой форме знакомит читателя с сутью излагаемого в документе содержания (фактами, методикой, экспериментами и т.п.), то аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему. Процесс составления аннотации называется аннотированием.

Рефераты и аннотации представляют собой вторичные доку­менты (первичные, или исходные, документы — это книги, статьи, патенты и т. п.) В каждом вторичном документе можно выделить два компонента информации:содержательный и документографический. Первый компонент содержит информацию первоисточника (о чем книга, статья).

Второй компонент — это сведения о самом первичном документе (тип документа: книга, статья и т.п.; вид: печатный, рукописный; год издания; место издания и т.д.).

В даль­нейшем речь пойдет только о первом компоненте вторичного до­кумента.

Научно-технический прогресс привел к появлению большого числа публикаций (книг, статей и т.п.) по самым разным проб­лемам науки, техники, образования, и специалисты не успевают следить за новейшей литературой по своей области знания. Для этого, как установлено, человек должен был бы прочитывать еже­дневно 1500 страниц текста на разных языках, что явно превыша­ет его физические возможности. Поэтому для оперативного «по­верхностного» знакомства с новейшими публикациями использу­ются рефераты и аннотации книг и статей, которые составляются в специальных организациях и публикуются в реферативных жур­налах (РЖ) и реферативных сборниках (PC).

Реферирование и аннотирование текста являются сложными видами интеллектуальной деятельности. Составление человеком рефератов или аннотаций занимает много времени. Это приводит к тому, что до ученых, педагогов, инжене­ров и других специалистов новейшая информация (особенно зару­бежная) доходит очень медленно, что, в свою очередь, ведет к повторению в разных странах и в пределах одной страны одних и тех же исследований, более позднему применению новейших ме­тодик, технологий, процессов.

17 стр., 8230 слов

ГОСТ Р 7.0.99-2018 (ИСО 214:1976) Система стандартов по информации, ...

... научно-технических и научно-практических документов (статей, текстов докладов, монографий), при составлении авторских резюме (рефератов) к своим публикациям и аннотаций к книгам (монографиям, учебным пособиям и т.д.). 2 Нормативные ссылки ...

Чтобы как-то избежать этого, для составления рефератов и аннотаций применяют современные ком­пьютеры.

Составление реферата или аннотации текста с помощью компьютера называется автоматическим реферированием или ан­нотированием.

Формулировка задачи автоматического реферирования

и аннотирования текста

При выполнении работы по составлению реферата или аннотации человеком (референтом) обычно выделяют три этапа:

1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом;

2) аналитический — референт делит текст на некоторые фраг­менты (абзацы, аспекты и т.п.).

Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (пред­ложения, словосочетания, слова).

Данный этап заканчивается со­ставлением плана будущих реферата или аннотации;

3) этап непосредственного построения реферата или аннота­ции — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с планом реферата или аннотации.

В качестве основных смысловых единиц, выделяемых из исходного текста на 2-м этапе, могут выступать:

1) целые клю­чевые предложения;

2) ключевые словосочетания и слова.

Ключевое (опорное) слово — это термин, относящийся к основ­ному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).

Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых.

Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания.

Составление плана будущих реферата или аннотации заключа­ется в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают:

1) основные темы и подтемы исходного текста;

2) основные аспекты исследования;

3) основные ключевые предложения, словосочетания и слова.

Создаваемый на 3-м этапе реферат или аннотация содержат выделенные ранее смысловые единицы. В качестве смысловых еди­ниц реферата могут выступать:

1) полные (без изменения) ключевые предложения исходного текста;

2) перефразированные ключевые предложения исходного текста;

3) предложения, составленные из ключевых слов или словосочетаний исходного текста с помощью специальных связующих элементов;

4) предложения, обобщающие несколько предложений исходного текста (не обязательно ключевых).

При перефразировании применяются различные лексико-грамматические явления: использование синонимов, конверсивов, замен по принципу «вид-род», «часть-целое» и т.п.

При получении новых предложений из ключевых слов и слово­сочетаний исходного текста чаще всего используют различные логико-смысловые скрепы, например, потому что, в то время как, поэтому, вследствие и т.п.

14 стр., 6843 слов

О вводных словах, словосочетаниях и предложениях

... бы этого делать (вводное слово; ср. вообще говоря). Различить обстоятельственные и вводные конструкции не всегда легко, но нужно иметь в виду, что вводное слово не является членом предложения (в последнем примере ... цен на потребительские товары. В целом. Является вводным сочетанием, если сообщает о некоем итоге, который подводит автор текста; ср.: В целом, результаты наблюдений позволяют заключить ...

В обобщающих предложениях исходный текст передается со­вершенно другими словами. В них то же самое содержание излага­ется в более кратком виде.

Смысловыми единицами аннотации могут быть:

1) ключевые слова или словосочетания исходного текста с предшествующими им специальными фразами — реляторами типа: «В статье рассматриваются следующие вопросы:…», «Книга посвящена следующим проблемам: …» и т.п.;

2) специальные предложения, содержащие оценочные элемен­ты: «Рассматривается важная проблема…», «Статья посвящена актуальной теме…» и т.д.;

3) специальные предложения, содержащие клише, т.е. специ­ализированные словесные штампы, фиксирующие внимание чи­тателя на определенных аспектах содержания: «Недостаток… за­ключается», «Цель публикации…», «Ставится задача…», «Делает­ся попытка…» и т.д.

Следующий важный вопрос, который необходимо рассмотреть, связан с тем, как человек выбирает из текста ключевые предло­жения, словосочетания и слова. Это делается, как уже отмеча­лось, на 2-м этапе общего процесса составления вторичного до­кумента. Читая текст повторно (первый раз он читается на подго­товительном этапе) или в третий раз, человек мысленно выделяет в нем три типа единиц (предложений, словосочетаний, слов):

1) единицы, которые обязательно должны быть включены в реферат или аннотацию. Такие единицы отражают новые идеи, гипотезы, новые методы, явления, процессы, новые результаты, т.е. все новое и оригинальное, что есть в исходном документе. Это, по существу, и есть основные смысловые единицы текста (ключе­вые предложения, словосочетания и слова);

2) единицы, которые отражают фактические данные: параметры изделий, процессов, методов и т.д. Такие единицы не являются принципиально новыми;

3) единицы, которые аргументируют и иллюстрируют едини­цы первых двух типов.

Единицы первого уровня обязательно используются при со­ставлении реферата. Из единиц второго уровня использу­ются лишь некоторые (в зависимости от типа реферата или его потребителя).

Третья группа единиц изредка переносится в рефе­рат в обобщенном виде.

Если поручить составление реферата или аннотации компью­теру, то, очевидно, его надо научить выполнять те же действия, которые осуществляет человек. Компьютер должен уметь:

1) находить в тексте ключевые слова, словосочетания и пред­ложения;

2) находить в тексте менее значимые единицы;

3) составлять из текстовых единиц двух первых типов смысло­вые единицы реферата или аннотации;

4) составлять из таких единиц текст реферата или аннотации. Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматиче­ского реферирования в качестве основных смысловых единиц ре­ферата выступают ключевые предложения или ключевые слово­сочетания и слова исходного текста. Первые в их последователь­ной совокупности (в том порядке, в котором они идут в исходном тексте) образуют текст (квазитекст) реферата. Второй тип смыс­ловых единиц (ключевые словосочетания и слова) используется компьютером для построения так называемых табличных рефе­ратов.

3 стр., 1075 слов

Рефераты по технологи

... имен, конкретных примеров; разъяснение разных позиций специалистов; передается содержание изученных документов по теме реферата. В тексте должны быть ссылки на используемые источники. Если в основной части содержатся ... все это пишем? Запишите цель своей работы. Обычно она формулируется кратко, одним предложением. Задачи Задачи уточняют цель. Цель указывает общее направление движения, а задачи ...

При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы:…», «Книга посвящена сле­дующим проблемам: …», «Статья раскрывает следующие понятия: …» и т.д.

По способам выделения из исходных текстов ключевых слово­сочетаний и предложений (первые два «умения» компьютера) различают несколько методов автоматического реферирования и аннотирования текстов. Наиболее известны следующие три груп­пы методов:

1) статистические;

2) позиционные;

3) логико-семантические.

Суть статистической группы методов заключается в том, что:

1) ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз;

2) ключевым предложением считается предложение текста, которое:

  • а) имеет несколько ключевых слов;
  • б) содержит ключевые слова на небольшом расстоянии друг от друга.

Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами.

В позиционных методах автоматического реферирования и ан­нотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа.

Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна — выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложе­нии специальных семантически значимых слов, связи этого пред­ложения с другими предложениями текста, синтаксического типа самого предложения и т.д.

Формулируя задачу построения системы автоматического аннотирования и реферирования текста, необходимо четко указать:

1) метод, который используется для выделения ключевых слов предложения;

2) способ определения ключевых словосочетаний предложения;

3) критерий выделения ключевых предложений текста;

4) тип подготавливаемой аннотации: текстовая, в виде релятора с последующими ключевыми словами и словосочетаниями, или табличная;

5) тип формируемого реферата: текстовый или табличный.

Системы автоматического реферирования

и аннотирования текстов

Искусство реферирования, или составления аннотаций, или кратких изложений материала, иными словами, извлечения наиболее важных или характерных фрагментов из одного или многих источников информации, стало неотъемлемой частью повседневной жизни. Новости, которые предлагает нам телевидение, – это суть реферат мировых событий дня. Бегущая строка биржевых котировок – «сухой остаток» информации о купле-продаже, которую ежеминутно порождает рынок. Программа телевидения предлагает короткие анонсы фильмов и телезрители, думая, что листают программку, на самом деле читают реферативный журнал по киноискусству.

22 стр., 10709 слов

Технологии обработки текстовой информации

... получаемых при этом документов. В теоретической части моей курсовой работы будут показаны основные средства и технологии обработки текстовой информации. В практической части курсовой работы будет описана и решена задача № 12 с ... клавиша F8. Каждое нажатие этой клавиши расширяет фрагмент выделения текста. Для выделения... Нажать F8 Слова 2 раза Предложения 3 раза Абзаца 4 раза Главы 5 раз Всего ...

Хотя некоторые производители уже сейчас предлагают инструменты для реферирования, объем информации в Сети растет и оперативно получать ее корректные сводки становится все сложнее. Такие инструменты, как функция AutoSummarize в Microsoft Office 97, системы IBM Intelligent Text Miner, Oracle Context и Inxight Summarizer (компонент поискового механизма AltaVista), безусловно, полезны, но их возможности ограничены выделением и выбором оригинальных фрагментов из исходного документа и соединением их в короткий текст. Подготовка же краткого изложения предполагает передачу основной мысли текста, и не обязательно теми же словами.

Текст, полученный путем соединения отрывочных фрагментов, лишен гладкости, его трудно читать. Кроме того, источники информации вовсе не всегда являются текстами, ведь необходимо подготавливать аннотации и на видеозаписи, к примеру, спортивных соревнований, или формировать сводные данные по биржевым таблицам. Перечисленные инструменты реферирования рассчитаны на обработку только текстовой информации. И, наконец, они не могут работать сразу с несколькими источниками. Так, скажем, многочисленные ленты новостей в Web сообщают об одних и тех же событиях, и на этот случай мог бы оказаться полезен инструмент, способный выделить общие места и новую информацию.

Исследователи предлагают несколько подходов, призванных преодолеть эти ограничения. Они распадаются на две категории. В основе подходов, не предполагающих опору на знания, лежит отказ от добавления новых правил для каждой новой прикладной области знания или языка. Подход, опирающийся на знания, исходит из предположения, что если удается понять значение текста, сократить его становится проще, следовательно, полученная в итоге аннотация будет более качественной. Этот подход предусматривает использование базы знаний значительного объема, состоящей из правил, которые извлекаются, поддерживаются и затем адаптируются к новым приложениям и языкам. Впрочем, две эти категории не исключают друг друга. Известны несколько гибридных подходов.