Информационно-поисковые технологии и системы

Контрольная работа

Интернет сегодня – это не только огромное количество компьютеров, но и невероятное количество людей, для которых сеть является принципиально новым способом общения, почти не имеющим аналогов в материальном мире. Человек – существо социальное, и общение с себе подобными – одна из первейших его потребностей. До сих пор еще ни одно техническое изобретение (не считая телефона) не производило такого переворота в этом древнем занятии – общении человека с человеком.

В начале 70-х годов Министерство обороны США приступило к разработке системы связи, которая должна была соединить между собой компьютеры всех центров противоракетной обороны страны. К надежности системы предъявлялись высокие требования: выход из строя любых ее составляющих (то есть компьютеров и линий связи) не должен был сказаться на качестве и скорости связи между остальными участниками информационного обмена. На протяжении почти десяти лет развитие сетевых технологий шло малозаметно для широкой публики: услугами сети пользовались в основном программисты и военные. Но затем, опираясь на их опыт, многие организации стали создавать системы компьютерной связи между своими подразделениями, предприятиями, разнесенными на большие расстояния. К примеру, в конце 80-х годов Национальный научный фонд США организовал 5 вычислительных центров, базирующихся на супер-ЭВМ, и сотням научных лабораторий и университетов, которым потребовался доступ к этим компьютерам, пришлось объединиться в одну сеть.

«Интернет» не является отдельной сетью: на самом деле это сообщество сетей – “сеть сетей”, в которую сейчас входит более 2 миллионов компьютеров во всем мире. Достаточно просто быть подключенным к части Сети, чтобы иметь доступ к ресурсам любого компьютера.

“Интернет”– не говоря уже о том, что его появление ознаменовало новую эпоху в развитии коммуникации, — позволило человечеству бесконечно расширить свои познания в любой, даже самой немыслимой, сфере деятельности или исследований. А так как развитию “Интернета”, с одной стороны способствовали коммерческие организации, фирмы, использующие сеть для обмена деловой информации и публикации рекламы, с другой – студенты, помещающие на всеобщее обозрение множество материалов развлекательного характера, то здесь много полезного найдут себе и бизнесмены, и просто любители со вкусом отдохнуть. К настоящему моменту спектр возможностей Сети растет с каждым годом.

Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин.

10 стр., 4651 слов

Настройка локальной сети

... компьютер локальной сети, подключенный к Интернет. У него есть доступ как к Интернету, так и к локальной сети; локальная сеть, в которую включен этот компьютер. Наша задача - дать компьютерам локальной сети доступ к Интернет ... указать прокси-сервер для выхода через него в Интернет. Настройка прокси-сервера в IE Интернет в локальной сети настраивается через прокси-сервер. В следующей записи мы ...

  1. Развитие поисковых систем

Рассмотрим исторические предпосылки развития поисковых систем. Обратимся к истории возникновения сети интернет, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений были разработаны исключительно для обмена данными между хост-компьютерами интернет. Другие приложения, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития интернет (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения. Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации.

Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети интернет. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети. Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов. Система Gopher была разработана для упрощения процесса локализации ресурсов интернет и для более удобного представления сведений о содержании хранящихся на серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании.

Меню Gopher-серверов могут содержать ссылки на другие серверы. Таким образом, пользователь получает возможность “путешествовать» по интернет, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам. Под информационной системой в дальнейшем понимается – организованная совокупность программно–технических и других вспомогательных средств, технологических процессов и функционально–определённых групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений, необходимых для удовлетворения информационных потребностей установленного контингента пользователей – абонентов системы.

Первой поисковой системой для Всемирной паутины был «Wandex» , уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем из Массачусетского технологического института в 1993 г. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994 г. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 г. был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 г. была открыта поисковая машина Яндекс.

Хронология

Год

Система

Событие

1994

Lycos

Запуск

1994

Infoseek

Запуск

1995

AltaVista

Запуск

1995

Excite

Запуск

1995

Open Text

Запуск

1995

Magellan

Запуск

1995

SAPO

Запуск

1996

Inktomi

Основана

1996

HotBot

Основана

1996

Ask Jeeves

Основана

1996

Rambler

Запуск

1996

Aport

Запуск

1997

Northern Light

Запуск

1997

Google

Запуск

1997

Яндекс

Запуск

1999

AlltheWeb

Запуск

1999

Mail.ru

Запуск

1999

Teoma

Основана

2000

Baidu

Основана

2004

Yahoo! Search

Окончательный запуск

2004

MSN Search

Запуск (бета)

2005

Nigma

Запуск (бета)

2006

Ask.com

Запуск

2006

Генон

Запуск

2006

Live Search

Запуск

2006

Quintura

Запуск

2007

Gogo.ru

Запуск (бета)

2008

Qwate.ru

Запуск (бета)

2008

TinEye

Запуск (бета)

1.1 Задачи поиска

Автоматизированная поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций.

Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.

Под информационной системой в дальнейшем понимается – организованная совокупность программно–технических и других вспомогательных средств, технологических процессов и функционально–определённых групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений, необходимых для удовлетворения информационных потребностей установленного контингента пользователей – абонентов системы.

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).

Каковы основные источники информации, представленные в Интернете? Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.

Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых — собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.

ИПС (информационно-поисковая система) — это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность.

Релевантность — это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW).

Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное — по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.

Следует отметить, что при выполнении запроса поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных, где в компактном виде собраны данные об информации в Интернете. Возможно, что реальное состояние Интернета несколько отличается оттого, что храниться в базе данных. Поисковые системы постоянно пополняют и обновляют свои базы данных, чтобы минимизировать такое несовпадение. Существует два способа пополнения информации в базы данных поисковых машин:

  • Разработчик Web-страницы самостоятельно добавляет ссылку на неё в поисковую систему. Большинство систем позволяют это сделать совершенно бесплатно.
  • Специальная программа, называемая роботом, находит ссылку на новую страницу во Всемирной паутине. Роботы запускаются поисковой системой, что бы проверить, существуют ли ранее найденные документы и не появились ли новые.

1.2 Каталог и метапоисковая машина

Каталог — поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.