Создание информационно поисковой системы

Добрый день, мои уважаемые читатели. Сегодня мы коснемся чрезвычайно интересной и важной темы – информационно поисковые системы. Умение правильно работать с ними, знание основных понятий и принципов работы смогут помочь начинающим пользователям научиться быстро и оперативно искать различную информацию в сети, получать нужные данные и быстро развивать свой интернет бизнес.

В данной статье я расскажу об истории создания систем поиска, принципах их работе и структуре. Помимо этого, остановлюсь на очень важных фишках, которые необходимо обязательно знать при работе с ИПС.

Итак, давайте более подробно изучим, что такое ИПС, какие компоненты входят в их состав.

Информационно – поисковые системы (ИПС) и их виды

Данное понятие возникло еще в конце 80 – х, начале 90 – х годов прошлого века. Именно тогда и возникли их первые прототипы, как в России, так и за рубежом. Согласно определению – это система, которая позволяет искать, обрабатывать, отбирать требуемые данные запроса в своей особой базе, где находятся описания различных источников информации, а также правила пользования ими.

Основной ее задачей является поиск нужной пользователю информации. Для того, чтобы он был более эффективным, используется понятие релевантности, то есть то, насколько сами результаты поиска точно подходят тому или иному запросу.

К основным типам ИПС относятся следующие понятия:

  • Каталог, который представляет собой специально созданную структуру. Он имеет свою четкую классификацию по различным темам. Каталоги также включают особые аннотации с многочисленными ссылками на различные ресурсы в сети интернет. Это могут быть сайты, порталы, веб-страницы и т д. Разработка каталогов той или иной ИПС явилось очень удобной благодаря тому, что они могут поддерживать оперативный поиск той или иной категории различных ресурсов по особым ключевикам (словам) с использованием специальных роботов – пауков.

Индексация каталога может производиться, как вручную, так и автоматически с обновлением индекса. В свою очередь сам результат работы системы включает в себя особый список. В него входят гиперссылка на требуемые ресурсы и описание того или иного документа в интернете.

Из наиболее популярных каталогов можно выделить: Yahoo, Magellan (зарубежные) и Weblist, Улитка и @Rus из отечественных.

  • Поисковая машина представляет собой особую структуру поиска, которая для формирования базы данных применяет специальных роботов. Она содержит различные данные об интернет – ресурсах. Самым главным ее преимуществом является то, что ее основные функции автоматизированы, а ее база создается поисковым роботом. Для того чтобы произвести поиск в данной системе, пользователь вводит запрос, который включает в себя набор доступных ключевиков, либо фразу в «кавычках». В свою очередь индекс создают роботы – индексировщики. Само описание документа содержит: начальные предложения статьи, кусочек текста, где выделены «ключевики». В документе также есть дата, когда обновляли документ, его размер в Кб или Мб, а также кодировка.

К наиболее распространенным зарубежным ИПС относят – Google, Altavista, Excite. Русские – «Яндекс» и «Рамблер».

  • В мире существует огромное количество различных видов ИПС, которые содержат множество источников информации. Разумеется, что даже наличие самого современного и мощного сервера не может удовлетворить запросы миллионов пользователей. Именно поэтому, появились специальные метапоисковые системы. Они могут одновременно пересылать запросы пользователей различным поисковым серверам, а на основе своего обобщения имеют возможность предоставить пользователю документ, содержащий ссылки на требуемый ресурс. К их числу можно отнести – MetaCrawler или SavvySearch.

История создания ИПС

Самые первые ИПС появились в середине 90 – х годов 20 века. Они весьма напоминали обычные указатели, которые находятся в любых книгах, некие справочники. В их базе данных содержались специальные ключевики (слова), которые различными способами собирались с многочисленных сайтов. Так, как интернет – технологии были не совершенными, то и сам поиск выполнялся только по ключевым словам.

Значительно позднее был разработан специальный полнотекстовый поиск, облегчающий нахождение необходимой пользователю информации. Система производила фиксацию ключевых слов. Благодаря ей, пользователи могли производить нужные запросы по тем или иным словам и различным словосочетаниям.

Одной из первых, была «Wandex». Ее разработкой занимался очень известный программист Мэтью Греэм в 1993 году. Также, в этом же году возникла и новая «поисковка» «Aliweb» (кстати, и по сей день успешно работает). Однако все они имели достаточно сложную структуру и не обладали современными технологиями.

Одной из наиболее удачных явилась «WebCrawler», которая впервые была запущена в 1994 году. Отличительной особенностью и главным преимуществом, выгодно выделяющим ее среди других систем поиска, явилось то, что она могла находить любые ключевики на той или иной странице. После этого, это стало своего рода эталоном и для всех остальным ИПС, которые разрабатывались позднее.

Значительно позже возникли и другие поисковики, которые иногда конкурировали между собой. Это были – «Excite», «AltaVista», «InfoSeek», «Inktomi» и многие другие. Начиная с 96 года, российские пользователи сети начали работать с «Рамблером» и «Апортом». Но, настоящим триумфом для российского интернета, стал созданный в 1997 году «Яндекс».

Этот российский аналог «Google» стал настоящей гордостью российских программистов. Сегодня, он уверенно теснит конкурента в рунете и также является одним из лидеров по поисковым запросам среди ИПС в России.

На сегодняшний день, имеются многочисленные специальные «поисковики», которые созданы для решения определенных задач. Так, например, информационно – поисковая система «Патрон», разработана для того, чтобы хранить и искать данные по патронам для различного оружия и сейчас применяется, как в органах Министерства Внутренних Дел и спецслужб, так и для охотников – профессионалов и любителей.

Имеются и другие, разработанные для нотариусов, врачей, инженеров, военных, автолюбителей и т д

Как работает ИПС

Работа информационно – поисковой системы является очень сложной. Однако при желании можно разобраться в ее структуре. Первое, что необходимо отметить, что существует особая программа – она называется поисковым роботом (пауком). Данная программа систематически мониторит различные страницы и индексирует их.

Веб сервер создает запрос пользователя на получение той или иной информации, а затем предоставляет данный запрос машине поиска. Поисковик исследует требуемую базу данных, потом составляет полный список страниц, а затем передает веб-серверу. Он в свою очередь окончательно формирует все результаты запроса в «читаемый» вид, затем передает их на «комп» пользователя.

ИПС предназначена для следующих целей:

  • Хранить значительные объемы данных;
  • Производить оперативный поиск нужной информации;
  • Добавлять, а также удалять различные данные;
  • Выводить информацию в простом и удобном виде.

Существуют несколько основных типов ИПС:

  • Автоматизированные
  • Библиографические
  • Диалоговые
  • Документальные

Какие поисковые системы наиболее популярны сегодня?

На первом месте, без всякого сомнения, находиться неотъемлемый лидер – «Google». На сегодняшний день, к нему адресуется около 80 процентов различных мировых запросов по самым различным сферам. Что касается второго места, то его, также заслуженно, занимает американский «eBay».

На третьем месте, наш, отечественный, российский «Яндекс». На четвертом – «Yahoo» и на пятом – MSN. Еще одним отечественным браузером, но занимающим только 10 место в рейтинге Европы – это российский «Rambler».

Google

Этот поисковик знают огромное количество пользователей. На сегодняшний день это первая по популярности система в мире! Ежемесячно она обрабатывает более 41 млрд запросов и проводит индексацию 25 миллиардов страниц.

Что касается истории создания компании «Google», то еще в 1996 году, пара студентов университета Стэнфорда – Ларри Пейдж и Сергей Брин разработали браузер, созданный на новых методах поиска. Назвали они ее просто и лаконично, как собственно и дизайн поисковой системы «Google». Собственно название google – это искаженный googol (число десять в сотой степени).

В основе нее специальный поисковый робот, который называется «Googlebot». Он производит сканирование страниц и их индексацию. В качестве алгоритма авторитетности, эта ПС PageRank. Собственно именно он обеспечивает то, как будут выдаваться страницы посетителю в поисковых результатах.

Одним из первых, эта фирма разработала и голосовой поиск на различных языках, который значительно облегчает введение данных в систему. Ну, и наконец, именно этот браузер и послужил основой для слова «гуглить», которое все чаще встречается в сленге молодых тинейджеров.

«Yahoo» – вторая по популярности в США. Ее организовали в 1994 году два аспиранта Стэнфорда – Дэвид Фило и Джерри Янг. В конце 90 –х ими был приобретен портал RocketMail и на основе него создан бесплатный почтовый сервер «Yahoo». Сегодня на ее серверах можно хранить любое количество писем. В 2010 году появляется и русскоязычный ресурс почты – Yahoo! Почта.

Яндекс

Одним из лучших российских поисковиков, вне всякого сомнения, является «Яндекс». На сегодняшний день он стоит на четвертом месте по общему количеству запросов. В то же самое время, по популярности «Яндекс» занимает сегодня первое место в Российской Федерации. Общее количество произведенных запросов превышает 250 миллионов каждый день

Он был представлен в сентябре 1997 года, а уже в мае 2011, произведя размещение своих акций на IPO, эта фирма смогла заработать наибольшее количество акций среди других интернет – компаний.

Сегодня, «Yandex» имеет 50 сервисов, из которых некоторые уникальные – Яндекс.Поиск, Яндекс.Карты, Яндекс.Маркет. Помимо этого, российских пользователей очень интересуют такие сервисы, как «Поиск по блогам», «Яндекс Пробки». Основные запросы для пользователей в основном из следующих стран ближнего зарубежья: Россия, Белоруссия, Турция и Казахстан.

Исторически фирму основал бизнесмен – программист Аркадий Волож в 1989 году. Само название компании было придумано Ильей Сегаловичем, директором «Яндекса». Благодаря сотрудничеству с институтом проблем передачи информации был создан справочный словарь с поиском.

В отличие от других браузеров, Яндекс браузер учитывает и морфологию русского языка. Таким образом, сама система предназначена именно для работы в русскоязычном сегменте интернета.

Начиная с 2010 года, помимо браузера «Yandex.ru» появился еще один поисковик «Yandex.com». Данный интернет – ресурс используется для поиска по зарубежным порталам.

Поисковая система «Ebay»

Ebay представляет собой интернет – компанию из США, которая специализируется на проведении интернет – аукционов. Она производит управление портала eBay.com, а также версиями в других странах мира. Помимо этого, в собственности фирмы есть еще одна eBay Enterprise.

Основателем фирмы является американский программист Пьер Омидьяр, который в середине 90 – х годов разработал интернет – аукцион для своего личного портала. В то же время, eBay – это своего рода посредник при купле продаже. Чтобы использовать его продавцы вносят определенный взнос, а покупатели получают возможность бесплатного использования сайта.

Общие принципы его работы следующие:

  • В основном все люди добропорядочны
  • Каждый может внести свой вклад
  • В открытом общении люди проявляют свои лучшие качества

Уже в 1995 году на тысячах онлайн аукционов продавались миллионы различных предметов. Сегодня, это мощная платформа для купли продажи, как физлицами, так и юрлицами.

С 2010 года возникла и русскоязычная версия популярного ресурса и стала называться «Международный торговый центр eBay». Оплата на аукционе производится через платежную систему «PayPal».

Для того, чтобы продать предметы на данном портале необходимо написать сколько он стоит, его стартовая цена, когда начнутся торги, а также сколько будут длиться торги. Как и в обычном аукционе, выбранный товар получает заплативший самую высокую цену.

Из плюсов подобного аукциона стоит отметить то, что продавец и покупатель могут находиться в любом месте земного шара, а наличие локальных филиалов и временных рамок предоставляют возможность участвовать в аукционах огромному количеству продавцов и покупателей.

MSN

Данная поисковая система является ведущим интернет – браузером, разработанным компанией «Microsoft». Он появился одновременно с выпуском первой операционной системы Windows 95. Далее этим названием стал пользоваться и сервис электронной почты Hotmail, а также различные веб-узлы Майкрософт. В начале 2002 года он являлся одним из самых крупных интернет – провайдеров в США и имел 9 миллионов подписчиков.

Поисковая система Rambler

Вторым крупным российским поисковиком, является интернет – портал «Rambler». По своей сути, вместе с «Яндекс» он является родоначальником рунета, а также главным игроком на рынке медиа услуг.

Основателем его является Сергей Лысаков, который в 1994 году разработала поисковую систему, а в 1996 году был зарегистрирован и домен www.rambler.ru. Начиная с 2012 года, «Рамблер» стал работать, как новостной портал.

Сегодня он имеет 11 место по популярности среди других сайтов РФ. Также, был разработан и специальный классификатор Rambler Top-100. По своей сути он был первый и в России. Сегодня – это удобный каталог объектов недвижимости «Rambler – недвижимость».

Поисковик mail

Одной из самых крупных почтовых служб явилась, созданная в 1998 году, Mail.ru. Сегодня она представляет собой службу электронной почты, каталог интернет – ресурсов и информационные разделы. Помимо очень удобной почты, она имеет ряд специальных проектов, которые весьма популярны и нужны подписчикам: «Авто Mail.ru», Афиша «Mail.ru», «Дети mail.ru», «Здоровье mail.ru», «Леди mail.ru», «Новости mail.ru» и «Недвижимость mail.ru».

Для любителей спорта и Hi-Tech есть соответствующие рубрики.

На этом я завершаю свой материал. Если вам нравилось, то, пожалуйста, подписывайтесь на мой блог и приглашайте своих родных, друзей и знакомых.

Думаю вам будет интересно почитать, как правильно вести свой блог и в интернете, сколько стоит создать блог и еще много другой интересной и полезной информации на моем блоге. Это все. До встречи.

После изучения главы 9 студент должен:

знать

  • • основные принципы информационного поиска;
  • • универсальные поисковые сайты, мегапоисковые сайты и каталоги в Интернете;
  • • компоненты программного обеспечения поискового сайта и разграничение их функций;
  • • методы поиска, сужения и расширения результатов поиска документов и изображений;

уметь

• пользоваться поисковыми сайтами, их разделами, простым и расширенным поиском;

владеть

навыками составления поисковой фразы, выбора раздела и области поиска на поисковом сайте и в каталоге.

Массивы информации, необходимые для развития современного общества, огромны и имеют принципиальное отличие от той информации, что была доступна несколько десятилетий назад. Сегодня не существует ярко выраженных центров сосредоточения знаний. Традиционные источники информации: библиотеки, базы данных, архивы воспринимаются не как отдельные информационные узлы, а как совокупность множества источников информации. Наиболее четко тенденция рассредоточения информации просматривается в новых информационных средах, таких как глобальные компьютерные сети.

Рассредоточение источников информации – это не только возможность получать необходимую информацию, но и серьезные проблемы, связанные с поиском и классификацией необходимых информационных ресурсов. Глобальная информационная среда Интернет представляет собой миллионы источников информации общего пользования, практически по всем возможным темам. Сложность ориентирования в этом массиве информации заключается даже не в его огромных размерах и наличии множества разнообразных форматов данных, а в динамической природе информации, требующей постоянного обновления "информации о наличии и месте расположения информации".

Невозможно эффективно использовать новые информационные среды, в частности Интернета, без применения развитых поисковых механизмов – информационных поисковых систем (ИПС).

Общие принципы построения информационно-поисковых систем

Основные принципы информационного поиска. Проблема поиска документа возникает в любом хранилище данных. При создании систем хранения применяются две модели: иерархическая и гипертекстовая. Иерархическая модель хранения подразумевает многоуровневую рубрикацию системных ресурсов. Для определения пути к необходимому ресурсу используются описания, составленные при отправке документа на хранение. Гипертекстовая модель позволяет связывать документы ссылками, расположенными непосредственно в тексте документа.

При больших объемах информации, высокой скорости их обновления и разнородности запросов очевидны недостатки этих моделей. Многоуровневая рубрикация и простановка ссылок выполняется высококвалифицированными специалистами, поэтому объем обработанных ими документов становится ограниченным. Связанные документы ограничиваются определенной предметной областью, которая может разным образом трактоваться составителем и пользователем. При поиске документа целесообразно просматривать множество документов, содержащих лишь ссылки на другие ресурсы.

Этих недостатков лишены информационно-поисковые системы; будучи однажды созданными, они работают автономно. Принцип взаимодействия ИПС с пользователем заключается в том, что пользователь вводит в этой системе запрос, обрабатываемый системой, и получает список указателей на документы, удовлетворяющие запросу. Список может быть отсортирован по релевантности – степени соответствия документа запросу.

Основные принципы информационного поиска заключаются в том, что создается массив указателей на информационные ресурсы. Указатель (индекс) содержит некое свойство документа и ссылки на документы, обладающие этим свойством. Например, авторский указатель позволяет получить ссылки на работы определенного автора, предметный указатель – выбрать документы, затрагивающие определенные понятия (предметы). Процесс создания указателей называется индексированием, а термины, использующиеся для индексирования, называют терминами индексирования. В авторском указателе роль терминов индексирования выполняют фамилии авторов, работы которых хранятся в фонде. Совокупность используемых терминов индексирования называется словарем. Массив указателей, составленный после индексации информационных ресурсов, именуется индексной базой.

К индексной базе обращаются посредством запросов. Так, запрос пользователя должен быть переведен на язык индексирования. При поиске происходит сопоставление запроса с имеющимися данными и пользователю выдается список ссылок на подходящие ресурсы. Для повышения эффективности работы системы словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в конкретной предметной области.

Первые информационно-поисковые системы были созданы в 1970– 1980-х гг. и продолжают развиваться сегодня.

Любая информационно-поисковая система использует предметный указатель, позволяющий отыскивать документы, касающиеся некоего "предмета". Для составления предметного указателя анализируется содержание документа и определяется "предмет" или "предметы", о которых в документе идет речь. Названия этих предметов переводятся на информационно-поисковый язык (ИПЯ), в результате получают поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, получают индексную базу – основной массив данных ИПС.

Процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также переводится на информационно-поисковый язык. После сопоставления переведенного па ИПЯ запроса и поисковых образов документов пользователь получает список ссылок на документы, соответствующие по мнению системы его запросу. Поиск происходит не по тексту документов, а по их поисковым образам, составленным на ИПЯ. Поэтому качество поисковой системы зависит в первую очередь от ее информационно-поискового языка. В состав информационно- поискового языка входят:

  • 1) словарь индексационных терминов – множество терминов индексирования;
  • 2) кодовый словарь – множество кодовых терминов;
  • 3) словарь входов – множество входных терминов;
  • 4) вспомогательные средства языка индексирования – используемые совместно с индексационными терминами для расширения или сужения определенных понятий;
  • 5) правила использования языка индексирования.

Для повышения эффективности поиска словарь должен быть контролируемым, т.е. должен быть организован таким образом, чтобы полнота и точность поиска были оптимальными. Очевидно, что организация словаря зависит от многих факторов – предметной области, в которой будет функционировать ИПС, характера интересов пользователей, степени их подготовки и т.д.

Для улучшения результатов поиска необходимо определить степень специфичности терминов при индексации. Как правило, применяют два принципа – использование наиболее специфического термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование. В избыточном индексировании поисковый образ дополняется терминами, связанными с основным. Могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью увеличивает полноту поиска, но неизбежно снижает его точность. К недостаткам избыточного индексирования относятся также увеличение объема поисковых образов. Для устранения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.

Предметное индексирование не исключает использование при создании поискового образа атрибутов документа. Это могут быть такие атрибуты, как данные об авторе, дата публикации, язык публикации и т.д.

Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Идеальный запрос может быть составлен пользователем, в полном объеме знакомым с интересующей его предметной областью, а также с применяемой ИПС. Однако такому пользователю ИПС, очевидно, не требуется. Остальные пользователи вынуждены довольствоваться или низкой точностью поиска, или низкой полнотой.

Для повышения качества поиска существуют различные методы. Наиболее употребляемый из них – использование

логических операторов И, ИЛИ, НЕ. Это довольно простой способ повысить релевантность выдаваемых документов. Недостатком считается плохая масштабируемость. Оператор И может сильно сузить поиск, а оператор ИЛИ – сильно расширить. Степень точности и полноты поиска зависит от того, насколько общие термины участвовали в формулировке запроса. Может быть неверным использование как наиболее общих терминов (возрастает уровень информационного шума), так и слишком специфичных терминов (снижается полнота поиска). Применение слишком специфичных терминов чревато еще и тем, что в словаре ИПС данного термина может не оказаться. В общем виде процедура поиска – процедура итеративная, т.е. за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу и т.д. Схематично процедура показана на рис. 9.1. Коррекция запроса происходит в зависимости от количества полученных документов и их релевантности и может выполняться как пользователем, так и самой информационно-поисковой системой.

В зависимости от соотношения полноты и точности найденных документов пользователь может сузить или расширить область поиска, перейдя к более общим или, наоборот, более специфичным терминам, а также использовав родственные понятия. В случае поиска по нескольким терминам такая коррекция области поиска может происходить по одному из нескольких терминов, что позволяет изменять эту область достаточно плавно. Может оказаться полезным знание пользователя о наличии определенно релевантных документов. Не обнаружив их в списке найденных документов, область поиска следует расширить. Запрос корректируется системой информационного поиска па основании анализа документов, отмеченных пользователем как наиболее точно отвечающих его потребностям. В таком случае при следующем поиске система ищет те документы, где помимо заданных в первоначальном запросе содержатся термины, встречающиеся в документах, отмеченных пользователем. Улучшить результаты поиска можно различными способами, если функции для этого предоставляются интерфейсом информационно-поисковой системы.

Рис. 9.1. Процедура поиска

В последнее время во многих ИПС появилась функция подсказки при вводе текста поискового запроса, учитывающая ранее введенные этим пользователем запросы по сходной тематике за некоторый период времени.

Интерфейс системы. Важным фактором, во многом определяющим эффективность поиска, может быть вид представления информации в программе, т.е. ее интерфейс. По форме диалога, способу задания условия отбора и механизму поиска программные средства можно разделить на системы рубрикационного типа и структурно-логические системы.

Первые реализуются интерфейсом в виде иерархических последовательно раскрывающихся списков, через которые обеспечивается доступ к тематически связанным группам документов. Раскрывая очередную рубрику и перемещаясь таким образом по тематической иерархии, пользователь уточняет предметную область и увеличивает (усрсдненно) степень точности соответствия выдаваемых документов и информационной потребности. Предопределенность соотнесения документов с отдельными рубриками компенсируется логичностью естественно-научной классификационной схемы, заменяющей пользователю путеводитель.

Структурно-логические методы формирования запроса используются для работы с базами данных структурированной информации, когда каждый документ состоит из многих информационных полей, возможно, разного типа. Критерий отбора строится как логическая комбинация простых, сводящихся к проверке условия присутствия или отсутствия в документе слов (имен собственных или имен понятий, определяющих предмет поиска).

При составлении запроса к системе используют либо "меню-ориентированный" подход, либо командную строку. Первый позволяет ввести список терминов, как правило, разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. Многие ИПС позволяют сохранять запросы пользователя – в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением, или уточнением, запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска – список идентификаторов документов, который объединяется или пересекается со списком, полученным при поиске документов по новым терминам.

Kласс: Это незавершённая статья по ивентологии и её применениям

Информационно-поисковая система (ИПС) — это cистема, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность.

Релевантность — это соответствие результатов поиска сформулированному запросу.

Типы ИПС Править

Каталог Править

Каталог — поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник. Адреса популярных каталогов:

Зарубежные каталоги Править

  • Yahoo [1]
  • Magellan [2]

Российские каталоги Править

  • @Rus [3]
  • Weblist [4]
  • Улитка [5]

Поисковая машина Править

Поисковая машина — поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой Поисковая машина является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом.

Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Зарубежные поисковые машины Править

  • Google [6] смм
  • Altavista [7]
  • Excite [8]

Российские поисковые машины Править

  • Яndex [9]
  • Рэмблер [10]

Метапоисковая машина Править

Метапоисковая система. Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) — системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Адреса известных метапоисковых систем Править

  • MetaCrawler [11]
  • SavvySearch [12]

Автоматизированные библиотечные информационные системы Править

АБИС «Руслан» Править

АБИС «Руслан» обеспечивает автоматизацию всех основных процессов обработки литературы и обслуживания читателей в библиотеках различного профиля. Функциональность АБИС «Руслан» может наращиваться постепенно, путем добавления новых модулей без модификации или замены уже приобретенных. Это обеспечивает возможность поэтапного внедрения системы.

АБИС «Руслан» делает возможным создание электронных библиотек полнотекстовых ресурсов, обеспечивает создание в короткие сроки библиотечных консорциумов и вовлечение в их деятельность отдельных библиотек. Система поддерживает возможность кооперации в режиме он-лайн со всеми библиотеками, использующими эту систему для выполнения операций каталогизации заимствованием (при вводе новых поступлений и проведении ретро-конверсии), для поиска и заказа документов.

АБИС «Руслан» не имеет ограничений на количество подключенных АРМов, на количество одновременно работающих пользователей, на количество библиотечных баз данных, на количество записей в БД.

Общие принципы организации системы Править

  • Открытые стандарты — применение стандартных протоколов взаимодействия и форматов данных (стандарты ISO, рекомендации национального уровня, стандарты де-факто).
  • Распределенная среда — возможность работы системы в любой сетевой среде — локальной, корпоративной или глобальной сети в зависимости от решаемых системой задач.
  • Интернет/Интранет и Web технологии — использование Интернет в качестве транспортной среды, а также реализация доступа пользователей через Web браузер.
  • Многоуровневая архитектура «клиент-сервер» — система состоит из СУБД, сервера приложений (сервер «Руслан») и клиентской части (АРМы).

Особенности системы Править

  • Открытость — система поддерживает взаимодействие с внешними библиотеками и ресурсными центрами по протоколу Z39.50, причем эти возможности встроены в АРМы, т.е. не требуют дополнительных операций и дополнительных компонентов для установления связей в внешними источниками данных.
  • Каталогизация заимствованием — эффективное средство повышения качества работы библиотеки. При поступлении книги в библиотеку имеется возможность найти ее описание в авторитетных внешних источниках, например, в текущей государственной библиографии на сервере Российской книжной палаты [13] (ежедневно пополняемой). Вы можете выполнять одновременный поиск сразу на нескольких серверах Z39.50. После чего запись редактируется и добавляется в электронный каталог.
  • Поддержка UNICODE — можно использовать несколько языков при создании библиографического описания. Поддерживаются любые языки, в том числе национальные языки России (татарский, башкирский, чувашский и др).
  • Удаленная работа читателя — читатель может выполнять поиск и заказ документов через любой компьютер, подключенный к Интернет.
  • Удаленная работа сотрудника — поддерживаются решения для многофилиальных библиотек, когда операции комплектования/каталогизации и книговыдачи могут выполняться в удаленных филиалах (другое здание, другой город, другой провайдер Интернет) с размещением всех данных в центральном хранилище сервера «Руслан».
  • Гибкость и адаптивность — обеспечивается настройка на особенности библиотеки без изменения программного кода, используя механизмы шаблонов, конфигурационные файлы и параметры системы.

АБИС Greenstone Править

Greenstone — эффективное Open Source-решение для построения цифровых библиотек (ЦБ). Система обеспечивает поиск с предварительным индексированием по документам всех популярных форматов и, прежде всего doc и pdf, которые могут быть представлены в заархивированном виде. Система создает каталог документов, конвертирует их в xml-формат, а затем обеспечивает отдаленный доступ к библиотеке посредством браузера. Greenstone — комплексная система для построения и распространения коллекций ЦБ. Она обеспечивает способ организации и публикации информации в Интернете (или на CD-дисках). Следовательно, система Greenstone может решить задачу сохранения и извлечения в электронном виде периодических изданий и удовлетворить потребность научных работников в получении информации о периодическом издании, выпуске периодического издания или публикации. ПО Greenstone разработано на факультете компьютерных наук университета Вайкато в Новой Зеландии в рамках проекта по созданию цифровых библиотек. Руководитель проекта — Ян Виттен (Ian H. Witten). Разработка проводилась при содействии ЮНЕСКО и неправительственной организации Human info [14] . Распространяется с ноября 2000 года. В настоящее время Greenstone постоянно дорабатывается. Программа свободно доступна на сайте Greenstone [15] и отвечает условиям GNU. Существует две версии Greenstone — локальная и сетевая. Система работает на платформах Windows и Unix с использованием стандартных Web-серверов. В настоящее время Greenstone широко используется многими организациями разных стран. На упомянутом выше сайте имеются ссылки на более чем 20 коллекций цифровых библиотек Greenstone. ПО Greenstone предоставляет возможности:

  • создавать коллекции электронных документов;
  • детально определять документы в зависимости от метаданных;
  • сохранять десятки Гб текста и связанных с ним изображений;
  • осуществлять полнотекстовый поиск, а также поиск и просмотр документов по полям метаданных;
  • документы, которые вносятся в коллекцию, и их метаданные могут иметь разные форматы;
  • осуществлять обработку документов на каком-либо языке и поддерживать многоязычный интерфейс пользователя;
  • организовывать и публиковать информацию в Интернете или на компакт-дисках;
  • использовать стандартные и нестандартные метаданные для описания содержания документов.
  • Структуризация содержания обычных документов на части, главы, разделы и т.д. представляется в документах Greenstone в виде иерархической структуры разделов Greenstone. Структура документа может использоваться при формировании поисковых индексов. Если входные документы не имеют структуры, то в коллекции Greenstone они могут быть представлены в виде последовательности страниц, что позволяет просматривать документы постранично.

    В системе используется набор символов UNICODE. В связи с этим и документы, и внешний интерфейс могут представляться на разных языках. В этом смысле система Greenstone является многоязычной. Кроме того, систему легко расширить новым языком интерфейса, путем добавления соответствующих названий и описаний элементов интерфейса на желаемом языке в файлы конфигурации.

    ИРБИС Править

    Система автоматизации библиотек ИРБИС представляет собой типовое интегрированное решение для автоматизации библиотечных технологий и предназначена для использования в условиях библиотек любого типа и профиля. Она ориентирована на работу в локальных вычислительных сетях любого типа без ограничения количества пользователей. Система полностью совместима с международными форматами UNIMARC и USMARC на основе средств двухсторонней конверсии данных, а также поддерживает Российский коммуникативный формат RUSMARC.

    ИРБИС позволяет создавать и поддерживать любое количество баз данных, составляющих Электронный каталог (ЭК) или представляющих собой проблемно-ориентированные библиографические базы данных (БД). Система предлагает технологию автоматического формирования словарей, на основе которых реализуется быстрый поиск по любым элементам описания и их сочетаниям. Средства каталогизации позволяют обрабатывать и описывать любые виды изданий, включая нетрадиционные, такие как аудио- и видеоматериалы, компьютерные программы и файлы, картографические материалы, ноты и т.д.

    ИРБИС включает технологии, ориентированные на использование штрих-кодов на экземплярах изданий и читательских билетах, включает средства, которые позволяют использовать в качестве иллюстративного материала любые внешние по отношению к библиографическому документу объекты, такие как полные тексты, графика, таблицы, аудио- и видеоматериалы, а также ресурсы сети Интернет. В системе предусмотрены средства, позволяющие вводить и отображать символы, не входящие в стандартный (выбранный) кодовый набор, в частности, диакриты европейских языков, греческие буквы и другие специальные символы. Система предлагает большой набор сервисных средств, обеспечивающих удобство и наглядность пользовательских интерфейсов, упрощающих процесс ввода, исключающих ошибки и дублирование информации.

    Система является в достаточной мере открытой, что позволяет пользователю самостоятельно вносить изменения в широких пределах: от изменения входных и выходных форм до разработки оригинальных приложений.

    Оцените статью
    Много толка
    Добавить комментарий