Что такое поисковый указатель в информатике

Поисковые указатели

Автоматическую каталогизацию Web-pecypcoв и удовлетворение запросов клиен­тов выполняют так называемые поисковые указатели. Из процесса наполнения базы данных поисковой системы исключается человеческий фактор. При этом значи­тельно падает качество ссылок, предоставляемых системой по результатам поиска, но одновременно увеличивается их количество.

Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике

Основной принцип работы поискового указателя заключается в поиске Web-pecyрсов по ключевым словам. Пользователь описывает искомый ресурс с помощью клю­чевых слов, после чего дает задание на поиск. Поисковая система анализирует данные, хранящиеся в своей базе, и выдает список Web-страниц, соответствующих запросу. Вместе с гиперссылками выдаются краткие сведения о найденных ресурсах, на основании которых пользователь может выбрать нужные ему ресурсы (рис. 9.6).

Разные поисковые указатели применяют разные информационные технологии для обработки запросов пользователей. Чтобы эффективно выполнять поиск инфор­мации в WWW, надо хотя бы в общих чертах понимать принципы их работы.

Три этапа работы поискового указателя.Работу поискового указателя можно условно разделить на три этапа. Из них два этапа являются подготовительными — они незаметны для клиента, и лишь на третьем этапе происходит взаимодействие с пользователем, но от каждого из этапов зависят функциональные свойства поис­ковой системы и эффективность работы с ней.

Сбор первичной базы данных.На первом этапе поисковая система занимается сканированием информационного пространства World Wide Web. Для этого используют специальные агентские программы — черви. Не следует путать агентов поис­ковых систем с разновидностью сетевых компьютерных вирусов, тоже именуемых червями. Черви поисковых систем совершенно безобидны для серверов и клиентов WWW. По своей сути это очень эффективные малоразмерные браузеры. Им не надо выполнять функции просмотра и воспроизведения содержимого — их задача состоит только в том, чтобы автоматически разыскивать Web-ресурсы, следуя по гипер­ссылкам, и, убедившись, что этот ресурс системе еще не известен, копировать его в свою базу данных. Так же происходит и обновление ранее принятых докумен­тов, но измененных за время после предыдущего копирования.

Индексация базы данных.Собрать базу данных сетевых Web-pecypcoв — еще не значит получить функционирующую поисковую систему. Поиск ключевых слов, введенных пользователем, в обширной базе — это весьма продолжительная опера­ция. Чтобы не задерживать клиента более чем на доли секунды, собранные базы данных проходят предварительную обработку, называемую индексацией. На этапе индексации создаются специализированные документы — поисковые указатели.

Рафинирование результирующего списка.Это третий этап работы, в ходе которого осуществляется взаимодействие с пользователем. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Пользо­вательское представление о качестве работы поисковой системы напрямую зависит от технологий, использованных на этом этапе.

Рафинирование заключается в фильтрации и ранжировании результатов поиска. Под фильтрацией понимается отсев ссылок, которые выдавать пользователю неце­лесообразно. Прежде всего проверяется наличие дубликатов. Если система в одном списке выдает множество ссылок, ведущих к одному и тому же Web-pecypcy, это говорит о том, что ее средства добросовестно отработали два первых этапа, но ничего не сделали на третьем этапе. Дублирующиеся ссылки перегружают результирую­щий список и затрудняют выбор действительно полезных ресурсов.

Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поис­ковой системы) ссылки приводятся в вершине списка, а наименее полезные — в его конце. Понимание критерия «полезности» для клиента той или иной ссылки мо­жет быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.

Дата добавления: 2016-06-22 ; просмотров: 4249 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Источник

Поисковые указатели

Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике

Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике

Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике

Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. И хотя для реферативного поиска это не выглядит критичным, все-таки существуют потребности в поиске актуальной, уникальной, специальной информации, которая не охвачена и не может быть охвачена поисковыми каталогами.

Чтобы многократно увеличить коэффициент охвата ресурсов Web, из процесса наполнения базы данных поисковой системы необходимо исключить человеческий фактор — работа должна быть автоматизирована. Разумеется, при этом значительно падает качество ссылок, предоставляемых системой по результатам поиска, но одновременно увеличивается их количество. Автоматическую каталогизацию Web-ресурсов и удовлетворение запросов клиентов выполняют так называемые поисковые указатели.

Основной принцип работы поискового указателя заключается в поиске Web-ресурсов по ключевым словам. Пользователь описывает искомый ресурс с помощью ключевых слов, после чего дает задание на поиск. Поисковая система анализирует данные, хранящиеся в своей базе, и выдает список Web-страниц, соответствующих запросу. Вместе с гиперссылками выдаются краткие сведения о найденных ресурсах, на основании которых пользователь может выбрать нужные ему ресурсы (рис. 7.7).

Сегодня в мире существует около 10 тысяч поисковых указателей. Вершину списка занимают около двух десятков зарубежных систем: AltaVista (www.atavista.com), Excite (www.excite.com). Fast Search (www.alltheweb.com), Go/Infoseek (www.go.com), GoTo (www.goto.com), Google (www.google.com), HotBot (hotbot.lycos.com), Inktomi (www.inktomi.com), Lycos (www.lycos.com), Netscape Search (search.netscape.com), Northern Light (www.northernlight.com), WebCrawler (www.webcrawler.com) и другие. В России также имеется несколько поисковых указателей, из которых наиболее крупными и популярными являются следующие: “Апорт 2000” (www.aport.ru), “Яndех” (www.yandex.ru) и “Рэмблер” (www.rambler.ru).

Разные поисковые указатели могут использовать разные информационные технологии для обработки запросов пользователей. Чтобы эффективно выполнять поиск информации в WWW, надо представлять достоинства и недостатки каждой из систем и хотя бы в общих чертах понимать принципы их работы.

Три этапа работы поискового указателя. Работу поискового указателя можно условно разделить на три этапа. Из них два этапа являются подготовительными — они незаметны для клиента, и лишь на третьем этапе происходит взаимодействие с пользователем, но от каждого из этапов зависят функциональные свойства поисковой системы и эффективность работы с ней.

Сбор первичной базы данных. На первом этапе поисковая система занимается сканированием информационного пространства World Wide Web. Для этого используют специальные агентские программы — черви. Не следует путать агентов поисковых систем с разновидностью сетевых компьютерных вирусов, тоже именуемых червями. Черви поисковых систем совершенно безобидны для серверов и клиентов WWW. По своей сути это очень эффективные малоразмерные броузеры. Им не надо выполнять функции просмотра и воспроизведения содержимого — их задача состоит только в том, чтобы автоматически разыскивать в Сети Web-ресурсы, следуя по гиперссылкам, и, убедившись, что этот ресурс системе еще не известен, копировать его в свою базу данных. Так же происходит и обновление ранее принятых документов, но измененных за время после предыдущего копирования.

От эффективности работы поискового червя во многом зависит содержательная часть поискового указателя. Каждая система использует собственную поисковую программу и хранит в тайне алгоритм ее работы от конкурентов.

Индексация базы данных. Собранная база данных сетевых Web-ресурсов — это хорошая, но не достаточная основа для функционирования поисковой системы. С ее помощью уже можно обслуживать запросы клиентов, но нельзя делать это быстро. Поиск ключевых слов, введенных пользователем, в обширной базе — это весьма продолжительная операция. Нежелательно задерживать клиента более чем на доли секунды, поэтому собранные базы данных проходят предварительную обработку, называемую индексацией. На этапе индексации создаются специализированные документы — поисковые указатели.

С простейшим указателем вы знакомы по работе с учебными пособиями. Нередко в конце книг приводится предметный указатель, с помощью которого можно по термину быстро найти страницу книги, на которой этот термин раскрывается. Аналогично устроены и поисковые указатели. Простейший тип поискового указателя называется обратным файлом. Это просто словарь, в который входят все слова, встреченные при просмотре Web-ресурсов. Против каждого слова приводится список ссылок, указывающих на местоположение соответствующих ресурсов в базе данных.

Что такое поисковый указатель в информатике. Смотреть фото Что такое поисковый указатель в информатике. Смотреть картинку Что такое поисковый указатель в информатике. Картинка про Что такое поисковый указатель в информатике. Фото Что такое поисковый указатель в информатике

При получении списков ключевых слов от пользователя просмотр поискового указателя происходит очень быстро, так как он предварительно отсортирован по алфавиту. В результате клиент достаточно быстро получает список ссылок с интересующими его Web-ресурсами.

Рафинирование результирующего списка. Это третий этап работы, в ходе которого осуществляется взаимодействие с пользователем. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Пользовательское представление о качестве работы поисковой системы напрямую зависит от технологий, использованных на этом этапе.

Рафинирование результирующего списка заключается в фильтрации и ранжировании результатов поиска. Под фильтрацией понимается отсев ссылок, которые выдавать пользователю нецелесообразно. Прежде всего проверяется наличие дубликатов. Если система в одном списке выдает множество ссылок, ведущих к одному и тому же Web-ресурсу, это говорит о том, что ее средства добросовестно отработали два первых этапа, но ничего не сделали на третьем этапе. Дублирующиеся ссылки перегружают результирующий список и затрудняют выбор действительно полезных ресурсов.

Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее “полезные” (с точки зрения поисковой системы) ссылки приводятся в вершине списка, а наименее полезные — в его конце. Понимание критерия “полезности” для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.

Прежде всего, при ранжировании учитывается количество появлений ключевых слов в Web-документе. Принцип “чем больше, тем лучше” достаточно очевиден, но не слишком корректен. На самом деле хорошо, когда искомое слово появляется достаточно часто в начале документа, в его первых 5-10 абзацах, а прочие части документа учитываются меньше. Очень хорошо, когда ключевые слова встречаются в заголовках документа и в подрисуночных подписях.

Интеллектуальные системы могут проверять также наличие сопутствующих слов. Так, например, по результатам анализа содержимого множества Web-страниц, выполненного еще на этапе индексации, может быть установлено, что словам электронная коммерция очень часто сопутствуют слова цифровая подпись и платежные системы. Если поисковая система об этом знает, то, получив от клиента запрос на поиск по словам электронная коммерция, она в вершине списка расположит те Web-страницы, на которых также встречаются упоминания о цифровой подписи и о платежных системах.

Всюду, где можно, автоматические системы стремятся полагаться на “человеческий фактор”. Автоматической системе сделать это непросто, но специальные технологии имеются. Так, например, еще на этапе индексации высокий рейтинг могут получать те страницы, на которые имеется больше ссылок с других Web-страниц. Поскольку гиперссылки создают люди, а не машины, то этот факт можно использовать в качестве субъективной оценки более высокой “полезности” тех документов, которые чаще цитируются.

В рамках этой книги мы не можем охватить все те приемы, которые используют поисковые системы на этапе формирования результирующего списка, но роль этого этапа трудно переоценить. Попробуйте работу с несколькими поисковыми системами и посмотрите, как у них обстоит дело с фильтрацией и ранжированием результатов. Вы, наверное, заметите, что тщательная фильтрация и разумное ранжирование воспринимаются потребителем как показатель качества работы системы.

Источник

Поисковые указатели

Поисковые указатели — это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного (на несколько поряд­ков) больше. Количество проиндексированных Web-страниц может измеряться сотнями миллионов.

Работа поискового указателя происходит в три этапа, из кото­рых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает инфор­мацию из World Wide Web. Для этого используют специальные программы, аналогичные броузерам. Они способны скопи­ровать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются, перейти по указанным в них адресам, скопировать те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д.

Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических про­грамм, занимающихся мониторингом Сети.

Теоретически, при удачном входе спайдер способен прочесать все Web-простран­ство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посе­щенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность. Неактуальными называют ресурсы, которые по каким-то причинам перестали существовать (или изменили местоположение), хотя гиперссылки, имеющиеся в других ресурсах, продолжают на них указывать. При исполь­зовании «мертвых» гиперссылок мы получаем сообщение от броузера о том, что ресурс не найден.

После копирования разысканных Web-ресурсов на сервер поис­ковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выда­вать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и фор­мирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема Современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поис­ковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

Несколько тысяч — это еще не так много, потому что зарубеж­ная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, кли­енты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит.

Однако клиен­тов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, веду­щих к одному и тому же ресурсу, но находящемуся на разных серверах.

Клиент вправе ожидать, что самыми первыми будут стоять наи­более полезные ссылки. Вот здесь и возникает проблема. Чело­век легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые сис­темы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресур­сов. И делать это они должны быстро — клиент не любит ждать.

Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каж­дая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты.

Операция сортировки полученных результатов называется ранжированием. Каждой най­денной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.

Высокие рейтинги получают Web-страницы, у которых клю­чевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благопри­ятно влияет на рейтинг вхождение нужного слова в первые 5—6 абзацев текста — они считаются самыми важными при индек­сации.

По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каж­дая ячейка таблицы выглядит, как абзац, и потому основной содержательный текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстра­ции. Для поисковой системы это верный признак того, что дан­ная страница точно соответствует запросу. Еще одним призна­ком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высо­ким показателем цитирования. Самые совершенные поиско­вые системы следят за уровнем цитирования зарегистрирован­ных ими Web-страниц и учитывают его при ранжировании.

Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально гото­вят страницы так, чтобы поисковые системы давали им высо­кий рейтинг. Хорошая, грамотная работа Web-мастера способ­на значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поиско­вые системы и придать своим Web-страницам значимость, кото­рой в них на самом деле нет.

Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключи­тельно мелким шрифтом, либо применяют цвет текста, сов­падающий с цветом фона. За такие «хитрости» поисковая сис­тема может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.

В последние годы сложилась и практика коммерческого рейтингования. В этом случае поисковая система дает более высокий рейтинг тем Web-страницам, за которые их владелец заплатил. Невзирая на очевидную субъективность такого под­хода, в нем есть определенный смысл для тех, кто ищет инфор­мацию в Интернете по распространенным словам.

Например, если клиент ввел в поле поиска слово автомобиль или сантехника, то можно предположить, что он хочет приобрести либо машину, либо смеситель для мойки. В этом случае ему не нужны романы из жизни сантехников, как не нужны и рассуждения об управ­лении автомобилем. Почему бы не дать ему на первом месте среди результатов поиска адреса известных торговых фирм?

Необходимость в ранжировании результатов поиска очевидна. Без этого клиенты захлебнулись бы в потоке предлагаемых ссы­лок и, может быть, так никогда и не добрались бы до самых полезных для себя ресурсов. Однако у ранжирования есть и негативная сторона. У каждой поисковой системы своя поли­тика ранжирования, и не исключено, что взгляды создателей поисковой системы не вполне совпадают со взглядами клиента. Очень может быть и так, что до каких-то ценных для себя ресур­сов он никогда и не доберется, потому что по результатам ран­жирования они всегда будут отодвигаться глубоко вниз.

Из этого можно сделать несколько выводов.

• Во-первых, старайтесь избегать прямолинейного поиска по одному слову. Дайте поисковой системе группу ключевых слов, а еще лучше — фразу.

• Для поиска по группе слов или по ключевой фразе исполь­зуйте не какую попало поисковую систему, а ту, к которой наиболее привыкли. В разных системах используются раз­ные правила для записи группы слов, и эти правила надо знать (об этом мы поговорим ниже).

• Если пользуетесь поиском по одному слову, то, наоборот, применяйте как можно больше разных поисковых систем. То, что они используют разные алгоритмы рейтингования, нам на пользу — это дает шанс не пропустить какой-то зна­чимый ресурс.

Краткий обзор поисковых указателей России

За рубежом возникновение первых поисковых указателей отно­сится к 1994-1995 гг., а в России — к 1996-1997 гг. Поскольку в России объем Web-ресурсов составляет лишь несколько процентов от мирового, отечественным поисковым системам рабо­тать много проще, чем западным. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интер­нета) сегодня примерно таков, каким был западный сектор в 1994-1995 гг. Поэтому сегодня в России особых проблем с поис­ком информации нет и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодо­леть. О том, как это происходит, мы и расскажем.

Из поисковых указателей в России сегодня действуют три главных (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).

Исторически наиболее популярной поисковой системой явля­ется «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмо­тря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обнов­лялся и выдает устаревшие результаты.

Сегодня «Рамблер» — это популярный портал, лучшая в России классификационно-рейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.

Самый большой указатель лежит в основе системы «Яндекс» — примерно 27 миллионов Web-страниц, но дело не только в раз­мере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы.

Система «Апорт» выигрывает на третьем этапе — в момент представления информации клиенту. Она не стремится к созда­нию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представ­лены.

Краткий обзор зарубежных поисковых указателей

За рубежом поисковых указателей гораздо больше. Если брать только крупнейшие, то можно насчитать около двух десятков. Мы в нашем обзоре остановимся на трех.

Наиболее популярной (кстати, совершенно незаслуженно, как мы покажем далее) считается поисковая система Alta Vista (www.altavista.com). Она была одной из первых и при ее краси­вом названии долгое время держалась в лидерах.

К сожалению, сегодня нет никаких оснований, чтобы пользоваться ее услу­гами. Рано проведя акционирование, Alta Vista сегодня вынуж­дена больше заботиться об интересах акционеров, чем о разви­тии. Для нас с вами это означает, что индексацию новых ресурсов система тормозит, причем принудительно, а обнов­лением старых ресурсов не занимается. Ее указатели безнадежно устарели, а изобилие рекламных баннеров на страницах поиска никак не способствует скорости работы.

Самой мощной в мире сегодня является поисковая система Fast Search (www.alltheweb.com). О ней мало кто знает, потому что она была открыта сравнительно недавно (летом 1999 года). Создатели системы поставили перед ней глобальную цель — создать самый крупный и самый быстрый указатель в мире. Эта цель была достигнута в считанные месяцы. Система первой взяла 300-миллионный рубеж всего через четыре месяца после начала работы, а в 2000 г. приблизилась к отметке 600 милли­онов Web-страниц. При этом скорость поиска системы состав­ляет доли секунды и нет никакой рекламы.

Из множества прочих мы специально выделим систему Northern Light (www.northernlight.com). Она имеет приличный указатель, приближающийся к 300 миллионам Web-страниц, и предпринимает заметные усилия по поддержанию его акту­альности. Эта система идеальна для проведения научных иссле­дований благодаря тому, что сочетает индексацию и каталоги­зацию.

После поиска по ключевым словам система не только выдает обширные списки ссылок на найденные ресурсы, но и формирует набор папок, в которых результаты поиска распо­лагаются по отдельным категориям. Кроме того, в системе есть специальный раздел каталожного типа, который называется Special Editions. Он ведется вручную, и в нем можно найти гото­вые подборки материалов по актуальным проблемам.

Имеется в системе и небольшой коммерческий раздел Special Collections. Его материалы поставляются за деньги. Впрочем, коммерческий раздел невелик и совершенно не портит систе­му. По-видимому, он рассчитан на журналистов, которым мо­гут срочно потребоваться справки по «горячим» темам.

Проверка и выбор поискового указателя

Конкретные рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в Интернете меняется бук­вально на глазах. Не проходит и полугода, чтобы что-нибудь не изменилось и в поисковых системах. Та система, которая была наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра. В то же время, популярность — вещь хит­рая. Она трудно зарабатывается, но потом и долго живет. В итоге мы очень часто встречаемся с ситуацией, когда самой популяр-вой является далеко не лучшая система.

Мы поможем читателю научиться самостоятельно проверять разные поисковые системы и выбирать для работы те, которые дают лучшие результаты. При проверке размер поискового указателя не имеет решающего значения. Нам ведь нужны не миллионы ссылок, а всего две-три, но желательно самые луч­шие. Поэтому важно не только то, как много Web-страниц про-индексировала поисковая система, но и то, когда она это делала в последний раз, как часто потом проверяла актуальность ссы­лок и насколько корректно представляет результаты поиска.

Чтобы проверить качество работы поисковой системы, надо дать ей задание на розыск сведений, о которых устаревшая сис­тема знать не может. Вот тут-то и проявится гниль тех систем, которые когда-то нагребли горы материала, а теперь не обнов­ляют его и представляют клиентам старье, густо сдобрив рек­ламой.

Давайте проведем такой опыт. Допустим, мы узнали, что в те­чение последних месяцев 2000 года мир интересовался ходом выборов президента США. Попробуем заказать в разных сис­темах поиск документов, в которых одновременно содержатся три слова: Буш, Гор и выборы. Вот что он дает:

«Рамблер» — 45 документов;

«Апорт» — 3338 документов;

«Яндекс» — 17 036 документов.

В том, что «Апорт» отстает от «Яндекса», нет ничего удиви­тельного, ведь «Апорт» никогда не стремился к механическому увеличению размеров указателя. Его сильная сторона — каче­ственный отбор. Но нельзя не обратить внимание на результат «Рамблера», имеющего внушительный указатель, который всего лишь в два раза меньше указателя «Яндекса». Этот нехит­рый эксперимент говорит о том, что как поисковая система «Рамблер» прекратил свое развитие и, по-видимому, сосредо­точивается на чем-то другом.

Такой же опыт можно поставить и за рубежом. Мы, например, разыскиваем Web-страницы, на которых упоминается опера­ционная система с проектным названием Microsoft Whistler. К моменту написания этой книги она еще не существовала в природе. Те поисковые системы, которые плохо обновляют ука­затели, неминуемо проявят себя на этом задании.

Ключевые слова Поисковая система Результат поиска

+Mkrosoft +Whistler Alta Vista (230 млн) 2800

Microsoft Whistler Northern Light (250 млн) 14 000

Microsoft Whistter Fast Search (580 млн) 26900

Как видите, две самые современные системы Northern Light и Fast Search различаются по результатам примерно так же, как различаются размеры их указателей. Результат, выдаваемый системой Аltа Vista, заметно хуже. А теперь сами назовите слово, характеризующее указатель Alta Vista, если свежей информа­ции в нем в пять раз меньше, чем в Northern Light. Заметим также, что выдача результатов в системе Alta Vista происхо­дит очень медленно.

Строго говоря, эти системы не являются поисковыми, но если надо найти «то, не знаю что», ими удобно пользоваться. Кли­ентов WWW условно можно разделить на туристов и охот­ников. Турист бродит, где ему вздумается, рассматривает раз­ные достопримечательности и получает больше удовольствия от самого факта своего путешествия, чем от его результатов. Охотник же выходит в Сеть за чем-то конкретным. Например, в России в преддверии зимних и летних сессий толпы охотни­ков отправляются в заповедники, где водятся студенческие рефераты. В эти периоды поисковые системы отмечают резкое увеличение использования ключевого слова реферат.

На след «дичи» охотники выходят с помощью поисковых сис­тем, а классификационно-рейтинговыми системами часто пользуются туристы. Самый крупный классификатор в Рос­сии — «Рамблер Top 100» размещается на портале «Рамблер» (www.rambler.ru). Классификатор похож на каталог, но в отличие от каталога перед ним не ставится задача собрать как можно больше информации о ресурсах Сети.

Приемы поиска информации

Рассказывать о том, как пользоваться поисковыми каталогами, нет никакой необходимости. Надо просто зайти на сайт (адреса мы уже дали), выбрать категорию, которая интересует, в ней выбрать раздел, и так далее, пока не откроется список кон­кретных ссылок. Точно так же работают и с классификаторами, только там против каждой ссылки на сайт имеется число, пока­зывающее, сколько людей воспользовались этим адресом в последние сутки (в последний час, в последнюю неделю).

Значительно интереснее рассмотреть приемы использования поисковых указателей, тем более что для разных указателей эти приемы разные. Но прежде чем приступать к изучению конкретных систем, давайте рассмотрим общие концепции, равно относящиеся ко всем поисковым указателям.

Четыре вида поиска

Все поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.

Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если это слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то резуль­тат зависит от того, как эти слова введены, а это, в свою оче­редь, зависит от конкретной используемой системы. Приемы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию.

Расширенный поиск. Расширенный поиск всегда подразуме­вает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается связывать ключевые слова логи­ческими операторами AND (И), OR (ИЛИ), NOT (HE) и другими. Основное достоинство расширенного поиска состоит в том, что как правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приемы расширенного поиска, можно ими пользоваться где угодно. Надо только предварительно пере­ключить систему в нужный режим

.Контекстный поиск. Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых указателях. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов, например «Все смешалось в доме Облонских». В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки: «Все сме­шалось в доме Облонских».

Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помо­щью можно найти ключевые слова, входящие в заголовки Web-страниц и т. п. Как правило, команды специального поиска в различных поисковых системах свои.

Поисковые системы и каталоги ресурсов

«Желтые страницы Internet» издательства «Питер»

Каталог ресурсов российско­го Интернета, содержащий тематически структурирован­ные (с использованием многоуровневого классификато­ра) краткие описания тысяч российских, русскоязычных и относящихся к России Web-сайтов.

Основой этого электронного каталога является постоянно пополняюща­яся база данных издательства, начало которой было по­ложено при подготовке справочников «Желтые страни­цы Internet. Русские ресурсы».

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *