Что такое поисковая система что такое поисковая машина
Поисковые машины
Как правило, основной частью поисковой системы является поиско́вая маши́на (поиско́вый движо́к) — комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность(степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии
Улучшение поиска — это одна из приоритетных задач сегодняшнего Интернета (см. про основные проблемы в работе поисковых систем в Глубокая паутина).
По данным компании Net Applications [1] в декабре 2007 года рыночная доля распределялась:
По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 млрд 221 млн поисковых запросов. [2] [3] Яндекс попал в статистику и находится на 9-ом месте. Таблица сравнения поисковых систем: http://s41.radikal.ru/i091/0906/93/eabbd5e9414e.bmp
Содержание
История
Одним из первых инструментов поиска в интернете (до WWW) был Archie.
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray ) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «
Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Aport. 23 сентября 1997 была открыта поисковая машина Яндекс.
В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик кластеризацию. В 2006 году открылась российская метамашина [4] с визуальной кластеризацией.
Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным Gopher.
Поисковая машина
Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.
Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, т.е. уместность результата), полнота индекса, учёт морфологии языка.
Содержание
Классификация
По области поиска (условно)
Локальные
Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети.
Глобальные
Поисковый запрос
Исходной информацией для поиска является поисковый запрос.
Функции
Поисковые машины выполняют несколько функций:
Поиск ссылок
Поиск ссылок на страницы и другие документы сайтов.
Автоматический
Поисковая машина ищет ссылки со страниц сайтов.
Ручной режим
Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов
Индексация документов сайтов
Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины
Поиск по базе данных проиндексированных документов
Может состоять из нескольких этапов
Нахождение документов, соответствующих поисковому запросу
Ранжирование документов в соответствии с их релевантностью поисковым запросам
Кластеризация документов
Примечания
См. также
Ask.com (Ask Jeeves, механизм Teoma) • Blekko • Cuil (закрыт) • DuckDuckGo • Exalead • Gigablast • Google • Bing (Live Search/MSN Search) • Yahoo! Search (Inktomi • AltaVista • Alltheweb) • Яндекс
AskNet.ru • Brainboost • Clusty • Dogpile • FarSEER • exactus.ru • Excite • HotBot • Info.com • Ixquick • Krozilo • Mamma • Metacrawler • MetaLib • Нигма • Myriad Search • SideStep • Surfwax • Turbo10 • WebCrawler • GlobalFileSearch
DataparkSearch • Egothor • Gonzui • Grub • Ht://dig • locust • Isearch • Lucene • Lemur Toolkit & Indri Search Engine • mnoGoSearch • Namazu • Nutch • OpenFTS • Sciencenet (научная, на технологии YaCy) • Wikia Search • Sphinx • SWISH-E • Terrier Search Engine • Xapian • YaCy • Zettair
AGAKIDS (Россия) • Ask Kids (Великобритания) • Frag Finn (Германия) • Kids AOL (США) • Kids Yahoo! (США) • Quintura Дети (Россия) • Семейный Яндекс (Россия) • Гогуль (Россия)
Полезное
Смотреть что такое «Поисковая машина» в других словарях:
Поисковая машина — (searching engine): веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). Источник: ИНТЕРНЕТ РЕСУРСЫ. ТРЕБОВАНИЯ ДОСТУПНОСТИ ДЛЯ ИНВАЛИДОВ ПО ЗРЕНИЮ. ГОСТ Р 52872 2007 (утв. Приказом Ростехрегулирования от… … Официальная терминология
поисковая машина — Веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). [ГОСТ Р 52872 2007] Тематики информационные технологии в целом EN searching engine … Справочник технического переводчика
Поисковая система — в Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь
Поисковая метамашина — в Internet поисковая машина, которая: отсылает запрос на поиск в несколько поисковых систем; и генерирует из полученных ответов сводку (на одной странице). По английски: Meta search engine Синонимы: Мета гусеница Синонимы английские: Metacrawler… … Финансовый словарь
Поисковая система — Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения. Поисковая система программно аппаратный комплекс с веб интерфейсом, предоставляющий возможност … Википедия
Поисковая система — – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ
Апорт (поисковая система) — У этого термина существуют и другие значения, см. Апорт. Апорт … Википедия
Интернет-поисковая система — Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия
Интернет-поисковая служба — Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия
Информационно-поисковая система — Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия
Поисковые системы
Поисковые системы (ПС) уже давно являются обязательной частью интернета и нашей повседневной жизни. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.
Функции и понятие ПС
Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.
Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.
Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.
Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Туле»).
Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. Приучить же пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.
Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.
Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?
Основные характеристики поисковых систем
Полнота.
Точность.
Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.
Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.
Актуальность.
Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.
К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.
Скорость поиска.
Наглядность.
Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.
Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.
История развития поисковых систем
Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.
Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.
Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самым известным и большим каталогом в мире был DMOZ (прекратил работу 14 марта 2017 года) имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.
Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.
В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.
В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.
В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.
Доля поисковых систем
Принципы работы поисковой системы
Модуль индексирования.
Данный компонент состоит из трех программ-роботов:
Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.
«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
Crawler, исследуя найденные ссылки, ищет новые документы, еще не ставшие известными поисковой системе.
Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.
Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.
Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.
Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.
База данных
Поисковый сервер
Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.
Поисковая система
Поиско́вая систе́ма — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.
Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.
Улучшение поиска — это одна из приоритетных задач современного Интернета (см. про основные проблемы в работе поисковых систем в статье Глубокая паутина).
По данным компании Net Applications, [1] в ноябре 2011 года использование поисковых систем распределялось следующим образом:
Содержание
История
Хронология | ||
---|---|---|
Год | Система | Событие |
1993 | W3Catalog | Запуск |
Aliweb | Запуск | |
JumpStation | Запуск | |
1994 | WebCrawler | Запуск |
Infoseek | Запуск | |
Lycos | Запуск | |
1995 | AltaVista | Запуск |
Daum | Основание | |
Open Text Web Index | Запуск | |
Magellan | Запуск | |
Excite | Запуск | |
SAPO | Запуск | |
Yahoo! | Запуск | |
1996 | Dogpile | Запуск |
Inktomi | Основание | |
HotBot | Основание | |
Ask Jeeves | Основание | |
1997 | Northern Light | Запуск |
Яндекс | Запуск | |
1998 | Запуск | |
1999 | AlltheWeb | Запуск |
GenieKnows | Основание | |
Naver | Запуск | |
Teoma | Основание | |
Vivisimo | Основание | |
2000 | Baidu | Основание |
Exalead | Основание | |
2003 | Info.com | Запуск |
2004 | Yahoo! Search | Окончательный запуск |
A9.com | Запуск | |
Sogou | Запуск | |
2005 | MSN Search | Окончательный запуск |
Ask.com | Запуск | |
GoodSearch | Запуск | |
SearchMe | Основание | |
2006 | wikiseek | Основание |
Quaero | Основание | |
Ask.com | Запуск | |
Live Search | Запуск | |
ChaCha | Запуск (бета) | |
Guruji.com | Запуск (бета) | |
2007 | wikiseek | Запуск |
Sproose | Запуск | |
Wikia Search | Запуск | |
Blackle.com | Запуск | |
2008 | DuckDuckGo | Запуск |
Tooby | Запуск | |
Picollator | Запуск | |
Viewzi | Запуск | |
Cuil | Запуск | |
Boogami | Запуск | |
LeapFish | Запуск (бета) | |
Forestle | Запуск | |
VADLO | Запуск | |
Powerset | Запуск | |
2009 | Bing | Запуск |
KAZ.KZ | Запуск | |
Yebol | Запуск (бета) | |
Mugurdy | Закрытие | |
Goby | Запуск | |
2010 | Яндекс (англ.) | Запуск |
Cuil | Закрытие | |
Blekko | Запуск (бета) | |
Viewzi | Закрытие | |
2012 | WAZZUB | Запуск |
Одним из первых инструментов поиска в интернете (до Всемирной паутины) был Archie.
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray ) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 была открыта поисковая машина Яндекс.
В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала [2] с визуальной кластеризацией.
Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.
Популярные поисковые системы
Согласно данным LiveInternet в 2012 году об охвате русскоязычных поисковых запросов:
Некоторые из поисковых систем используют внешние алгоритмы поиска. Так, Qip.ru использует поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.
Необычные поисковые системы
См. также
Примечания
Литература
Ссылки
Ask.com (Ask Jeeves, механизм Teoma) • Blekko • Cuil (закрыт) • DuckDuckGo • Exalead • Gigablast • Google • Bing (Live Search/MSN Search) • Yahoo! Search (Inktomi • AltaVista • Alltheweb) • Яндекс
AskNet.ru • Brainboost • Clusty • Dogpile • FarSEER • exactus.ru • Excite • HotBot • Info.com • Ixquick • Krozilo • Mamma • Metacrawler • MetaLib • Нигма • Myriad Search • SideStep • Surfwax • Turbo10 • WebCrawler • GlobalFileSearch
DataparkSearch • Egothor • Gonzui • Grub • Ht://dig • locust • Isearch • Lucene • Lemur Toolkit & Indri Search Engine • mnoGoSearch • Namazu • Nutch • OpenFTS • Sciencenet (научная, на технологии YaCy) • Wikia Search • Sphinx • SWISH-E • Terrier Search Engine • Xapian • YaCy • Zettair
AGAKIDS (Россия) • Ask Kids (Великобритания) • Frag Finn (Германия) • Kids AOL (США) • Kids Yahoo! (США) • Quintura Дети (Россия) • Семейный Яндекс (Россия) • Гогуль (Россия)