Как устроены поисковые машины типа google yandex или baidu

16.01.202316.01.2023 admin 0 Comments

Как устроены поисковые системы

При вводе запроса в поиск, вы получаете ответ из ранее созданной поисковой базы, эта база создаётся поисковыми системами с помощью собственных программ-роботов и называется поисковым индексом. Давайте подробно рассмотрим как устроены поисковые системы.

Работа поисковых машин разделена на два этапа:

Подготовка поискового индекса

Прежде, чем найти лучший ответ на запрос пользователя, необходимо просканировать все имеющиеся сайты, найти в них страницы удовлетворяющие запросу, сравнить их и только после этого предложить варианты. Прежде чем сравнивать и предоставлять ответ, требуются огромные вычислительные мощности для того что бы найти страницы и скачать их для последующего анализа. Поисковые системы данную задачу решают с помощью собственных поисковых роботов.

Поисковые роботы

Поисковый робот (краулер, веб-паук) – это программный комплекс для сканирования интернета, скачивания и анализа веб-документов.

Из-за огромного числа страниц в интернете, обойти их все за раз задача не простая, даже для роботов. При это одни страницы удаляются, другие изменяются, третью добавляются, а четвёртые не меняются. Что бы не тратить время и ресурсы на обход страниц, которые не меняются или не работают, а перераспределять мощности, отдавая приоритет новым или часто меняющимся страницам, существует маршрут поискового робота.

Маршрут поискового робота

Маршрут поискового робота – это список с URL адресами, сгруппированный по доменам, который поисковый робот должен обойти за выделенный период времени. Список формирует программа-планировщик, каждый раз добавляя или убирая URL-адреса.

Краулинговый бюджет

Для каждого сайта, робот-планировщик формирует свой список адресов, который должен обойти за одно обращение к сайту (сессию). Этот список называется краулинговым бюджетом. Краулинговый бюджет, зависит от ряда факторов, кол-во страниц на сайте и их частота обновления, кол-во регулярно появляющихся новых страниц, кол-во и частота появления новых ссылок на сайт, качество страниц и корректность их работы.

На низко нагруженных ресурсах SEO-специалисты боряться над увеличением кол-ва адресов в маршруте робота и частотой обхода. А на сайтах с большим числом страниц и высокой нагрузкой на сервер, над оптимизацией маршрута, добавляя в перечень новые и изменённые страницы, исключая не нужные для роботов страницы или устанавливая лимиты на дневное сканирование.

Каждый раз при обходе сайта по маршруту, краулер получает информацию о наличии страницы или её отсутствии, если она доступна скачивает её целиком, определяет тип (html, pdf и т.д.) документа, язык и кодировку, далее отправляет в хранилище.

Поисковая база

В хранилище, скаченная страница разбивается на 2 версии (копия и фрагментированная) и затем отправляется в поисковую базу, для дальнейшего анализа.

Копия страницы

Копия страницы, хранится в том виде в котором была скачена, до следующего обхода. Такую копию можно увидеть на странице выдачи поисковых систем. Она может быть нужна, на случай если найденный сайт не доступен или уже изменился относительно последнего обхода.

Фрагментированная страница

Фрагментированная страница, это версия веб-документа разбитая на фрагменты текста (мета-данные, заголовок, абзацы текста, отдельные слова и т.д.). Каждое слово размечается, в каком фрагменте и на каком месте оно находится, далее эта информация отправляется в поисковый индекс (поисковую базу).

Когда краулер находит URL-адрес, он добавляет его в программу-планировщик, которая определяет когда данный URL просканировать. Кроме найденных ссылок самим поисковым роботом, в маршрут адреса попадают из систем аналитики (Яндекс.Метрика и Google Analytics), а так же из кабинетов вебмастера (Яндекс.Вебмастер и Google Search Console).

Виды поисковых роботов

Существуют разные виды роботов которые сканируют разные типы данных для разных целей. Например, у Яндекса выделяют 2 основных, но не единственных поисковых робота:

Основной индексирующий робот регулярно обходит все сайты в списке и загружает полученные данные в базовый поиск. Обход и обработка данных требует время, поэтому загрузка происходит не моментально, а раз в несколько дней. На основании загруженных данных происходит обновление базового поиска, именуемое апдейтом. Такой процесс требует больших серверных мощностей, именно поэтому апдейты происходят, как правило ночью, когда нагрузка на поиск минимальна.

Робот Orange пополняет базовый поиск в режиме реального времени. Такой робот может обходить один сайт несколько раз за день, это акутально для ресурсов, где информация обновляется несколько раз за день.

Поиск ответа на запрос пользователя

Имея в своей базе информацию о скаченых страницах, поисковая машина может быстро найти документы удовлетворяющие поисковому запросу. А технология Матрикснет у Яндекса и поисковый алгоритм Гугла, позволяют поместить на первые строчки страницы наиболее полно и точно отвечающие на запрос пользователя.

Метапоиск

В Яндексе существует так называемый метапоиск, который определяет все необходимые данные о запросе, именно в него сначала попадает поисковое слово или фраза пользователя. Фраза анализируется и для часто задаваемых фраз выдаётся готовый ответ хранящийся некоторое время в памяти метапоиска. Если готового ответа нет, то запрос переходит на следующий уровень, в базовый поиск.

Базовый поиск

Произведя поиск по всему поисковому индексу и получив перечень документов содержащих поисковую фразу, документы отправляются в Матрикснет. Матрикснет определяет порядок всех документов на странице поисковой выдачи и этот порядок документов мы видим в качестве ответа на свой запрос.

Дополнительный материал для изучения

Источник

Как интернет-поисковики из разных стран борются за читателя

Поисковые системы превратились в гигантов цифровой экономики. «Сейчас поисковые системы уже не простой бездушный сервис по поиску необходимой информации. Это целые инфраструктуры, компании, на акциях которых можно заработать», — рассказал управляющий партнер группы компаний KRK Group Даниил Кириков.

В России, США и Китае свои доминирующие игроки. Это «Яндекс», Google и Baidu. Их бизнес-модели очень похожи. Ядро бизнеса — поиск; а вокруг множество других подразделений, каждое из которых стоит отдельной корпорации.

В частности, все три поисковых гиганта занялись разработкой беспилотных автомобилей. А Google даже вышла на фармацевтический рынок, подписав соглашение с французской компанией Sanofi. Она хочет использовать технологии Google, чтобы разработать индивидуальный подход к лечению и ускорить разработку лекарств.

По просьбе РБК Quote аналитики проанализировали поисковики Google, «Яндекс» и Baidu и рассказали, какой из них больше выиграет от международной экспансии.

Как Google сначала согласился, а потом отказался от цензуры в пользу коммунистов. А затем опять согласился

Поисковая система Google лидирует по географии присутствия. Этим поисковиком пользуется население большинства стран мира, его доля превышает 62%. На российском рынке Google — самый популярный сайт для поиска. «Яндекс» занимает второе место.

Исключение — Китай. Пытаясь проникнуть на китайский рынок, Google отказалась от демократических принципов и согласилась цензурировать поисковую выдачу в интересах коммунистического правительства Китая. Компания заработала в стране в 2006 году и продолжала функционировать вплоть до 2010 года включительно.

За это время Google занял треть рынка Китая. Для этого поисковик не выдавал результаты по расстрелу мирных протестующих на площади Тяньаньмэнь китайскими военными. Или замалчивал факты массовых репрессий уйгурского населения на западе КНР.

В 2010 году Google ушла из Китая. Властям страны не нравился половинчатый характер цензуры: в результатах поиска компания сообщала об удаленных ссылках. Одновременно Google испортила свой имидж в западных странах тем, что все-таки выполняла требования Китая по фильтрации поисковой выдачи.

Через шесть лет Google решила попытаться еще раз. Для этого компания заключила соглашение с китайскими властями о разработке специализированного поискового движка и новостного приложения под общим названием Dragonfly. Предполагалось, что в приложение будет встроен цензор поиска по картинкам и голосовому набору.

Однако в 2018 году выяснилось, что работа ведется втайне от большинства сотрудников Alphabet — материнской структуры Google. Разразился скандал. Компанию обвинили в том, что она способствует нарушению прав человека в Китае. Проект остановили.

«Яндекс»: сначала поиск, дальше — рекомендации

Российская поисковая система «Яндекс» имеет офисы в девяти странах мира, но наиболее заметное положение занимает на рынках России, Турции, Белоруссии и Казахстана. Однако там она сталкивается с более популярным среди населения поисковиком Google и поэтому остается на вторых ролях, сильно отставая от американского конкурента.

«Яндекс» и Google пересекаются и конкурируют в странах СНГ. По статистике LiveInternet за 2019 год, поисковая система Google используется чаще», — прокомментировал ситуацию Даниил Кириков.

В Турцию компания пришла в 2011 году. Сейчас доля «Яндекса» в поисковых запросах в стране составляет 2% против 97% у Google. В то же время аудитория именно поискового сервиса составляет малую часть совокупной аудитории компании. Так что ценность турецкого рынка для «Яндекса» состоит лишь в том, что он придает компании престиж одного из мировых лидеров поиска, считают в Exante.

Следующим шагом «Яндекса» стало продвижение на азиатский рынок. В апреле текущего года компания подписала контракт, который предусматривает внедрение рекомендательного сервиса «Яндекс.Дзен» в мобильный и веб-браузер вьетнамской компании Coc Coc. Это осознанное движение компании от поиска в сторону другой модели заработка в интернете.

Baidu: почему провалилась экспансия во Вьетнам

Китайская поисковая система Baidu появилась в 2000 году. Название означает «сто раз». Основатели компании Робин Ли и Эрик Сю взяли это слово из поэмы времен династии Сун. На Западе поисковую систему Baidu называют «китайским гуглом». В 2005 году поисковик провел IPO на бирже NASDAQ. В декабре 2007 года Baidu стал первой китайской компанией, включенной в индекс NASDAQ 100.

Для Baidu основным рынком являются страны, где говорят на китайском языке. В этом они отчасти похожи с «Яндексом», который по большей части работает в русскоговорящих регионах.

Таким образом, с поисковой системой Baidu работает население материкового Китая, Гонконга, Макао и некоторых стран вне китайской юрисдикции — в Малайзии, Египте, Индонезии, Бразилии, Таиланде.

В 2012 году компания вышла на вьетнамский рынок. Момент оказался неудачным: именно тогда между двумя странами обострился территориальный конфликт. Государства претендовали на одну и ту же акваторию. В глазах вьетнамцев коммунистический Китай представал захватчиком территории — и местные жители не собирались пользоваться услугами китайских компаний.

Аналитики Exante приводят еще одну причину неудачи. По их словам, Baidu не сумела закрепиться во Вьетнаме из-за конкуренции с местными аналогами. «Не стоит забывать, что вьетнамское руководство, как и китайское, старается контролировать свой интернет и холодно относится к иностранному влиянию», — написали в связи с этим в инвестиционной компании.

Летом 2019 года во Вьетнаме заработал сервис потокового видео iQIYI. Сервис принадлежит Baidu и считается аналогом американского Netflix. В Exante ожидают, что компании придется пройти через жесткую конкуренцию с местными сервисами FPT Play, Clip TV, Zing TV.

В 2015 году Baidu решил выйти на российский рынок и был готов заключить партнерское соглашение с «Яндексом». Однако этого так и не произошло.

Кто больше выиграет от международного бизнеса

«Больше всего от международного ведения бизнеса, несомненно, выигрывает Google, так как количество активных пользователей может сравниться только с Baidu, — уверен Даниил Кириков из KRK Group. — Однако последний закрыт для внешнего мира и его использует 96% китайских пользователей».

«Google может похвастаться успехом во многом благодаря статусу мирового поисковика «по умолчанию». Google считают главной поисковой системой в большинстве стран мира. Но сперва необходимо сделать первый шаг — начать работать в этих странах», — считают в Exante.

У Baidu есть сложности с выходом за пределы Китая. Это связано с политизированностью поисковика. Впрочем, у Baidu есть множество других инженерных проектов. В сотрудничестве с немецкими партнерами она выпускает антивирус Baidu Antivirus, входит в блокчейн-консорциум Hyperledger и производит беспилотные автобусы. Такие проекты повышают интерес к компании и дают ей шанс остаться на плаву даже в случае неудач с поисковиком, считают в Exante.

У «Яндекса» охват стран намного меньший, но он старается его расширить. В Турции «Яндекс» значительно уступает Google, но является вторым по популярности поисковиком в стране. А потому он известен гражданам и при активизации маркетинговой политики может куда легче набрать обороты там, чем в новой стране, заключили аналитики.

Куда выгоднее вложить деньги

Аналитики разошлись во мнении по этому вопросу. В KRK Group полагают, что лучшим выбором для инвестора станет Baidu. Кириков выделил именно ее благодаря потенциалу роста котировок на 62,2% за год.

По мнению экспертов, этому способствовали скандалы, связанные с новостной и рекламной политикой Baidu. Компанию обвинили в предвзятом поиске, скрывающем ссылки на конкурентов. На акции также плохо повлияла высокая конкуренция.

«Все эти проблемы решаемы при разумной политике руководства, но в силу гигантского размера (и неповоротливости) компании могут привести к утрате позиций», — предупредили в Exante.

Котировки «Яндекса» сейчас не имеют явного положительного или отрицательного тренда. Коэффициент P/E=42 довольно высок. Это означает, что компания переоценена, что при прочих равных условиях вряд ли сулит существенный рост, считают в Exante. Хотя, как и у Google, прибыль «Яндекса» стабильно растет.

Источник

Поисковые машины

Введение

Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день «ползают» по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать «submit» и увидеть, какие страницы удовлетворяют его запросу.

Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.

Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу.

Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.

Основные поисковые машины

Какие из сотен поисковых машин действительно важны для вебмастера? Ну, разумеется, широко известные и часто используемые. Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами 🙂 Итак, для начала определимся с терминологией.

Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.

Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo. Конструкция страниц значения не имеет. Далее речь пойдет в основном о поисковых машинах.

Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo.

Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 — приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.

Существует в этой системе и каталог — Excite Reviews. Попасть в этот каталог — удача, поскольку далеко не все сайты туда заносятся. Однако информация из этого каталога не используется поисковой машиной по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.

Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi.

Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время «Ultrasmart/Ultraseek» содержит порядка 50 миллионов URL.

Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Поистине новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek. Существует отдельный от поисковой машины каталог InfoSeek Select.

Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).

Система OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем.

Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online Существует каталог WebCrawler Select.

Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo — Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.

Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых сайтов. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой машиной. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Altavista.

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц.

Тип поисковой машины

«Полнотекстовые» поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. «Абстрактные» поисковые машины создают некий экстракт каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер поисковой машины определяется количеством проиндексированных страниц. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

Дата индексирования документа

Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой «свежести» ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.

Указанные (submitted) страницы

В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

Не указанные (non-submitted) страницы

Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.

Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:

Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

Тут примерно та же проблема, что и с фреймовыми структурами серверов.

Защищенные паролями директории и сервера

Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

Частота появления ссылок

Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных «делают вывод» стоит или не стоит тратить время на индексирование такого документа.

Способность к обучению

Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко — реже.

Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

Влияние на алгоритм определения релевантности

Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

Все крупные поисковые системы «не любят», когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.

По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают.

Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

Проверка статуса URL

Очень полезная для вебмастера черта поисковой машины — можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.

Источник

Как сделать своими руками?

Как устроены поисковые машины типа google yandex или baidu

Как устроены поисковые системы