»Статьи / Раскрутка и реклама / Как работает робот и как регистрироваться в поисковой машине Yandex
»
  https://world1000.net/page.php?id=427

Автор: , Отправлено: 2008-11-04 12:36.
Помимо robots.txt существуют и другие джентельменские соглашения для работы роботов - например, он не должен делать более одного коннекта, чтобы не забить канал и дать возможность другим пользователям Сети общаться с данным сервером.<br />
Для поисковой машины Yandex.Ru в состав робота входят еще модули индексации, распознавания кодировок (если на странице содержится русский язык) и определения уникальности документа.<br />
Как Yandex.Ru узнает о новых ресурсах<br />
Как Yandex.Ru узнает о новых серверах и страницах? Есть два способа - или владельцы ресурсов сами добавляют их (заполнив форму AddURL на <noindex><a rel="nofollow" href="http://yandex.ru/addurl.html">http://yandex.ru/addurl.html</a></noindex> или послав письмо на <a href="mailto:[email protected]">[email protected]</a> ), или робот находит новые ссылки в проиндексированных страницах. Так, например, с первой страницы сервера робот берет ссылки на последующие и так далее, без ограничения глубины, до тех пор, пока новые адреса не перестанут появляться.<br />
Поскольку задачей Yandex.Ru является работа с русско-язычным и/или российско-ориентированным Интернетом, введено следующее правило: сервера в доменах России и стран СНГ (&裟su&裟, &裟ru&裟, &裟am&裟, &裟az&裟, &裟by&裟, &裟ge&裟, &裟kg&裟, &裟kz&裟, &裟md&裟, &裟tj&裟, &裟ua&裟, &裟uz&裟) принимаются по умолчанию. Сервера в других доменах - если на них найден русский язык или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер подпадает под указанную категорию (это обычно делается письмом на [email][email protected]).[/email]<br />
Итак, не удивляйтесь, если URL, который Вы добавляете, уже есть в базе робота. Наш робот мог найти Ваш URL по ссылкам из других проиндексированных документов. Не стоит также огорчаться, если при этом Вы не можете найти этот документ в Yandex. Наверняка наш "паук" просто еще не успел дойти до Вашего документа, и он будет проиндексирован через несколько дней.<br />
Правила индексации в Yandex.Ru<br />
Yandex индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и поступит с ним по правилам, указанным выше. То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована.<br />
Кроме этого, Yandex начинает бороться со спамом, и страницы со временем redirect&裟а равным нулю будут исключаться из индексирования (непонятно, какие еще цели, кроме спама, могут быть у создателей страницы, которую пользователь в принципе не может увидеть).<br />
Робот Yandex.Ru хранит дату последнего обхода каждого URL, дату его изменения (присланную его Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера.<br />
По этой причине, а также потому, что на Yandex.Ru работает поиск и сортировка по датам, очень хотелось бы, чтобы сервера выдавали корректные даты изменения файлов, чего не происходит более чем в 20 процентов случаев.<br />
Yandex.Ru является полнотекстовой поисковой машиной. Это значит, что в индекс попадают все слова текста на странице, видимые пользователю (то есть кроме комментариев и слов внутри тэгов). В ближайшее время планируется начать индексировать Meta-keywords. <br />
Как узнать, проиндексирован ли ресурс<br />
Чтобы проверить, проиндексирована ли Ваша страница, достаточно скопировать из нее какую-нибудь характерную строчку, желательно подлиннее (копирайт, адрес, название и описание), и задать ее как запрос в Yandex. Если на первой странице списка найденного Вашей страницы не оказалось, значит, она еще не проиндексирована. Тогда стоит проверить, есть ли она уже в базе робота. Для этого надо пойти на страницу AddURL ( <noindex><a rel="nofollow" href="http://yandex.ru/addurl.html">http://yandex.ru/addurl.html</a></noindex> ) и попробовать добавить адрес еще раз. Если Вы получили ответ, что страница уже содержится в базе робота, это значит, что она будет проиндексирована в ближайшее время. Если же Вы получили ответ, что страница добавлена, это значит, что в первый раз при добавлении что-то было сделано неверно - возможно, Вы не обратили внимание на диагностику, которая Вам была выдана.<br />
<br />
Правила по добавлению URL в поисковую машину Yandex.Ru: <br />
<br />
Добавляйте истинный адрес Вашей страницы <br />
Создайте файл robots.txt, если Вы хотите закрыть какие-то разделы от индексирования. <br />
Смотрите на ответ, который выдает Вам программа AddURL и, при необходимости, пишите письмо на <a href="mailto:[email protected]">[email protected]</a> (учтите, что запись URL чуствительна к регистру шрифта). <br />
Конфигурируйте сервер так. чтобы он корректно выдавал даты файлов и кодировки русского языка. <br />
Добавляйте верхнюю страницу Вашего сервера - остальные Yandex найдет сам по ссылкам. <br />
Если Ваша страница была проиндексирована, а затем Вы изменили ее содержание или удалили ее, не беспокойтесь - робот автоматически обойдет ее снова и обновит индекс (в случае, если страница больше не существует, она будет исключена из поиска). <br />
<br />
Ресурс в системе описан неправильно. Как это исправить?<br />
Мы часто получаем письма вроде "Я не заносил в Вашу систему мой ресурс, и он описан неправильно. Как мне исправить положение?" Вообще говоря, ресурс, если он существует, не может быть занесен неправильно. Если он секретный, запретите доступ к нему в robots.txt. Если он не ищется по тем словам, по которым Вам бы хотелось, или находится не в первых рядах, обратите внимание на то, что, собственно, написано на страницах Вашего ресурса. <br />
<br />
Yandex.Ru - полнотекстовая поисковая машина, поэтому страницы будут находиться по словам, написанных на них, а не по тем ключевым словам, которыми Вы этот ресурс описали. Учтите также, что Yandex работает только с текстами и не умеет распознавать графические изображения. Поэтому, если название нарисовано, то стоит его повторить где-нибудь просто текстом. Предложения Yandex на тему "как сделать, чтобы Вашу страницу нашли те, кому она нужна" описаны в "Советах Web-мастеру" ( <noindex><a rel="nofollow" href="http://yandex.ru/ya_advise.html">http://yandex.ru/ya_advise.html</a></noindex> ).

Версия для печати