»Статьи / Раскрутка и реклама / Немного о Page Rank
»
  https://world1000.net/page.php?id=176

Автор: , Отправлено: 2008-11-03 20:19.
Применение PageRank в поисковиках <br />
<br />
Традиционные способы нахождения релевантных страниц, в случае односложных запросов не дают удовлетворительных результатов, т.к. по популярным темам (например “рефераты”, “работа”) всегда найдётся большое число страниц с одинаковой релевантностью. Для того, чтобы как-то упорядочить такие страницы, поисковики пускаются на разные хитрости. Например выдают первыми те страницы, которые имеют большую посещаемость (Rambler) или которые присутствуют в каталоге (Yandex, Aport). В Google для этих целей применяется PageRank, что даёт потрясающие результаты, и за короткое время Google стал занимать лидирующие позиции не только по объёму базы, но и по качеству поиска. Из наших поисковиков первым PageRank стал использовать Aport, за ним Yandex. В Rambler эта технология не применяется, но на данном этапе такая возможность рассматривается, и, не исключено, что PageRank будет использоваться и в этой поисковой системе. <br />
<br />
На ряду с упорядочиванием результатов поиска по PageRank, есть и другое применение для этой технологии. Дело в том, что число страниц в Интернете на столько велико, что поисковики уже не могут себе позволить индексировать всё подряд. А поскольку PageRank служит критерием ценности страницы, то логично проводить индексацию страниц в порядке убывания PageRank. В Google пошли даже дальше: теперь простой отправки формы для регистрации не достаточно, - для того, чтобы сайт был проиндексирован необходимо наличие хотя бы одной внешней ссылки. <br />
<br />
Введение в PageRank <br />
<br />
PageRank - статическая величина, предназначенная для оценки качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется “глобальная ценность” каждой страницы. Авторы PageRank Сергей Брин и Ларри Пейдж, разработавшие технологию дополнительного ранжирования результатов выдачи поисковиков, в последствии стали основателями компании Google. <br />
<br />
За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания <br />
<br />
Вычисление Pagerank <br />
<br />
Представьте себе идеального веб-серфера перемещающегося по всемирной <br />
паутине. Пусть сёрфер посещает страницу p, случайное блуждание <br />
при этом находится в состоянии p. <br />
На каждом шаге, веб-сёрфер либо перепрыгивает на другую страницу в сети, выбранную <br />
псевдо-случайным образом, либо он следует по ссылке на текущей странице, при <br />
этом не возвращаясь и не посещая одну и ту же страницу дважды. Вероятность <br />
случайного прыжка обозначим как d тогда вероятность перехода по ссылке <br />
будет 1-d. <br />
Таким образом, вероятность нахождения пользователя на странице p <br />
можно вычислить по следующей формуле: <br />
<br />
где R(p) - PageRank страницы, С(p) - число <br />
ссылок на странице, к - число ссылающихся на p страниц, d- <br />
коэффициент затухания (damping factor). Обычно 0.1<d<0.15. Если <br />
масштабировать PageRank таким образом, что <br />
<br />
где N - число всех страниц, для которых <br />
производится расчёт PageRank, то R(p) <br />
можно рассматривать как распределение вероятности по всем страницам. <br />
<br />
Для вычисления PageRank составляется матрица M размером <br />
NxN, где каждому элементу mij матрицы присваивается <br />
значение R0(p)=1N в том случае, если с i -й страницы имеется ссылка на <br />
j-ую, все оставшиеся элементы матрицы заполняются нулями. <br />
Таким образом, вычисление PageRank сводится к отысканию собственного вектора <br />
матрицы M что достигается умножением матрицы M <br />
на вектор Rj <br />
на каждом шагу итерации. Введение коэффициента затухания <br />
гарантирует, что процесс сходится. <br />
<br />
Повышаем значимость сайта <br />
<br />
Осознав победное шествие PageRank, нельзя не задуматься об его увеличении <br />
для своей странички. Интуитивно понятно, что чем авторитетнее ресурс, на котором <br />
размещена ссылка тем больше она увеличивает PageRank страницы, на которую <br />
ссылается. И наоборот, чем больше ссылок на странице, тем меньше будет её <br />
вклад в повышение PageRank вашей страницы - ещё одно доказательство <br />
бесполезности участия в FFA (Free For All - сайты, содержащие набор ссылок <br />
со свободным добавлением). Менее очевидна оптимальная топология взаимоссылающихся <br />
страниц. Например, страницы организованные в “кольцо” (когда каждая страница <br />
ссылается на соседа слева и справа, последняя ссылается на первую, а первая на <br />
последнюю) будут иметь один и тот же PageRank не зависимо от числа страниц в кольце <br />
(если не проводить масштабирование по сумме, то PageRank у всех будет <br />
равен 1). То же справедливо для <звёзд> <br />
или случая, когда все ссылаются на всех, и, вероятно, это утверждение <br />
справедливо вообще для всех симметричных топологий. Гораздо более перспективны <br />
с точки зрения увеличения PageRank асимметричные <br />
топологии. Утверждение о бесполезности создания <пустых> (но ссылающихся друг на друга) <br />
сайтов у бесплатных хостеров не столь очевидно. Например, можно организовать обмен ссылками на 5 сайтах <br />
таким образом, что у одного из них PageRank будет в 15 <br />
раз больше, чем минимальный не нулевой PageRank. В этом несложно убедится, <br />
написав небольшую программку. <br />
<br />
Некоторые распространённые заблуждения связанные с PageRank <br />
<br />
Проанализировав сообщения в <br />
рунетовских форумах, посвященных позиционированию в поисковых системах, можно <br />
выделить целый ряд утверждений о PageRank, как минимум спорных, а зачастую <br />
просто неверных. Кратко рассмотрим эти утверждения: <br />
<br />
Если на какой-то сайт есть много ссылок с <br />
FFA, гостевых книг или на сайтов другой тематики, то PageRank <br />
будет занижен. <br />
<br />
Не стоит путать понятия <индекс цитирования> и PageRank. При расчёте PageRank <br />
анализ содержимого ни сайта ни текста ссылки не производится, учитываются <br />
только общее число ссылок и их веса, поэтому никаких штрафных санкций при <br />
наличии ссылок с <неправильных> страниц не применяется. <br />
<br />
Если добиться высокого PageRank для какой-то страницы, то <br />
эта страница будет на первом месте в результатах поиска. <br />
<br />
Не верно, по той причине, что PageRank является не основным критерием для <br />
ранжирования страниц, а вспомогательным. В противном случае, на первых <br />
страницах по очень многим запросам располагались бы только рейтинги и топы. <br />
Только при прочих равных условиях страница с более высоким PageRank <br />
будет располагаться выше в результатах поиска. <br />
<br />
Если зарегистрировать сайт во всех популярных каталогах, то PageRank <br />
будет очень высоким <br />
<br />
Не стоит обольщаться - PageRank <br />
вычисляется не для сайта целиком, а для отдельно взятой страницы. Поэтому ссылка из глубокой поддириктории, <br />
скажем в Yahoo, может быть менее ценна чем страница Васи Пупкина. Так что, тут можно <br />
взять не качеством ссылок, а их количеством. Надо только обращать внимание на то, <br />
чтобы ссылки из каталога шли напрямую на ваш сайт, а не через cgi-скрипт, <br />
иначе они просто не будут учитываться. Кроме того, правила многих каталогах <br />
требуют размещения корневой страницы, а не того документа, PageRank которого вы <br />
собираетесь повышать. Поэтому гораздо эффективнее можно повысить PageRank <br />
конкретной страницы ссылкой с корневой страницы своего собственного сайта. <br />
<br />
PageRank уменьшается при проставлении внешних ссылок <br />
<br />
Весьма спорное утверждение, как говорилось выше PageRank <br />
понижается в случае симметричного <br />
объединения ссылающихся страниц, вероятность получить которое при проставлении <br />
внешней ссылки ничтожно мала. Если такую фобию в себе не перебороть, то можно <br />
дать совет завести специальную страницу для обмена ссылками. Кстати, стоит <br />
заметить, что при расчёте PageRank никто не обещал разделять ссылки на внешние и внутренние.<br />
<br />
Автор: Гендольф

Версия для печати