»Статьи / Раскрутка и реклама / Немного о Page Rank » https://world1000.net/page.php?id=176 |
Автор: , Отправлено: 2008-11-03 20:19. |
Применение PageRank в поисковиках <br /> <br /> Традиционные способы нахождения релевантных страниц, в случае односложных запросов не дают удовлетворительных результатов, т.к. по популярным темам (например “рефераты”, “работа”) всегда найдётся большое число страниц с одинаковой релевантностью. Для того, чтобы как-то упорядочить такие страницы, поисковики пускаются на разные хитрости. Например выдают первыми те страницы, которые имеют большую посещаемость (Rambler) или которые присутствуют в каталоге (Yandex, Aport). В Google для этих целей применяется PageRank, что даёт потрясающие результаты, и за короткое время Google стал занимать лидирующие позиции не только по объёму базы, но и по качеству поиска. Из наших поисковиков первым PageRank стал использовать Aport, за ним Yandex. В Rambler эта технология не применяется, но на данном этапе такая возможность рассматривается, и, не исключено, что PageRank будет использоваться и в этой поисковой системе. <br /> <br /> На ряду с упорядочиванием результатов поиска по PageRank, есть и другое применение для этой технологии. Дело в том, что число страниц в Интернете на столько велико, что поисковики уже не могут себе позволить индексировать всё подряд. А поскольку PageRank служит критерием ценности страницы, то логично проводить индексацию страниц в порядке убывания PageRank. В Google пошли даже дальше: теперь простой отправки формы для регистрации не достаточно, - для того, чтобы сайт был проиндексирован необходимо наличие хотя бы одной внешней ссылки. <br /> <br /> Введение в PageRank <br /> <br /> PageRank - статическая величина, предназначенная для оценки качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется “глобальная ценность” каждой страницы. Авторы PageRank Сергей Брин и Ларри Пейдж, разработавшие технологию дополнительного ранжирования результатов выдачи поисковиков, в последствии стали основателями компании Google. <br /> <br /> За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания <br /> <br /> Вычисление Pagerank <br /> <br /> Представьте себе идеального веб-серфера перемещающегося по всемирной <br /> паутине. Пусть сёрфер посещает страницу p, случайное блуждание <br /> при этом находится в состоянии p. <br /> На каждом шаге, веб-сёрфер либо перепрыгивает на другую страницу в сети, выбранную <br /> псевдо-случайным образом, либо он следует по ссылке на текущей странице, при <br /> этом не возвращаясь и не посещая одну и ту же страницу дважды. Вероятность <br /> случайного прыжка обозначим как d тогда вероятность перехода по ссылке <br /> будет 1-d. <br /> Таким образом, вероятность нахождения пользователя на странице p <br /> можно вычислить по следующей формуле: <br /> <br /> где R(p) - PageRank страницы, С(p) - число <br /> ссылок на странице, к - число ссылающихся на p страниц, d- <br /> коэффициент затухания (damping factor). Обычно 0.1<d<0.15. Если <br /> масштабировать PageRank таким образом, что <br /> <br /> где N - число всех страниц, для которых <br /> производится расчёт PageRank, то R(p) <br /> можно рассматривать как распределение вероятности по всем страницам. <br /> <br /> Для вычисления PageRank составляется матрица M размером <br /> NxN, где каждому элементу mij матрицы присваивается <br /> значение R0(p)=1N в том случае, если с i -й страницы имеется ссылка на <br /> j-ую, все оставшиеся элементы матрицы заполняются нулями. <br /> Таким образом, вычисление PageRank сводится к отысканию собственного вектора <br /> матрицы M что достигается умножением матрицы M <br /> на вектор Rj <br /> на каждом шагу итерации. Введение коэффициента затухания <br /> гарантирует, что процесс сходится. <br /> <br /> Повышаем значимость сайта <br /> <br /> Осознав победное шествие PageRank, нельзя не задуматься об его увеличении <br /> для своей странички. Интуитивно понятно, что чем авторитетнее ресурс, на котором <br /> размещена ссылка тем больше она увеличивает PageRank страницы, на которую <br /> ссылается. И наоборот, чем больше ссылок на странице, тем меньше будет её <br /> вклад в повышение PageRank вашей страницы - ещё одно доказательство <br /> бесполезности участия в FFA (Free For All - сайты, содержащие набор ссылок <br /> со свободным добавлением). Менее очевидна оптимальная топология взаимоссылающихся <br /> страниц. Например, страницы организованные в “кольцо” (когда каждая страница <br /> ссылается на соседа слева и справа, последняя ссылается на первую, а первая на <br /> последнюю) будут иметь один и тот же PageRank не зависимо от числа страниц в кольце <br /> (если не проводить масштабирование по сумме, то PageRank у всех будет <br /> равен 1). То же справедливо для <звёзд> <br /> или случая, когда все ссылаются на всех, и, вероятно, это утверждение <br /> справедливо вообще для всех симметричных топологий. Гораздо более перспективны <br /> с точки зрения увеличения PageRank асимметричные <br /> топологии. Утверждение о бесполезности создания <пустых> (но ссылающихся друг на друга) <br /> сайтов у бесплатных хостеров не столь очевидно. Например, можно организовать обмен ссылками на 5 сайтах <br /> таким образом, что у одного из них PageRank будет в 15 <br /> раз больше, чем минимальный не нулевой PageRank. В этом несложно убедится, <br /> написав небольшую программку. <br /> <br /> Некоторые распространённые заблуждения связанные с PageRank <br /> <br /> Проанализировав сообщения в <br /> рунетовских форумах, посвященных позиционированию в поисковых системах, можно <br /> выделить целый ряд утверждений о PageRank, как минимум спорных, а зачастую <br /> просто неверных. Кратко рассмотрим эти утверждения: <br /> <br /> Если на какой-то сайт есть много ссылок с <br /> FFA, гостевых книг или на сайтов другой тематики, то PageRank <br /> будет занижен. <br /> <br /> Не стоит путать понятия <индекс цитирования> и PageRank. При расчёте PageRank <br /> анализ содержимого ни сайта ни текста ссылки не производится, учитываются <br /> только общее число ссылок и их веса, поэтому никаких штрафных санкций при <br /> наличии ссылок с <неправильных> страниц не применяется. <br /> <br /> Если добиться высокого PageRank для какой-то страницы, то <br /> эта страница будет на первом месте в результатах поиска. <br /> <br /> Не верно, по той причине, что PageRank является не основным критерием для <br /> ранжирования страниц, а вспомогательным. В противном случае, на первых <br /> страницах по очень многим запросам располагались бы только рейтинги и топы. <br /> Только при прочих равных условиях страница с более высоким PageRank <br /> будет располагаться выше в результатах поиска. <br /> <br /> Если зарегистрировать сайт во всех популярных каталогах, то PageRank <br /> будет очень высоким <br /> <br /> Не стоит обольщаться - PageRank <br /> вычисляется не для сайта целиком, а для отдельно взятой страницы. Поэтому ссылка из глубокой поддириктории, <br /> скажем в Yahoo, может быть менее ценна чем страница Васи Пупкина. Так что, тут можно <br /> взять не качеством ссылок, а их количеством. Надо только обращать внимание на то, <br /> чтобы ссылки из каталога шли напрямую на ваш сайт, а не через cgi-скрипт, <br /> иначе они просто не будут учитываться. Кроме того, правила многих каталогах <br /> требуют размещения корневой страницы, а не того документа, PageRank которого вы <br /> собираетесь повышать. Поэтому гораздо эффективнее можно повысить PageRank <br /> конкретной страницы ссылкой с корневой страницы своего собственного сайта. <br /> <br /> PageRank уменьшается при проставлении внешних ссылок <br /> <br /> Весьма спорное утверждение, как говорилось выше PageRank <br /> понижается в случае симметричного <br /> объединения ссылающихся страниц, вероятность получить которое при проставлении <br /> внешней ссылки ничтожно мала. Если такую фобию в себе не перебороть, то можно <br /> дать совет завести специальную страницу для обмена ссылками. Кстати, стоит <br /> заметить, что при расчёте PageRank никто не обещал разделять ссылки на внешние и внутренние.<br /> <br /> Автор: Гендольф |
Версия для печати |