Главная » 2010 » Июль » 5 » Просмотров 6105

 

Раскрутить сайт! Индексы цитирования сайтов Рунета. Таблицы ТИЦ и PR


Этот пост делается по просьбам некоторых пользователей сайта, которые владеют собственными сайтами. Комментарии к посту будут закрыты потому как большинству пользователей этого сайта, пост будет не понятен и обсуждать его они не смогут. А все остальные могут ознакомиться с информацией по раскрутке сайта. Итак, начнем.

Цели, задачи и методы

На сегодняшний день авторитетность веб-сайта является очень важной его характеристикой: от авторитетности зависят позиции в выдаче поисковых систем, рекламные поступления сайтов и многое другое. Предложенная Google модель авторитетности сайта основывается на индексе цитирования: чем больше ссылаются на сайт, тем он авторитетнее и тем больший вес имеет ссылка с него на другой сайт.

Информацию об индексе цитирования можно получить непосредственно от поисковых систем:

  • Google - доступны данные Google PageRank (PR) в виде целого числа от 0 до 10. Предположительно, значение PageRank непосредственно используется Google при ранжировании результатов. Google PageRank рассчитывается для каждой страницы (документа) интернет-сайта.
    Предположительно, величина PageRank является логарифмической т.е. увеличение ее на единицу означает рост цитируемости на порядок (возможно, двоичный).
  • Yandex - доступна величина тИЦ (тематического Индекса Цитирования). По словам представителей Яндекса, тИЦ не влияет непосредственно на ранжирование в результатах поиска, с другой стороны в описании тИЦ указано, что попытки манипулирования им рассматриваются как манипулирование выдачей. тИЦ рассчитывается для отдельных сайтов (или для крупных разделов сайтов, описанных в Каталоге Яндекса). При расчете тИЦ используются только ссылки с сайтов, проиндексированных Яндексом.
    Судя по разбросу значений тИЦ, тематический индекс цитирования является суммой весов отдельных ссылок, не подвергнутой нелинейным преобразованиям.
  • Webalta - доступна величина Webalta Rating (WR), правда принципы его расчета не опубликованы, что делает его неинтересным для настоящего исследования.

Задачами настоящего исследования были:

  • Изучить распределение значений индексов цитирования для сайтов Рунета, покрываемых проектом Черный квадрат.
  • Проверить гипотезу о том, что различные методики подсчета дают хорошо скоррелированные результаты.

Данные

Анализировались индексы цитирования для WWW-сайтов в доменах второго уровня в TLD .RU и .SU. Список доменов был зафиксирован на момент начала исследования (24 сентября 2006 года) - 477494 сайта, отвечающих следующим условиям:
  • сайт имеет имя http://www.domain.ru(su) или http://domain.ru(su).
  • сайт успешно ответил на HTTP-запрос к головной странице;
  • сайт не является зеркалом другого сайта в доменах RU/SU.
Получение Google PageRank производилось до начала массового пересчета индекса цитирования, которое началось 28-29 сентября 2006 г. Получение тематического ИЦ Яндекса производилось в начале октября 2006 г. для того же списка доменов.

Google PageRank в Рунете

Определение Google PageRank производилось путем запроса к toolbarqueries.google.com. В случае, когда у www.site.ru и site.ru были разные PR, бралось большее значение. Далее в тексте Toolbar PageRank, PageRank и PR употребляются как синонимы.
Распределение величины Google PR для отобранных доменов выглядит следующим образом:

Google PageRankКоличество сайтов
91*
813
7136
61 197
57 185
427 883
360 186
267 405
148 221
0265 268

* единственный сайт с PR=9 был создан специально для накачки PR как зеркало сайта php.net. После октябрьского пересчета Google индекса цитирования Google он имеет PR=3

Считается, что величина PageRank, отдаваемая Google в виде целого числа в диапазоне 0-10 — это логарифм истинного значения PageRank, используемого при ранжировании.

Анализ распределения PR по сайтам

Построим график в координатах PR/количество сайтов. По горизонтальной оси - Toolbar PageRank (уже логарифмическая величина), по вертикальной - логарифм количества сайтов с таким PR:

Обычное для WWW-страниц распределение цитируемости выглядит в логарифмических координатах как прямая линия, однако для головных страниц сайтов Рунета получается зависимость, характерная для цитирования в научных работах: значительно меньшая доля документов с экстремально низкими индексами цитирования. В обоих случаях изменение вида распределения может быть объяснено самоцитированием (ученые ссылаются на собственные работы, вторые страницы сайтов - на головную страницу).
Шум в области PR 0—2 объясняется, по всей видимости, округлениями величины PR после логарифмирования (см. ниже раздел об индексе цитирования Яндекса). Несмотря на шум, полином второго порядка (в логарифмических координатах) описывает получаемые данные с коэффициентом корреляции 0.98.

Яндекс.тИЦ

Тематический индекс цитирования Яндекса (далее в тексте ТИЦ) был получен путем ручного просмотра всех 477494 сайтов браузером с установленным Yandex.Bar (лицензия Яндекса запрещает автоматическое обращение к их сервису). Работу выполняла тысяча китайцев, которые разделили черный квадрат на подквадратики и честно их прокликали.
272969 сайтов (из рассматриваемых 477494) имеют ТИЦ менее 10, остальные значения ТИЦ лежат в диапазоне от 10 до 110000. Для удобства сравнения с Google PR, данные были разложены на 9 логарифмических классов по формуле: Lcy = ROUND(ln(cy)/1.375),1).
Распределение величин ТИЦ для рассматриваемых сайтов выглядит следующим образом:

Класс (logCY)Диапазон значений ТИЦКоличество сайтов
859 880—236 8002
715 140—59 87034
63 830—15 130298
5970—3 8203 730
4250—96026 098
370—24058 308
220—6075 147
11040 908
0<10272 969

Из таблицы видно, что логарифмирование исходно-линейного индекса цитирования приводит к шуму в области малых значений. В то же время, распределение сайтов по логарифмическим классам практически точно повторяет аналогичный график для PageRank (см. ниже).

Корреляция ТИЦ и PR

Выведем на график в логарифмических координатах одновременно распределение сайтов по PR и по логарифму ТИЦ.



Как видно из графика, для первых пяти (из девяти) логарифмических классов, имеется практически точное совпадение функций распределения (сайтов по классам). Это позволяет утверждать, что Toolbar PageRank получен путем логарифмирования целых значений индекса цитирования, а шум в области малых значений вызван, в первую очередь, ошибками округления.

В области высоких значений индекса цитирования два графика распределения значимо расходятся (на диаграмме приведены графики полиномов второго порядка, описывающих, соответственно, распределение сайтов по PR и по ТИЦ, каждый из них имеет коэффициент корреляции с исходными данными на уровне 0.98). Как мы видим, количество сайтов с высоким ТИЦ падает быстрее, чем количество сайтов с высокими значениями PR. Это может объясняться рядом причин:

  • Google строит индексы цитирования по всем WWW-страницам, а Яндекс - только по русскоязычному подмножеству. В результате, максимальный индекс цитирования по Яндексу будет меньше.
  • Google учитывает все сайты одинаково (в соответствии с их весом, полученным при расчете PageRank). ТИЦ, согласно описанию учитывает тематическую близость. Тематическая близость, по всей видимости, определяется близостью рубрик каталога Яндекса. Таким образом, отсутствующий в каталоге сайт имеет меньше шансов получить высокий ТИЦ. При этом:
    • около половины сайтов с PR>4 отсутствуют в каталоге Яндекса;
    • но 3/4 сайтов с ТИЦ > 1000 присутствуют в каталоге.
    Другими словами, получить высокий ТИЦ труднее, чем высокий PR, а следовательно почетнее.

Медианные значения ТИЦ

Для сайтов с положительными PR и ТИЦ (всего таких сайтов 162941) была построена таблица медианных значений ТИЦ для заданного PR:

PRкол-во сайтов с ТИЦ>0Медианное значение ТИЦ
811900*
71141 400
61 066750
56 411350
424 609160
350 92980
250 61840
129 18320

*
Данных по сайтам с PR=8 недостаточно для рассчета статистически-достоверного значения медианного ТИЦ
Сравнивая данные индексов цитирования конкретного сайта с данной таблицей можно определить "международность" или "рунетность" данного сайта: у "более рунетного" сайта ТИЦ будет больше медианного.

Выводы

  • Логарифмичность Google Toolbar PageRank можно считать доказанной.
  • Высокий ТИЦ встречается в Рунете реже высокого PageRank, а значит высокий ТИЦ почетнее.

Благодарности

Автор благодарит Константина Рощупкина за конструктивную критику.

Кстати, есть еще вот такая таблица PR
По ней легко ориентироваться, но на всякий случай напишу, что там к чему.

Как увеличить Google PR страницы?

следующая таблица показывает примерную зависимость PR вашей страницы от PR и количества ссылающихся на нее других страниц, а также равноценность разного количества страниц с разным PR. Подразумевается не более 10 внешних ссылок на каждой странице.



Реальный PR рассчитывается поисковой системой Google в реальном времени и состоит из большей, чем 10, шкалы. Но Гугл обновляет информацию о публичном (тулбарном) PR обычно раз в 3 месяца и округляет PR до единиц. Это сделано для уменьшения нагрузки на сервера Google. Со времени обновления тулбарного PR реальный PR, исходя из которого Гугл учитывает вес страницы, может измениться, как в большую так и в меньшую сторону, что при большом количестве страниц с таким PR уравновешивается, и средний тулбарный PR 1000 страниц почти равен реальному. Именно поэтому в нашей системе есть смысл покупать ссылки с большого количества страниц и их средний PR будет соответствовать действительности (при наличии единичных отклонений в разные стороны).




Все материалы, представленные на сайте fisnyak.ru взяты из открытых источников или присланы посетителями сайта.Содержимое сайта выставляется в целях ознакомления.  Если Вы обнаружили  свою работу, размещенную каким-то пользователем Без Вашего разрешения, просьба связаться с Администрацией сайта. Это касается именно Авторских работ, а не материала собранного в Интернете и размещенного где-то.



прошлые записи нашего сайта!

 Украшения для блогов! Часть 2
 Луна и влияние
 Старые фантазии.
 Сатурн в объективах межпланетной станции...
 Полезные свойства вредных вещей.
 Профессия
 Чего хотят дети?
 Сравниваем мужчину с мальчиком)
 За рулем)
 Закрыт вход на сайт знакомств толстым и ...
 Прикольные Еноты.
 Загадки:-)
 Хотите такой пуфик
 Сон
 Известный фильм про Майя по РТР
 Работы фотографа Dimitri Daniloff.
 Урок по фотошопу!Рисуем анимированный ка...
 Галстуки
 Креативные картинки
 Прикол дня






Теги: задачи, PR рассчитывается, Таблицы ТИЦ и PR, раскрутить сайт, увеличить тиц, Индексы цитирования сайтов Рунета, быстро раскрутить сайт, цели, раскрутка сайта



Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]