July 22nd, 2014

Каким должен быть правильный сайт.

В прошлой статье – "секреты продвижения сайтов" - меня справедливо несправедливо раскритиковали – я все свожу к ссылкам, такие как я обманывают бедных владельцев сайтов, раскручивают их на бюджеты и так далее.

Ну что же. Поговорим о правильном, с точки зрения поисковых систем, сайте.

Я сейчас специально не буду:

  1. Рассказывать про полезность сайта обществу или лично владельцу. Все это можно прочитать в справках яндекса и гугля.

  2. Про уникальность и нужность текстов на сайте – про тексты будет отдельные публикации.

  3. Про то, каким должен быть код сайта. Это можно узнать, сделав несложный технический аудит сайта – платно или бесплатно. В конце концов главное – содержание сайта, а не как он сделан. Да хоть в ворде – видел я и такие, и ничего.


Расскажу про критические и наиболее распространенные ошибки на сайтах.
Основная ошибка – это дублирование контента (текста). Что это такое?
Возьмем к примеру ЖЖ, благо далеко ходить не надо.
Итак, когда мы пишем пост, не используя врезку "читать далее" (а ее почти никто не использует) на выходи мы получаем два совершенно одинаковых текста – один в новостной ленте сообщений сайта – другой открывается отдельно.
Для робота поисковой системы это разрыв шаблона, который никак толком нельзя скорректировать алгоритмами.
Он видит 2 идентичных текста.
А если мы расставили еще и теги – он видит 2+N таких текстов, где N – количество тегов в записи. А еще есть архивы по датам… Это еще ++ одинаковых записей)
Задача робота – индексировать уникальные (и желательно полезные тексты) К чему, например, держать в базе 500 одинаковых текстов, которые растиражированы на 500 сайтов. Это перерасход ресурсов – никому не нужный.
Но это опять отдельная тема.
Сейчас мы говорим о дублировании текста внутри сайта.

Машинный разум в замешательстве. Что ему надо индексировать?

  1. Несколько одинаковых текста – не надо, это избыточно.

  2. Отдельную страницу – наиболее разумный вариант, чаще всего так и происходит, ибо ИИ робота самобучаем.

  3. А может просто взять все ленты новостей (или теги)  и проиндексировать их разом? Там будет все тоже самое, что на сайте. Но поисковый индекс будет проще – одно дело индексировать 100 отдельных постов, а другое дело – 10 страниц ленты с пагинацией. Дело даже не в месте на диске – оно резиновое, а в поисковом индексе – расчетом связей этих страниц. Для 100 страниц это куда более ресурсоемко, чем для 10.


Ну и пожалуйста, скажете вы – пусть индексирует 10 страниц, вместо 100 – все равно все будет. Это неверно.
Каждая страница, как правило – отвечает отдельному пулу ключей, запросов и по ним ранжируется (участвует в выдаче). А вот общая каша из 10 страниц ничему такому толком не отвечает и не ранжируется нормально.

Такая ситуация называется "полными дублями контента", (хотя формально – они не совсем полные – но с учетом поиска по тегам и календарю – там получается еще большая каша из записей) И на сайте для робота поисковой системы будет бардак.
Который зачастую вообще проще не индексировать (и так часто бывает).

Если же убирать часть записей под спойлер – мы получаем частично дублированный контент – который тоже неприятен, но все же лучше для сайта.
Это одна из самых фатальных ошибок на сайте.

И ей грешат многие блогохостинги и огромное количество систем управления сайтам - ЦМС.
Как с ней бороться – поговорим в другой раз.

О том, что в ЖЖ теги и архивы зарыты для индексации, я в курсе, я взял структуру его для примера негодного сайта.
Вот тут все видно http://crazyseo1.livejournal.com/robots.txt
promo crazyseo1 september 5, 2014 03:35 4212
Buy for 50 tokens
Наверное это называется френдмарафон, но я не понимаю этого слова. Марафон - это когда долго бегут. А тут вроде все сидят на попе ровно, по клаве стучат, никто никуда не бежит. Нет, ну если кто бегает от инфаркта, и на бегу читает ЖЖ, я ж всегда за любой портвейн, кроме водки. Я к чему - вроде и…