Навигатор

Главная
Новости
Учись зарабатывать
Google на ладони
Разное по теме


Чяво?

Описание программы
Как зарегистрироваться
Форма регистрации
Вопросы по Adsense
Инкассо чеков адреса
Инкассо инструкция
Кредитка бесплатно

Добавить в закладки

Google slashdot YahooMyWeb Digg Technorati Delicious Bobrdobr Memori linkstore.ru rumarkz.ru moemesto.ru

Подписаться на rss

Пользователям

Войти


Рассылки@Mail.ru
Заработай в Google Adsense

Рейтинг блогов
читатели сайта в toodoo

Официальный ответ Гугля о пенальти на дублирование контента.

Предлагаю вам вольный перевод недавней статьи Адама Лазника в официальном блоге Гугля на тему какие именно документы и веб-страницы Google считает дубликатами, как этого избежать, и что будет, если на вашем сайте все же найдут дубли.

Хорошей новостью явлается замечание Адама, что, цитирую оригинал, we prefer to focus on filtering rather than ranking adjustments, т.е. реально к дубликатам не применяются штрафные санкции, а фильтры применяются уже к результатам выдачи, в зависимости от поискового запроса.

Итак, вот сама статья:

Искусство обращения с дубликатами контента
На прошедшей в Чикаго конференции «Search Engine Strategies» многим из нас, сотрудников Google, задавали вопросы о дубликатах контента. Это не простая тема и тут есть множество нюансов и некоторая путаница в понятиях, так что мы решили помочь установить истину.

Что считается дубликатами контента?
Дубликатами обычно считают страницы (расположенные внутри одного или нескольких доменов) значительные части которых совершенно одинаковы или заметно схожи с другими страницами. Как правило, это происходит неумышленно или, по крайней мере, не злонамеренно: например, форумы, которые генерируют страницы для обычных пользователей и урезанные по функциональности страницы для доступа посетителей через мобильные устройства. Или, например, одинаковые страницы товаров в интернет-магазинах, которые доступны (и — что еще хуже — пролинкованы) по разным адресам URL. В некоторых случаях контент копируется на несколько разных доменов в попытке манипулирования поисковым рейтингом или с целью получить дополнительный трафик по низкочастотным запросам.

Что не является дубликатами?
Хотя мы и предлагаем пользователям переводчик текста, наши алгоритмы не считают одну и ту же статью, написанную на английском и испанском языках, дубликатами. Также вам не стоит беспокоиться о том, что отдельные небольшие фрагменты текста (цитаты и пр.) могут быть помечены как дубликаты.

Почему Google так волнует вопрос о дубликатах?
Наши пользователи обычно хотят видеть в результатах поиска разнообразные сочетания уникального текста. И их, по понятным причинам, раздражает ситуация, когда в результатах поиска они видят один и тот же текст, многократно повторенный. Кроме того, недовольны и вебмастера, когда мы выдаем в результатах сложные URL (вида example.com/contentredir?value=shorty-george&ln=en) вместо предпочитаемых красивых ЧПУ вида (example.com/en/shorty-george.htm).

Что Google делает по этому поводу?
Во время индексации сайтов нашими роботами и при выдаче результатов поиска мы усиленно стараемся индексировать и показывать ссылки на страницы с отличной от других информаций. Такая фильтрация контента означает, например, что если на вашем сайте есть как обычные варианты статей, так и версии для печати, и ни один из этих наборов не заблокирован в файле robots.txt или через мета-тэг noindex, мы сами выберем один из вариантов для включения в выдачу. В тех редких случаях, когда мы считаем, что клонирование контента произведено с целью манипулирования нашим поисковым рейтингом или для обмана наших пользователей, мы можем внести соответсвующие изменения в механизмы индексации и ранжирования вовлеченных в клонирование сайтов. Однако, мы предпочитаем фокусировать усилия на фильтрации, а не на подкручивании алгоритмов ранжирования, так что, в подавляющем большинстве случаев, самое худшее для вебмастеров, что может произойти — это то, что в SERP мы покажем «не ту» версию страницы, какую они хотели бы там видеть.

Как вебмастеру эффективно решить проблему дубликатов?
Правильное блокирование — вместо того, чтобы позволять нашим алгоритмам определять «лучшую» версию документа, вы можете помочь нам в выборе варианта. Например, если вы не хотите, чтобы мы не индексировали версию для печати — запретите индексацию соответсвующих директорий сайта или используйте регулярные выражения в файле robots.txt

Используйте HTTP 301 редирект — если вы провели редизайн сайта, поставьте 301 редирект («RedirectPermanent») в файле .htaccess для умного перенаправления посетителей и роботов, в том числе и робота Googlebot.

Будьте последовательны — прилагайте усилия для сохранения внутренней ссылочной структуры вашего сайта — не ссылайтесь на одну и ту же страницу разными вариантами типа /page/ /page или /page/index.html

Используйте TLD домены — чтобы помочь нам подобрать наиболее подходящую версию документа, используйте везде, где это возможно, сайты на национальных доменах. У нас больше шансов узнать что контент на сайте в доменной зоне .de ориентирован на немецких пользователей, чем если бы вы разместили его в отдельной директории /de/ на своем сайте, или на поддомене de.site.com

Распространяйте контент с осторожностью — если вы синдицируете свой контент на другие сайты, убедитесь в том, что они ставят обратную ссылку на каждую из оригинальных статей в отдельности. Даже в этом случае имейте в виду, что в выдаче мы покажем ту версию, которую посчитаем наиболее подходящей, исходя из конкретного поискового запроса, и это может быть, а может и не быть предпочитаемая вами версия.

Указывайте предпочтительный домен для сайта — если другие сайты ссылаются на вас в вариантах с www и без в имени сайта, вы можете указать, какой из вариантов предпочтительнее для индексации

Старайтесь поменьше повторяться — например, вместо того, чтобы в конце каждой страницы помещать длинный текст об авторских правах, помещайте краткий текст со ссылкой на полную версию.

Избегайте публикации страниц-заглушек — пользователям не нравится смотреть на пустые страницы.

Постарайтесь не публиковать страницы с отсутствующими обзорами товаров, списков и т.д. так, чтобы посетители вашего сайта (и поисковые роботы) не натыкались на миллионы однотипных пустых страниц «Здесь вы найдете обширный список квартир на продажу в (название города)».
Разберитесь со своей CMS — убедитесь, что вы знаете, как именно показывается контент на вашем сайте, особенно если на вашем сайте есть блог, форум или другие подобные системы, в которых зачастую один и тот же контент показывается несколько раз в разных форматах.

Не беспокойтесь лишний раз — не слишкой волнуйтесь о сайтах, которые воруют ваши тексты. Хотя это и раздражает, очень маловероятно, чтобы эти сайты могли отрицательно повлиять на ваши позиции в Google. Если вы столкнетесь с особо наглым и циничным воровством — отправьте нам DMCA request с притязаниями на авторство контента, и мы разберемся с воришками

Источник: http://gutorov.ru

Похожие публикации:
Google запустил новую версию iGoogle
Заработок и расскрутка
Свежий контент — где его взять
Официальный представитель Google AdSense на форуме forum.searchengines.ru
Мало контента — бан

Добавил в Суббота, 06 января 2007 Раздел: Разное по теме.

Вы также можете прочитать Публикованное ранее

Комментарии (2)”
  1. *Мобильный Павел Понедельник, 08 марта 2010 в 9:13

    Столкнулся с проблемой. Я недавно сделал сайт на ЖЖ на мобильную тематику. А старый сайт с PR=4 скопировал две мои статьи. Теперь они в результатах поиска выше

  2. *Евгений Киселев Воскресенье, 25 апреля 2010 в 15:24

    Все что могу сказать что это частое явление, поисковая система оценила статью в ЖЖ как более ценную для выдачи, чем на сайте оригинале. Возможно это связанно также с соседствующими статьями.

Оставить свое мнение