Google puede ver las páginas web como duplicadas si las URL son demasiado similares

Google utiliza un método predictivo para detectar contenido duplicado basado en patrones de URL, lo que podría llevar a que las páginas se identifiquen incorrectamente como duplicadas.

Para evitar el rastreo y la indexación innecesarios, Google intenta predecir cuándo las páginas pueden contener contenido similar o duplicado en función de sus URL.

Cuando Google rastrea páginas con patrones de URL similares y descubre que contienen el mismo contenido, puede determinar que todas las demás páginas con ese patrón de URL también tienen el mismo contenido.

Desafortunadamente para los propietarios de sitios, eso podría significar que las páginas con contenido único se descarten como duplicadas porque tienen el mismo patrón de URL que las páginas que son duplicadas reales. Estas páginas quedarían fuera del índice de Google.

Este tema se discutió durante el Hangout de SEO de Google Search Central grabado el 5 de marzo. El propietario del sitio, Ruchit Patel, le pregunta a Mueller sobre el sitio web de su evento, donde miles de URL no se indexan correctamente.

Una de las teorías de Mueller sobre por qué sucede esto se debe al método predictivo utilizado para detectar contenido duplicado.

Continuar leyendo a continuación

Google sobre la predicción de contenido duplicado

Google tiene varios niveles para determinar cuándo las páginas web tienen contenido duplicado.

Uno de ellos es mirar el contenido de la página directamente y el otro es predecir cuándo las páginas están duplicadas en función de sus URL.

“Lo que suele suceder de nuestro lado es que tenemos varios niveles para tratar de comprender cuándo hay contenido duplicado en un sitio. Y una es cuando miramos el contenido de la página directamente y vemos, bueno, esta página tiene este contenido, esta página tiene un contenido diferente, deberíamos tratarlas como páginas separadas.
La otra cosa es una especie de enfoque predictivo más amplio que tenemos donde miramos la estructura de URL de un sitio web donde vemos, bueno, en el pasado, cuando miramos URL que se ven así, las hemos visto tienen el mismo contenido que URL como esta. Y luego, básicamente, aprenderemos ese patrón y diremos, las URL que se ven así son las mismas que las URL que se ven así ".

Google hace esto para conservar recursos cuando se trata de rastrear e indexar.

Cuando Google piensa que una página es una versión duplicada de otra página porque tiene una URL similar, ni siquiera rastreará dicha página para ver cómo se ve realmente el contenido.

“Incluso sin mirar las URL individuales, a veces podemos decir, bueno, nos ahorraremos un poco de rastreo e indexación y solo nos enfocaremos en estos casos de duplicación supuestos o muy probables. Y he visto que eso sucede con cosas como las ciudades.
He visto que eso suceda con cosas como, no sé, automóviles es otro en el que vimos que sucedió, donde esencialmente nuestros sistemas reconocen que lo que especificas como el nombre de una ciudad es algo que no es tan relevante para las URL reales. Y, por lo general, aprendemos ese tipo de patrón cuando un sitio ofrece mucho del mismo contenido con nombres alternativos ".

Google para detectar contenido duplicado puede afectar los sitios web de eventos:

“Entonces, con un sitio de eventos, no sé si este es el caso de su sitio web, con un sitio de eventos puede suceder que tome una ciudad, y tome una ciudad que esté quizás a un kilómetro de distancia, y las páginas de eventos que muestra que son exactamente los mismos porque los mismos eventos son relevantes para ambos lugares.
Y tomas una ciudad a unos cinco kilómetros de distancia y vuelves a mostrar exactamente los mismos eventos. Y por nuestra parte, eso podría terminar fácilmente en una situación en la que digamos, bueno, verificamos 10 URL de eventos, y este parámetro que parece el nombre de una ciudad es en realidad irrelevante porque verificamos 10 de ellos y mostró el mismo contenido.
Y eso es algo en lo que nuestros sistemas pueden decir, bueno, tal vez el nombre de la ciudad en general es irrelevante y podemos simplemente ignorarlo ".

¿Qué puede hacer el propietario de un sitio para corregir este problema?

Como una posible solución para este problema, Google sugiere buscar situaciones en las que haya casos reales de contenido duplicado y limitarlo tanto como sea posible.

“Entonces, lo que trataría de hacer en un caso como este es ver si tienes este tipo de situaciones en las que tienes fuertes superposiciones de contenido y tratar de encontrar formas de limitar eso tanto como sea posible.
Y eso podría ser usando algo como un canónico rel en la página y diciendo, bueno, esta pequeña ciudad que está justo afuera de la gran ciudad, estableceré el canónico en la gran ciudad porque muestra exactamente el mismo contenido.
De modo que realmente cada URL que rastreamos en su sitio web e indexamos, podemos ver, bueno, esta URL y su contenido son únicos y es importante para nosotros mantener todas estas URL indexadas.
O vemos información clara de que esta URL que conoce se supone que es la misma que esta otra, tal vez haya configurado una redirección o tenga una configuración canónica rel allí, y podemos centrarnos en esas URL principales y aún entender que el aspecto de la ciudad es fundamental para sus páginas individuales ".

Google no aborda este aspecto del problema, pero vale la pena señalar que no hay penalización o señal de clasificación negativa asociada con el contenido duplicado.

A lo sumo, Google no indexará contenido duplicado, pero no se reflejará negativamente en el sitio en general.

Deja una respuesta Cancelar la respuesta