Problemas de indexación de Google más comunes por tamaño de sitio web

Google es abierto sobre el hecho de que no indexa todas las páginas que puede encontrar. Con Google Search Console, puede ver las páginas de su sitio web que no están indexadas.

Google Search Console también le proporciona información útil sobre el problema específico que impidió que una página se indexara.

Estos problemas incluyen errores del servidor, 404 y sugerencias de que la página puede tener contenido delgado o duplicado.

Pero nunca llegamos a ver ningún dato que muestre qué problemas son los más comunes en toda la web.

Así que ... ¡decidí recopilar datos y compilar las estadísticas yo mismo!

En este artículo, exploraremos los problemas de indexación más populares que impiden que sus páginas aparezcan en la Búsqueda de Google.

📑 Aquí podrás encontrar 👇

Indexación 101

La indexación es como construir una biblioteca, excepto que en lugar de libros, Google se ocupa de los sitios web.

Si desea que sus páginas aparezcan en la búsqueda, deben estar indexadas correctamente. En términos sencillos, Google tiene que encontrarlos y guardarlos.

Luego, Google puede analizar su contenido para decidir para qué consultas podrían ser relevantes.

La indexación es un requisito previo para obtener tráfico orgánico de Google. Y a medida que se indexan más páginas de su sitio web, tiene más posibilidades de aparecer en los resultados de búsqueda.

Por eso es realmente importante que sepa si Google puede indexar su contenido.

Esto es lo que hice para identificar problemas de indexación

Mis tareas diarias incluyen optimizar sitios web desde un punto de vista técnico de SEO para hacerlos más visibles en Google y, como resultado, tengo acceso a varias docenas de sitios en Google Search Console.

Decidí poner esto en práctica para, con suerte, hacer que los problemas de indexación populares ... bueno, menos populares.

Por transparencia, desglosé la metodología que me llevó a algunas conclusiones interesantes.

Metodología

Comencé creando una muestra de páginas, combinando datos de dos fuentes:

  • Usé los datos de nuestros clientes que estaban disponibles para mí.
  • Le pedí a otros profesionales de SEO que compartieran datos anónimos conmigo, publicando una encuesta en Twitter y contactando a algunos SEO directamente.

Excluyendo páginas no indexables

Le conviene dejar algunas páginas fuera de la indexación. Estos incluyen URL antiguas, artículos que ya no son relevantes, parámetros de filtro en el comercio electrónico y más.

Los webmasters pueden asegurarse de que Google los ignore de varias formas, incluido el archivo robots.txt y la etiqueta noindex.

Tener en cuenta esas páginas afectaría negativamente la calidad de mis hallazgos, por lo que eliminé de la muestra las páginas que cumplían con cualquiera de los criterios a continuación:

  • Bloqueado por robots.txt.
  • Marcado como noindex.
  • Redirigido.
  • Devolver un código de estado HTTP 404.

Excluyendo páginas no valiosas

Para mejorar aún más la calidad de mi muestra, consideré solo las páginas que están incluidas en los mapas del sitio.

Según mi experiencia, los mapas de sitio son la representación más clara de URL valiosas de un sitio web determinado.

Por supuesto, hay muchos sitios web que tienen basura en sus mapas de sitio. Algunos incluso incluyen las mismas URL en sus mapas de sitio y archivos robots.txt.

Pero me encargué de eso en el paso anterior.

Categorizar datos

Descubrí que los problemas de indexación populares varían según el tamaño de un sitio web.

Así es como divido los datos:

  • Sitios web pequeños (hasta 10.000 páginas).
  • Sitios web medianos (de 10k a 100k páginas).
  • Grandes sitios web (hasta un millón de páginas).
  • Sitios web enormes (más de 1 millón de páginas).

 

Debido a las diferencias en el tamaño de los sitios web de mi muestra, tuve que encontrar una forma de normalizar los datos.

Un sitio web muy grande que lucha con un problema en particular podría superar los problemas que pueden tener otros sitios web más pequeños.

Así que miré cada sitio web individualmente para ordenar los problemas de indexación con los que luchan. Luego asigné puntos a los problemas de indexación en función del número de páginas que se vieron afectadas por un problema determinado en un sitio web determinado.

Y el veredicto es ...

Estos son los cinco problemas principales que encontré en sitios web de todos los tamaños.

  1. Rastreado: actualmente no indexado (problema de calidad).
  2. Contenido duplicado.
  3. Descubierto: actualmente no indexado (problema de calidad / presupuesto de rastreo).
  4. Suave 404.
  5. Problema de rastreo.

Analicemos estos.

Calidad

Los problemas de calidad incluyen que sus páginas sean delgadas en contenido, engañosas o demasiado sesgadas.

Si su página no proporciona contenido único y valioso que Google quiere mostrar a los usuarios, tendrá dificultades para indexarlo (y no debería sorprenderse).

Contenido duplicado

Google puede reconocer algunas de sus páginas como contenido duplicado, incluso si no fue su intención que eso sucediera.

Un problema común son las etiquetas canónicas que apuntan a diferentes páginas. El resultado es que la página original no se indexa.

Si tiene contenido duplicado, use el atributo de etiqueta canónica o un redireccionamiento 301.

Esto le ayudará a asegurarse de que las mismas páginas de su sitio no compitan entre sí por las vistas, los clics y los enlaces.

Presupuesto de rastreo

¿Qué es el presupuesto de rastreo? Según varios factores, Googlebot solo rastreará una cierta cantidad de URL en cada sitio web.

Esto significa que la optimización es vital; no dejes que pierda el tiempo en páginas que no te importan.

404 suaves

Los errores 404 significan que envió una página eliminada o inexistente para indexarla. Los Soft 404 muestran información "no encontrada", pero no devuelven el código de estado HTTP 404 al servidor.

Redirigir las páginas eliminadas a otras que son irrelevantes es un error común.

Varias redirecciones también pueden aparecer como errores suaves 404. Esfuércese por acortar sus cadenas de redireccionamiento tanto como sea posible.

Problema de rastreo

Hay muchos problemas de rastreo, pero uno importante es un problema con robots.txt. Si Googlebot encuentra un archivo robots.txt para su sitio pero no puede acceder a él, no rastreará el sitio en absoluto.

Finalmente, veamos los resultados para diferentes tamaños de sitios web.

Pequeños sitios web

Tamaño de muestra: 44 sitios

  1. Rastreado, actualmente no indexado (problema de calidad o presupuesto de rastreo).
  2. Contenido duplicado.
  3. Problema de presupuesto de rastreo.
  4. Suave 404.
  5. Problema de rastreo.

Sitios web medianos

Tamaño de la muestra: 8 sitios

  1. Contenido duplicado.
  2. Descubierto, actualmente no indexado (problema de calidad / presupuesto de rastreo).
  3. Rastreado, actualmente no indexado (problema de calidad).
  4. soft 404 (problema de calidad).
  5. Problema de rastreo.

Grandes sitios web

Tamaño de muestra: 9 sitios

  1. Rastreado, actualmente no indexado (problema de calidad).
  2. Descubierto, actualmente no indexado (problema de calidad / presupuesto de rastreo).
  3. Contenido duplicado.
  4. Suave 404.
  5. Problema de rastreo.

Sitios web enormes

Tamaño de muestra: 9 sitios

  1. Rastreado, actualmente no indexado (problema de calidad).
  2. Descubierto, actualmente no indexado (problema de calidad / presupuesto de rastreo).
  3. Contenido duplicado (duplicado, URL enviada no seleccionada como canónica).
  4. Suave 404.
  5. Problema de rastreo.

Conclusiones clave sobre problemas comunes de indexación

Es interesante que, según estos hallazgos, dos tamaños de sitios web sufren los mismos problemas. Esto muestra lo difícil que es mantener la calidad en el caso de grandes sitios web.

  • Más grande que 100k, pero menor que 1 millón.
  • Más de 1 millón.

Las conclusiones, sin embargo, son las siguientes:

  • Incluso los sitios web relativamente pequeños (más de 10.000) pueden no estar completamente indexados debido a un presupuesto de rastreo insuficiente.
  • Cuanto más grande es el sitio web, más urgentes se vuelven los problemas de calidad / presupuesto de rastreo.
  • El problema del contenido duplicado es grave, pero cambia de naturaleza según el sitio web.

PD: Una nota sobre las URL desconocidas para Google

Durante mi investigación, me di cuenta de que hay un problema más común que impide que las páginas se indexen.

Puede que no se haya ganado su lugar en las clasificaciones anteriores, pero sigue siendo significativo, y me sorprendió ver que sigue siendo tan popular.

Hablo de páginas huérfanas.

Es posible que algunas páginas de su sitio web no tengan enlaces internos que las conduzcan.

Si no hay una ruta para que el robot de Google encuentre una página a través de su sitio web, es posible que no la encuentre en absoluto.

¿Cual es la solución? Agrega enlaces de páginas relacionadas.

También puede solucionar este problema manualmente agregando la página huérfana a su mapa del sitio. Desafortunadamente, muchos webmasters aún se olvidan de hacer esto.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir