¿Sabía que tiene control total sobre quién rastrea e indexa su sitio, hasta las páginas individuales?
La forma de hacerlo es a través de un archivo llamado Robots.txt.
Robots.txt es un archivo de texto simple ubicado en el directorio raíz de su sitio. Le dice a los "robots" (como las arañas de los motores de búsqueda) qué páginas rastrear en su sitio, qué páginas ignorar.
Aunque no es esencial, el archivo Robots.txt le brinda mucho control sobre cómo Google y otros motores de búsqueda ven su sitio.
Cuando se usa correctamente, puede mejorar el rastreo e incluso afectar el SEO.
Pero, ¿cómo crear exactamente un archivo Robots.txt efectivo? Una vez creado, ¿cómo lo usas? ¿Y qué errores debes evitar al usarlo?
¿Qué es un archivo Robots.txt?
En los primeros días de Internet, los programadores e ingenieros crearon "robots" o "arañas" para rastrear e indexar páginas web. Estos robots también se conocen como "agentes de consumo".
A veces, estos robots se dirigían a páginas que los propietarios de los sitios no querían que se indexaran. Por ejemplo, un sitio en construcción o un sitio web privado.
Para resolver este problema, Martin Koster, un ingeniero holandés que creó el primer motor de búsqueda del mundo (Aliweb), propuso un conjunto de estándares que todo robot debe cumplir. Estos estándares se propusieron por primera vez en febrero de 1994.
El 30 de junio de 1994, varios autores de robots y pioneros de la web llegaron a un consenso sobre los estándares.
Estos estándares se han adoptado como el "Protocolo de exclusión de robots" (REP).
El archivo Robots.txt es una implementación de este protocolo.
REP define un conjunto de reglas que todo robot o araña legítimo debe seguir. Si Robots.txt indica a los robots que no indexen una página web, todos los robots legítimos, desde Googlebot hasta MSNbot, deben seguir las instrucciones.
Nota: Puede encontrar una lista de robots legítimos aquí .
Tenga en cuenta que algunos robots no autorizados (malware, spyware, recopiladores de correo electrónico, etc.) pueden no seguir estos protocolos. Por lo tanto, puede ver el tráfico de los bots en las páginas que ha bloqueado a través de Robots.txt.
También hay robots que no cumplen con los estándares REP, que no se utilizan para nada sospechoso.
Puede ver robots.txt en cualquier sitio web yendo a esta URL:
http: //[website_domain]/robots.txt
Por ejemplo, aquí Robots.txt en Facebook expediente:
Y aquí está Robots.txt en Google expediente:
Usando Robots.txt
Robots.txt no es un documento básico para un sitio web. Su sitio puede posicionarse y crecer perfectamente sin este archivo.
Sin embargo, el uso de Robots.txt ofrece algunas ventajas:
Evite que los bots rastreen carpetas privadas - Aunque no es lo ideal, prohibir que los bots rastreen carpetas privadas hará que sean mucho más difíciles de indexar, al menos que los bots legítimos (como las arañas de los motores de búsqueda).Controlar el uso de los recursos - Cada vez que un bot rastrea su sitio, agota el ancho de banda y los recursos del servidor, recursos que se gastarían mejor en visitantes reales. Para los sitios de alto contenido, esto puede aumentar los costos y brindar a los visitantes reales una mala experiencia. Puede usar robots .txt para bloquear el acceso a scripts, imágenes menores, etc. para ahorrar recursos.Dar prioridad a las páginas importantes - Desea que las arañas de los motores de búsqueda rastreen las páginas importantes de su sitio (como las páginas de contenido) en lugar de desperdiciar recursos excavando en páginas inútiles (como los resultados de las consultas de búsqueda). Al bloquear estas páginas inútiles, puede dar prioridad a las páginas en las que se centran los bots.Cómo encontrar su archivo Robots.txt
Como sugiere el nombre, Robots.txt es un archivo de texto simple.
Este archivo se almacena en el directorio raíz de su sitio web. Para encontrarlo, simplemente abra su herramienta FTP y vaya al directorio de su sitio web en public_html.
Este es un archivo de texto pequeño; el mío tiene poco más de 100 bytes.
Para abrirlo, utilice cualquier editor de texto, como el Bloc de notas. Es posible que vea algo como esto:
Es posible que no vea un archivo Robots.txt en el directorio raíz de su sitio. En este caso, deberá crear un archivo Robots.txt usted mismo.
Así es como:
Cómo crear un archivo Robot.txt
Debido a que Robots.txt es un archivo de texto básico, crearlo es MUY simple: simplemente abra un editor de texto y guarde un archivo vacío como robots.txt .
Para subir este archivo a su servidor, use su herramienta FTP favorita (recomiendo usar WinSCP ) para iniciar sesión en su servidor web. Luego abra la carpeta public_html y abra el directorio raíz de su sitio.
Dependiendo de cómo esté configurado su servidor web, el directorio raíz de su sitio puede estar directamente en la carpeta public_html. O podría ser una carpeta en él.
Una vez que abra el directorio raíz de su sitio, simplemente arrastre y suelte el archivo Robots.txt en él.
Alternativamente, puede crear el archivo Robots.txt directamente desde su editor de FTP.
Para hacer esto, abra el directorio raíz de su sitio y haga clic derecho -> Crear nuevo archivo.
En el cuadro de diálogo, ingrese "robots.txt" (sin comillas) y haga clic en Aceptar.
Debería ver un nuevo archivo robots.txt dentro:
Finalmente, asegúrese de haber configurado el permiso correcto para el archivo Robots.txt. Desea que el propietario, usted, lea y escriba el archivo, pero no otros ni el público.
Su archivo Robots.txt debe mostrar "0644" como código de permiso.
De lo contrario, haga clic derecho en el archivo Robots.txt y seleccione "Permisos de archivo..."
Aquí está: ¡un archivo Robots.txt completamente funcional!
Pero, ¿qué puedes hacer realmente con este archivo?
Luego le mostraré algunas instrucciones generales que puede usar para controlar el acceso a su sitio.
Cómo usar Robots.txt
Recuerde que Robots.txt esencialmente controla cómo interactúan los robots con su sitio.
¿Desea bloquear el acceso de los motores de búsqueda a todo su sitio? Simplemente cambie los permisos en Robots.txt.
¿Quieres impedir que Bing indexe tu página de contacto? También puedes hacer esto.
El archivo Robots.txt por sí solo no mejorará su SEO, pero puede usarlo para controlar el comportamiento del robot en su sitio.
Para agregar o modificar un archivo, simplemente ábralo en su editor de FTP y agregue el texto directamente. Una vez que guarde el archivo, los cambios se reflejarán inmediatamente.
Aquí hay algunos comandos que puede usar en su archivo Robots.txt:
1. Bloquea todos los bots de tu sitio
¿Desea bloquear todos los robots para que no rastreen su sitio?
Agregue este código a su archivo Robots.txt:
User-agent: *
Disallow: / Así es como se verá en el archivo real:
En pocas palabras, este comando le dice a cada agente de usuario
para que no tenga acceso a archivos o carpetas en su sitio.
Aquí está la explicación completa de lo que está sucediendo exactamente aquí: Agente de usuario: * - el asterisco es un símbolo de "sustituto" que se refiere a todo el mundo objeto (como un nombre de archivo o, en este caso, un bot). Si busca "* .txt" en su computadora, se mostrará cualquier archivo .txt. Aquí el asterisco significa que su comando se refiere atodo el mundo agente de consumoProhibir: / - Disallow es un comando de robots.txt que evita que un bot rastree una carpeta. La barra inclinada única (/) significa que aplica este comando al directorio raíz.
Nota:
Esto es ideal si ejecuta cualquier tipo de sitio web privado, como un sitio de membresía. Pero tenga en cuenta que esto evitará que todos los bots legítimos como Google rastreen su sitio. Utilizar con precaución.
2. Impedir que todos los bots accedan a una carpeta específica
¿Qué sucede si desea evitar que los bots rastreen e indexen una carpeta específica?
User-agent: *
Disallow: /[folder_name]/ Por ejemplo la carpeta /images?
Este comando es útil si tiene una carpeta con recursos que no desea saturar con solicitudes de robots. Puede ser una carpeta con scripts menores, imágenes obsoletas, etc.
Nota: La carpeta /images es solo un ejemplo. No estoy diciendo que tengas que bloquear a los bots para que no rastreen esta carpeta. Depende de lo que estés tratando de lograr.
Los motores de búsqueda suelen fruncir el ceño cuando los webmasters impiden que sus bots rastreen carpetas sin imágenes, así que tenga cuidado al usar este comando. A continuación, he enumerado algunas alternativas a Robots.txt para evitar que los motores de búsqueda indexen páginas específicas.
3. Bloquee bots específicos de su sitio
¿Qué sucede si desea bloquear un robot específico, como Googlebot, para que no acceda a su sitio?
Aquí está el comando para ello:
User-agent: [robot name]
Disallow: / Por ejemplo, si desea bloquear Googlebot de su sitio, esto es lo que usaría:
Cada bot o agente de usuario legítimo tiene un nombre específico. La araña de Google, por ejemplo, se llama simplemente "Googlebot". Microsoft también ejecuta msnbot y bingbot. El bot de Yahoo se llama "Yahoo! sorber”.
Para encontrar los nombres exactos de diferentes agentes de usuario (como Googlebot, bingbot, etc.), use este página .
Nota: El comando anterior bloquearía un bot específico de todo su sitio. Googlebot se utiliza solo como ejemplo. En la mayoría de los casos, nunca querrás impedir que Google rastree tu sitio web. Un caso de uso específico para bloquear bots específicos es evitar que los bots que lo benefician ingresen a su sitio y detener aquellos que no son buenos para su sitio.
4. Bloquee el rastreo de un archivo específico
El protocolo de apagado del robot le brinda un control preciso sobre qué archivos y carpetas desea bloquear el acceso del robot.
Este es el comando que puede usar para detener el rastreo de un archivo desde cualquier robot:
User-agent: *
Disallow: /[folder_name]/[file_name.extension] Entonces, si desea bloquear un archivo llamado "img_0001.png" de la carpeta "imágenes", usará este comando:
5. Bloquee el acceso a la carpeta, pero permita que se indexe el archivo El comando "No permitir" impide que los bots accedan a una carpeta o archivo.
El comando Permitir hace lo contrario.
El comando Permitir reemplaza al comando No permitir si el primero se dirige a un solo archivo.
Esto significa que puede bloquear el acceso a una carpeta, pero permitir que los agentes de usuario continúen accediendo a un archivo separado en la carpeta.
Este es el formato a utilizar:
User-agent: *
Disallow: /[folder_name]/
Allow: /[folder_name]/[file_name.extension]/ Por ejemplo, si desea impedir que Google rastree la carpeta de imágenes, pero aún desea darle acceso al archivo "img_0001.png" almacenado en ella, este es el formato que usaría:
Para el ejemplo anterior, se verá así:
Esto dejará de indexar todas las páginas en el directorio / search /.
¿Qué sucede si desea dejar de indexar todas las páginas que corresponden a una extensión específica (como ".php" o ".png")?
Utilizar esta:
User-agent: *
Disallow: /*.extension$ El signo ($) aquí significa el final de la URL, es decir la extensión es la última cadena en la URL.
Si desea bloquear todas las páginas con la extensión ".js" (para Javascript), esto es lo que usaría:
Este comando es especialmente efectivo si desea evitar que los bots rastreen scripts.
6. Evita que los bots rastreen tu sitio con demasiada frecuencia Es posible que haya visto este comando en los ejemplos anteriores:
User-agent: *
Crawl-Delay: 20 Este comando indica a todos los bots que esperen al menos 20 segundos entre las solicitudes de rastreo.
El comando Crawl-Delay se usa a menudo en sitios grandes con contenido actualizado con frecuencia (como Twitter). Este comando le dice a los bots que esperen un tiempo mínimo entre las próximas solicitudes.
Esto asegura que el servidor no se sature con demasiadas solicitudes al mismo tiempo de diferentes bots.
por ejemplo, es Robots.txt en Twitter un archivo que indica a los bots que esperen al menos 1 segundo entre solicitudes:
Incluso puede controlar los retrasos de rastreo para bots individuales. Esto asegura que demasiados bots no rastrearán su sitio a la vez.
Por ejemplo, podría tener un conjunto de comandos como este:
Nota: De hecho, no necesitará usar este comando a menos que esté usando un sitio masivo con miles de páginas nuevas creadas cada minuto (como Twitter).
Errores comunes que se deben evitar al usar Robots.txt El archivo Robots.txt es una poderosa herramienta para controlar el comportamiento de los bots en su sitio.
Sin embargo, también puede provocar un bloqueo de SEO si no se usa correctamente. No ayuda que haya una serie de conceptos erróneos sobre Robots.txt que circulan en línea.
Aquí hay algunos errores que debe evitar al usar Robots.txt:
Error №1 - Usar Robots.txt para evitar la indexación de contenido Si "deshabilita" una carpeta en el archivo Robots.txt, los bots legítimos no la rastrearán.
Pero eso todavía significa dos cosas:
Los bots rastrearán el contenido de la carpeta vinculada desde fuentes externas. Por ejemplo, si otro sitio tiene un enlace a un archivo en su carpeta bloqueada, los bots lo seguirán a través de un índice. Bots malos: spammers, spyware, malware, etc. - generalmente ignora las instrucciones de Robots.txt e indexa su contenido de forma independiente. Esto hace que Robots.txt sea una mala herramienta para evitar la indexación de contenido.
Esto es lo que debe usar en su lugar: use la etiqueta 'meta noindex'.
Agregue la siguiente etiqueta a las páginas que no desea indexar:
<meta name=”robots” content=”noindex”> Este es el método recomendado y compatible con SEO para detener la indexación de páginas (aunque todavía no bloquea a los spammers).
Nota: Si usa un complemento de WordPress como Yoast SEO o All in One SEO; Puedes hacer esto sin editar el código. Por ejemplo, en el complemento Yoast SEO, puede agregar la etiqueta noindex en función de una publicación/página de la siguiente manera:
Simplemente abra y publique / página y haga clic en el diente en el cuadro Yoast SEO. Luego haga clic en el menú desplegable junto a Meta Robot Index.
Además, Google dejará de admitir el uso de "noindex" en los archivos robots.txt a partir del 1 de septiembre. Este artículo más información de SearchEngineLand.
Error №2 - Uso de Robots.txt para proteger contenido privado Si tiene contenido privado, por ejemplo, archivos PDF para un curso por correo electrónico, bloquear el directorio con el archivo Robots.txt ayudará, pero no es suficiente.
Es por eso:
Su contenido aún se puede indexar si está vinculado desde fuentes externas. Además, los bots engañosos aún lo rastrearán.
Un mejor método es mantener todo el contenido privado detrás de la entrada. Esto garantizará que nadie (bots legítimos o fraudulentos) obtenga acceso a su contenido.
La desventaja es que significa que sus visitantes tienen un aro adicional para saltar. Pero su contenido será más seguro.
Error n.º 3: use Robots.txt para detener la indexación de contenido duplicado El contenido duplicado es un gran no-no cuando se trata de SEO.
Sin embargo, usar Robots.txt para dejar de indexar este contenido no es la solución. Una vez más, no hay garantía de que las arañas de los motores de búsqueda no encuentren este contenido a través de fuentes externas.
Aquí hay otras 3 formas de transmitir contenido duplicado:
Eliminar contenido duplicado - Esto eliminará completamente el contenido. Sin embargo, esto significa que diriges los motores de búsqueda a 404 páginas, lo que no es lo ideal. Por lo tanto, no se recomienda borrar .Usar redireccionamientos 301 - A redirección 301 indica a los motores de búsqueda (y a los visitantes) que una página se ha movido a una nueva ubicación. Simplemente agregue redireccionamientos 301 al contenido duplicado para llevar a los visitantes a su contenido original.Agregue una etiqueta rel = "canónica". - Esta etiqueta es una versión "meta" de la redirección 301. La etiqueta "rel = canonical" le dice a Google cuál es la URL original de una página en particular. Por ejemplo, este código:http://ejemplo.com/pagina-original.html "Rel =" canónica "/> Le dice a Google que la página, original-page.html, es la versión "original" de la página duplicada. Si usa WordPress, esta etiqueta es fácil de agregar usando Yoast SEO o All in One SEO.Si desea que los visitantes tengan acceso a contenido duplicado, use rel = "canónico" Si no desea que los visitantes o los bots accedan al contenido, use la redirección 301.
Ten cuidado al implementarlos, porque afectarán tu SEO.
Para ti El archivo Robots.txt es un aliado útil para dar forma a la forma en que las arañas de los motores de búsqueda y otros bots interactúan con su sitio. Cuando se usan correctamente, pueden tener un efecto positivo en su clasificación y hacer que su sitio sea más fácil de rastrear.
Use esta guía para descubrir cómo funciona Robots.txt, cómo se instala y algunas formas comunes de usarlo. Y evitar cualquiera de los errores que discutimos anteriormente.
Deja una respuesta