Todo lo que necesita saber sobre el encabezado HTTP X-Robots-Tag

La optimización de motores de búsqueda, en su forma más básica, se basa en una cosa por encima de todo: las arañas de los motores de búsqueda rastrean e indexan su sitio.
Pero casi todos los sitios web tendrán páginas que no desea incluir en esta investigación.
Por ejemplo, ¿realmente desea que su política de privacidad o las páginas de búsqueda internas aparezcan en los resultados de Google?
En el mejor de los casos, no hacen nada para dirigir activamente el tráfico a su sitio y, en el peor de los casos, pueden desviar el tráfico de las páginas más importantes.
Afortunadamente, Google permite a los webmasters decirles a los robots de los motores de búsqueda qué páginas y contenido rastrear y qué ignorar. Hay varias formas de hacer esto, la más común es usar un archivo robots.txt o la metaetiqueta robots.
Tenemos una excelente y detallada explicación de los entresijos de robots.txt que definitivamente deberías leer.
Pero en un nivel alto, es un archivo de texto simple que se encuentra en la raíz de su sitio web y sigue Protocolo de exclusión de robots (REP).
Robots.txt proporciona a los robots instrucciones para el sitio en su conjunto, mientras que las etiquetas de meta robots incluyen instrucciones para páginas específicas.
Algunas metaetiquetas de robots que puede usar incluyen índiceque le dice a los motores de búsqueda que agreguen la página a su índice; sin índiceque le dice que no agregue una página al índice ni la incluya en los resultados de búsqueda; Yo sigoque le indica al motor de búsqueda que siga los enlaces en una página determinada; no seguirque le dice que no siga los enlaces, y una gran cantidad de otros.
Tanto las etiquetas robots.txt como las meta robots son herramientas útiles para mantener en su caja de herramientas, pero hay otra forma de indicar a los robots de los motores de búsqueda que no indexen ni sigan: X-Robots-Etiqueta.
¿Qué es X-Robots-Tag?
X-Robots-Tag es otra forma de controlar cómo las arañas rastrean e indexan sus páginas web. Como parte de la respuesta del encabezado HTTP a una URL, controla la indexación de una página completa, así como elementos específicos de esa página.
Y aunque usar etiquetas meta para robots es bastante fácil, X-Robots-Tag es un poco más complicado.
Pero esto, por supuesto, plantea la pregunta:
¿Cuándo debería usar X-Robots-Tag?
De acuerdo a esto Google"Cualquier directiva que se pueda usar en una metaetiqueta de robots también se puede especificar como una etiqueta X-Robots".
Aunque puede establecer directivas relacionadas con robots.txt en los encabezados de respuesta HTTP con la etiqueta meta robots y la etiqueta X-Robots, hay ciertas situaciones en las que le gustaría usar la etiqueta X-Robots, las dos más comunes cuando:
- Desea controlar cómo se rastrean e indexan sus archivos que no son HTML.
- Desea servir directivas en todo el sitio en lugar de a nivel de página.
Por ejemplo, si desea bloquear el rastreo de una imagen o video específico, el método de respuesta HTTP lo hace fácil.
El encabezado X-Robots-Tag también es útil porque le permite combinar múltiples etiquetas dentro de una respuesta HTTP o usar una lista de directivas separadas por comas para especificar directivas.
Tal vez no desee que una determinada página se almacene en caché y desee que no esté disponible después de una determinada fecha. Puede usar una combinación de etiquetas "noarchive" y "unavailable_after" para indicar a los robots de los motores de búsqueda que sigan estas instrucciones.
Esencialmente, la fuerza de la etiqueta X-Robots es que es mucho más flexible que la etiqueta meta robots.
La ventaja de usar X-Robots-Tag
con las respuestas HTTP es que le permite usar expresiones regulares para ejecutar directivas de rastreo no HTML, así como aplicar parámetros a un nivel global más amplio.
Para ayudarlo a comprender la diferencia entre estas directivas, es útil clasificarlas por tipo. Es decir, ¿son directivas de rastreo o directivas de índice?
Aquí hay una práctica hoja de trucos para explicar:
directivas de rastreo | Directivas de indexación |
Robots.txt – utiliza las directivas de agente de usuario, permitir, denegar y mapa del sitio para especificar dónde pueden rastrear los robots del motor de búsqueda del sitio y dónde no pueden rastrear. | Metaetiqueta para robots – le permite especificar y evitar la visualización de ciertas páginas del sitio en los resultados de búsqueda de los motores de búsqueda. No seguir – le permite especificar enlaces que no deben transmitir autoridad o PageRank. X-Robots-etiqueta – le permite controlar cómo se indexan ciertos tipos de archivos. |
¿Dónde se coloca la etiqueta X-Robots?
Supongamos que desea bloquear tipos de archivos específicos. Un enfoque ideal sería agregar la etiqueta X-Robots a una configuración de Apache o un archivo .htaccess.
La etiqueta X-Robots se puede agregar a las respuestas HTTP del sitio en una configuración de servidor Apache a través de un archivo .htaccess.
Ejemplos del mundo real y usos de X-Robots-Tag
Entonces, esto suena genial en teoría, pero ¿cómo se ve en el mundo real? Vamos a ver.
Digamos que queremos que los motores de búsqueda no Índice de tipos de archivos .pdf. Esta configuración de servidores Apache se verá así:
<Files ~ ".pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
En Nginx se verá así:
location ~* .pdf$ { add_header X-Robots-Tag "noindex, nofollow"; }
Ahora veamos un escenario diferente. Digamos que queremos usar X-Robots-Tag para bloquear la indexación de archivos de imagen como .jpg, .gif, .png, etc. Puede hacer esto con X-Robots-Tag, que se verá así:
<Files ~ ".(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex" </Files>
Tenga en cuenta que comprender cómo funcionan estas directivas y el impacto que tienen sobre ellas es otro punto crucial.
Por ejemplo, ¿qué sucede si tanto la etiqueta X-Robots-Tag como la metarobots están presentes cuando los rastreadores descubren la URL?
Si esta URL está bloqueada por robots.txt, ciertas directivas de indexación y publicación no se pueden encontrar y no se seguirán.
Si se deben seguir las directivas, no se puede prohibir el rastreo de las URL que las contienen.
Compruebe si hay X-Robots-Tag
Hay varios métodos diferentes que se pueden usar para verificar si hay X-Robots-Tag en un sitio.
La forma más sencilla de comprobarlo es instalar un extensión del navegador que le indicará la información de X-Robots-Tag para la URL.
Otro complemento que puede usar para determinar si se está usando X-Robots-Tag, por ejemplo, es Complemento para desarrollador web.
Al hacer clic en el complemento en su navegador e ir a "Ver encabezados de respuesta", puede ver los diferentes encabezados HTTP utilizados.
Otro método que se puede usar para escalar para determinar problemas en sitios web con un millón de páginas es Screaming Frog.
Después de lanzar un sitio a través de Screaming Frog, puede ir a la columna "X-Robots-Tag".
Esto le mostrará qué secciones del sitio están usando la etiqueta, junto con qué directivas específicas.

Usando X-Robots-Tags en su sitio
Comprender y controlar cómo los motores de búsqueda interactúan con su sitio web es la piedra angular de la optimización de motores de búsqueda. Y X-Robots-Tag es una poderosa herramienta que puede usar para hacer precisamente eso.
Solo tenga en cuenta: no está exento de peligros. Es muy fácil cometer un error y desindexar todo tu sitio.
Sin embargo, si estás leyendo este artículo, probablemente no seas un novato en SEO. Siempre que lo use sabiamente, se tome su tiempo y verifique su trabajo, encontrará que la etiqueta X-Robots es una adición útil a su arsenal.
Más recursos:
Imagen destacada: Song_about_summer/Shutterstock
window.addEventListener( 'load', function() { setTimeout(function(){ striggerEvent( 'load2' ); }, 2000); });
window.addEventListener( 'load2', function() {
if( sopp != 'yes' && addtl_consent != '1~' && !ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'everything-x-robots-tag', content_category: 'seo technical-seo' }); } });
Deja una respuesta