Cuánto tiempo antes de que Google indexe mi nueva página (y por qué depende)

¿Estás ansioso por indexar tu nuevo contenido?
Descubra por qué es tan difícil estimar cuánto tiempo puede llevar la indexación y qué puede hacer para acelerar el proceso.
La indexación es el proceso de extraer información de su sitio web, categorizarla y almacenarla en una base de datos. Esta base de datos, el índice de Google, es la fuente de toda la información que puede encontrar a través de la Búsqueda de Google.
Las páginas que no están incluidas en el índice no pueden aparecer en los resultados de búsqueda, sin importar qué tan bien coincidan con una consulta determinada.
Supongamos que recientemente agregó una nueva página a su blog. En su nueva publicación, discute un tema candente, con la esperanza de que le traiga mucho tráfico nuevo.
Pero antes de que pueda ver cómo le va a la página en la Búsqueda de Google, debe esperar a que se indexe.
Entonces, ¿cuánto dura exactamente este proceso? ¿Y cuándo debería comenzar a preocuparse de que la falta de indexación pueda indicar problemas técnicos con su sitio?
¡Vamos a explorar!
¿Cuánto tarda la indexación? Las mejores conjeturas de los expertos
El índice de Google contiene cientos de miles de millones de páginas web y ocupa más de 100 millones de gigabytes de memoria.
Es más, Google no limita cuántas páginas de un sitio web se pueden indexar. Si bien algunas páginas pueden tener prioridad en la cola de indexación, las páginas generalmente no deberían competir por la indexación.
Todavía tiene que haber espacio para una pequeña página más en esta colosal base de datos, ¿verdad? ¿No tienes que preocuparte por la entrada de tu blog? Desafortunadamente, puede que tenga que hacerlo.
Google lo reconoce no se indexarán todas las páginas procesadas por sus robots.
En enero de 2021, el defensor de la Búsqueda de Google, John Mueller, elaboró el tema y reveló que es bastante normal que Google no indexe todas las páginas de un sitio web grande.
Explicó que el desafío para Google es tratar de equilibrar el deseo de indexar tanto contenido como sea posible con la consideración de si será útil para los usuarios del motor de búsqueda.
Por lo tanto, en muchos casos, no indexar un determinado contenido es una elección estratégica de Google.
Google no quiere que su índice incluya páginas de baja calidad, contenido duplicado o páginas que es poco probable que los usuarios busquen. La mejor manera de mantener el spam fuera de los resultados de búsqueda es no indexarlo.
Pero mientras mantenga las publicaciones de su blog valiosas y útiles, aún se indexan, ¿verdad?
La respuesta es complicada.
Tomek Rudzki, un experto en indexación de Onely, una empresa para la que trabajo, estimó que, en promedio, dieciséis% de páginas valiosas e indexables en sitios web populares nunca se indexan.
¿Existe alguna garantía de que su página será indexada?
Como ya habrá adivinado por el título de este artículo, no hay una respuesta definitiva a esta pregunta de indexación.
No podrá configurar un recordatorio de calendario el día en que se deba indexar la publicación de su blog.
Pero muchas personas han hecho la misma pregunta antes, llamando a Googlers y profesionales de SEO experimentados para que brinden algunos consejos.
dice John Müller puede tomar desde unas pocas horas hasta algunas semanas para que una página sea indexada. Sospecha que la mayor parte del buen contenido se selecciona e indexa en aproximadamente una semana.
Un estudio realizado por Rudzki mostró que en promedio 83% de las páginas se indexan en la primera semana de publicación.
Algunas páginas tienen que esperar hasta ocho semanas para ser indexadas. Por supuesto, esto solo se aplica a las páginas que terminan siendo indexadas.
Presupuesto de búsqueda y rastreo
Para que se descubra e indexe una nueva página en tu blog, Googlebot debe rastrear el blog nuevamente.
La frecuencia con la que Googlebot vuelve a rastrear su sitio web sin duda afecta la rapidez con la que se indexará su nueva página, y depende de la naturaleza del contenido y la frecuencia con la que se actualiza.
Los sitios web de noticias que publican contenido nuevo con mucha frecuencia deben volver a rastrearse con frecuencia. Podemos decir que estos son sitios con alta demanda de rastreo.
Un ejemplo de un sitio con baja demanda de rastreo sería un sitio sobre la historia de la herrería, ya que es poco probable que su contenido se actualice con mucha frecuencia.
Google determina automáticamente si el sitio tiene una demanda de rastreo baja o alta. Durante el rastreo inicial, comprueba de qué se trata el sitio web y cuándo se actualizó por última vez.
La decisión de rastrear el sitio con más o menos frecuencia no tiene nada que ver con la calidad del contenido; el factor decisivo es la frecuencia esperada de las actualizaciones.
El segundo factor importante es velocidad de rastreo. Esta es la cantidad de solicitudes que Googlebot puede hacer sin abrumar la tuya servidor.
Si aloja su blog en un servidor con poco ancho de banda y Googlebot nota que el servidor se está ralentizando, ajustará y reducirá la velocidad de rastreo.
Por otro lado, si el sitio responde rápidamente, el límite aumenta y Googlebot puede rastrear más URL.
¿Qué debe suceder antes de que su página sea indexada?
Dado que la indexación lleva tiempo, uno también podría preguntarse: ¿cómo se emplea exactamente este tiempo?
¿Cómo se clasifica e incluye la información de su sitio web en el índice de Google?
Analicemos los eventos que deben ocurrir antes de la indexación.
Descubrimiento de contenido
Volvamos al ejemplo en el que publicaste una nueva entrada de blog. Googlebot necesita encontrar la URL de esta página en el primer paso del proceso de indexación.
Esto puede suceder a través de:
- Seguir enlaces internos usted ha proporcionado en otras páginas de su blog.
- Seguir enlaces externos creado por personas que encontraron útil su nuevo contenido.
- Recorra el mapa del sitio XML que ha subido a Google Search Console.
El hecho de que se encuentre la página significa que Google conoce su existencia y URL.
gateando
El rastreo es el proceso de visitar la URL y recuperar el contenido de la página.
Mientras rastrea, Googlebot recopila información sobre el tema principal de una página, qué archivos contiene esa página, qué palabras clave aparecen en ella, etc.
Después de encontrar enlaces en una página, el robot los sigue a la página siguiente y el ciclo continúa.
Es importante recordar que Googlebot sigue las reglas establecidas por robots.txt para que no rastree las páginas que están bloqueadas por las directivas que proporciona en este archivo.
Representación
La renderización debe realizarse para que Googlebot comprenda tanto el contenido de JavaScript como los archivos de imágenes, audio y video.
Estos tipos de archivos siempre han sido una lucha mayor para Google que HTML.
El defensor de los desarrolladores de Google, Martin Split, comparó el renderizado con cocinar una comida.
En esta metáfora, el archivo HTML inicial de un sitio web con enlaces a otros contenidos es una receta. Puede presionar F12 en su teclado para verlo en su navegador.
Todos los recursos del sitio web, como CSS, archivos JavaScript, imágenes y videos, son los ingredientes necesarios para darle al sitio web su aspecto final.
Cuando el sitio web alcanza este estado, se trata de HTML renderizado, más comúnmente conocido como modelo de objeto de documento.
Martin también dijo que ejecutar JavaScript es la primera etapa del renderizado porque JavaScript funciona como una receta dentro de una receta.
En un pasado no muy lejano, Googlebot solía indexar la versión HTML original de una página y dejaba la representación de JavaScript para más tarde debido al costo y la naturaleza lenta del proceso.
La industria de SEO ha llamado a este fenómeno "las dos olas de indexación".
Sin embargo, ahora parece que las dos olas ya no son necesarias.
Mueller y Splitt reconocieron que hoy en día casi todos los sitios web nuevos pasan por la etapa de representación predeterminada.
Uno de los objetivos de Google es acercar el rastreo, la renderización y la indexación.
¿Puedes indexar tu página más rápido?
No puede obligar a Google a indexar su nueva página.
La rapidez con que esto suceda también está fuera de su control. Sin embargo, puede optimizar sus páginas para que el descubrimiento y el rastreo sean lo más fluidos posible.
Esto es lo que debe hacer:
Asegúrate de que tu página sea indexable
Hay dos reglas importantes a seguir para mantener sus páginas indexadas:
- Debe evitar bloquearlos mediante robots.txt o la directiva noindex.
- Debe marcar la versión canónica de un contenido con una etiqueta canónica.
Robots.txt es un archivo que contiene instrucciones para los robots que visitan su sitio.
Puede usarlo para especificar qué robots no pueden visitar ciertas páginas o carpetas. Todo lo que tienes que hacer es usar la directiva disallow.
Por ejemplo, si no desea que los robots visiten páginas y archivos en la carpeta titulada "ejemplo", su archivo robots.txt debe contener las siguientes directivas:
User-agent: * Disallow: /example/
A veces es posible bloquear por error a Googlebot para que no indexe páginas valiosas.
Si le preocupa que su página no se indexe debido a problemas técnicos, definitivamente debería echar un vistazo a su archivo robots.txt.
Googlebot es cortés y no empujará ninguna página que se le diga que no a la canalización para la indexación. Una forma de expresar tal comando es poner una directiva noindex en:
Asegúrese de que esta directiva no aparezca en las páginas que deben indexarse.
Como comentamos, Google quiere evitar la indexación de contenido duplicado. Si encuentra dos páginas que parecen copias una de la otra, probablemente solo indexará una de ellas.
el canónico etiqueta está diseñado para evitar malentendidos y dirigir inmediatamente a Googlebot a la URL que el propietario del sitio web considera que es la versión original de la página.
Recuerda que el código fuente de una página que quieras que aparezca en el índice de Google no debe apuntar a otra página como canónica.
Enviar un mapa del sitio
Mapa del sitio enumera todas las URL de su sitio web que desea indexar (hasta 50 000).
Puede enviarlo a Google Search Console para ayudar a Google a encontrar el mapa del sitio más rápido.
Con un mapa del sitio, facilita que Googlebot encuentre sus páginas y aumenta las posibilidades de que rastree las que no encontró mientras seguía los enlaces internos.
Es una buena práctica especificar el mapa del sitio en su archivo robots.txt.
Pídele a Google que vuelva a rastrear tus páginas

Puede solicitar el rastreo de URL individuales utilizando Herramienta de verificación de URL disponible en Google Search Console.
Esto aún no garantizará la indexación y requerirá un poco de paciencia, pero es otra forma de asegurarse de que Google sepa que su página existe.
Si corresponde, use la API de indexación de Google
La API de indexación es una herramienta que le permite notificar a Google sobre páginas recién agregadas.
Gracias a esta herramienta, Google puede planificar la indexación de contenido sensible al tiempo de manera más eficiente.
Desafortunadamente, no puede usarlo para las publicaciones de su blog porque esta herramienta actualmente solo está diseñada para páginas de ofertas de trabajo y videos en vivo.
Si bien algunos profesionales de SEO usan la API de indexación para otros tipos de páginas, y puede funcionar a corto plazo, es dudoso que siga siendo una solución viable a largo plazo.
Evite que el servidor de su sitio se sobrecargue
Finalmente, no olvide garantizar un buen ancho de banda en su servidor para que Googlebot no disminuya la velocidad de rastreo de su sitio web.
Evite el uso de proveedores de alojamiento compartido y asegúrese de realizar pruebas de estrés periódicas a su servidor para asegurarse de que pueda manejar la tarea.
Resumen
Es imposible predecir exactamente cuánto tiempo llevará indexar su página (o si alguna vez sucederá), porque Google no indexa todo el contenido que procesa.
La indexación generalmente se lleva a cabo horas o semanas después de la publicación.
El mayor obstáculo para la indexación es el rastreo rápido.
Si su contenido cumple con los umbrales de calidad y no hay obstáculos técnicos para la indexación, primero debe ver cómo Googlebot rastrea su sitio para indexar contenido nuevo rápidamente.
Antes de que una página se reenvíe a la canalización de indexación, Googlebot la rastrea y, en muchos casos, muestra imágenes, videos y elementos de JavaScript incrustados.
Los sitios web que cambian con más frecuencia y, por lo tanto, tienen una mayor demanda de rastreo se vuelven a rastrear con más frecuencia.
Cuando Googlebot visite su sitio web, igualará la velocidad de rastreo en función de la cantidad de solicitudes que pueda enviar a su servidor sin sobrecargarlo.
Por lo tanto, vale la pena cuidar el buen ancho de banda del servidor.
No bloquees Googlebot en robots.txt porque no rastreará tus páginas.
Recuerda que Google también respeta la metaetiqueta de robots noindex y, por lo general, solo indexa la versión canónica de la URL.
Más recursos:
Imagen destacada: Kristo-Gothard Hunor / Shutterstock
window.addEventListener( 'load', function() { setTimeout(function(){ striggerEvent( 'load2' ); }, 2000); });
window.addEventListener( 'load2', function() {
if( sopp != 'yes' && addtl_consent != '1~' && !ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'how-long-before-google-indexes-my-new-page', content_category: 'seo technical-seo' }); } });
Deja una respuesta