How To Boost Your Site's Crawlability And Indexability

Cómo aumentar la capacidad de rastreo e indexación de su sitio

¿Qué es Robots.txt y cómo funciona? Leiendo Cómo aumentar la capacidad de rastreo e indexación de su sitio 20 minutos Siguiente ¿Qué es un mapa del sitio?

Por Bofu Agence Marketing15 nov 20220 comments

Etiquetas

WordPress

Table of content

La capacidad de rastreo e indexación de Google son los dos factores más importantes que determinan qué tan bien se clasificará su sitio de WordPress en los motores de búsqueda. Si Google no puede rastrear su sitio, no será indexado y no aparecerá en los resultados del motor de búsqueda. Si su sitio no es indexable por Google , no podrá clasificarse para ninguna palabra clave.

El primer paso para asegurarse de que su sitio de WordPress sea rastreable e indexable por Google es crear un mapa del sitio. Un mapa del sitio es un archivo que le dice a Google qué páginas hay en su sitio y en qué orden deben estar. Puede crear un mapa del sitio manualmente o puede usar un complemento como Yoast SEO para generar uno automáticamente.

Una vez que tenga un mapa del sitio, el siguiente paso es asegurarse de que Google indexe todas sus páginas. Puede hacerlo utilizando Google Search Console para enviar su mapa del sitio. También puede utilizar la herramienta Explorar como Google para probar si Google puede rastrear e indexar una página específica de su sitio.

El último paso para garantizar que Google pueda rastrear e indexar su sitio de WordPress correctamente es asegurarse de que no haya errores en su archivo Robots.txt . El archivo robots.txt le indica a Google qué páginas de su sitio no debe rastrear. Si hay algún error en su archivo robots.txt, es posible que Google no pueda rastrear e indexar correctamente su sitio.

Asegurarse de que su sitio de WordPress sea rastreable e indexable en Google es vital para obtener una buena clasificación en los motores de búsqueda. Si sigue los pasos anteriores, puede asegurarse de que su sitio se indexe correctamente y ocupe un lugar destacado en los resultados de los motores de búsqueda.

Las numerosas formas técnicas de influir en el rastreo y la indexación de su sitio web pueden resultar confusas, especialmente cuando las técnicas se utilizan juntas. En este artículo, cubro 6 aspectos técnicos de SEO que se utilizan para influir en la indexación de los motores de búsqueda.

Los 6 aspectos técnicos de SEO son:

Robots.txt
metarobots
Etiqueta canónica -> (Etiqueta canónica combinada con noindex)
Etiqueta Rel=”next”/”prev” -> (La etiqueta Rel=”next”/”prev” se combina con la etiqueta canónica)
Etiqueta Hreflang -> (La etiqueta Hreflang se combina con la etiqueta canónica) / (La etiqueta Hreflang se combina con la etiqueta rel=”next”/”prev”)
Parámetros de la Consola de búsqueda de Google

Los primeros 5 aspectos también se incluyen en un diagrama de flujo que puede encontrar al final de este artículo. Puede seguir este diagrama de flujo página por página para lograr el SEO correcto en la página.

Antes quiero hacer una pequeña advertencia. Ajustar estos aspectos técnicos del SEO puede tener consecuencias importantes. Se recomienda manejar esto con precaución.

Robots.txt

Robots.txt es un pequeño archivo de texto que contiene instrucciones para bots. A través de este archivo, es posible dirigir los bots a nivel de dominio para que no rastreen ciertos dominios, directorios, páginas, archivos o URL específicas. A menudo, la función de búsqueda de un sitio web queda excluida del rastreo mediante robots.txt. Esto se hace porque estas URL no son deseadas en los resultados de búsqueda de un motor de búsqueda. Esto se debe a que (a menudo) no puede optimizar la página de resultados de búsqueda para cada consulta de búsqueda.

Tenga en cuenta que las instrucciones del archivo robots.txt son directrices. No son obligaciones para los bots. El archivo robots.txt siempre está directamente después de la extensión del dominio en la URL. Por ejemplo, https://www.domein.nl/robots.txt. En el caso de un sitio web de WordPress, el archivo robots.txt puede verse así:

 Agente de usuario: *
 No permitir: /wp-admin/ 
Permitir: /wp-admin/admin-ajax.phpMapa del sitio: https://www.domein.nl/sitemap_index.xml

Robots.txt permite al usuario dar instrucciones para todos los bots o solo para un bot en particular: por ejemplo, solo Googlebot o Bingbot . Esto lo indica el “user-agent” y se ve así:

Agente de usuario: Googlebot → Hola Googlebot, bienvenido a mi sitio web. Las siguientes instrucciones son para usted.
Agente de usuario: Bing → Hola Bingbot, bienvenido a mi sitio web. Las siguientes instrucciones son para usted.
Agente de usuario: * → Hola a todos los bots, bienvenidos a mi sitio web. Las siguientes instrucciones son para usted.

El último agente de usuario con un '*' proporciona instrucciones para todos los bots.

Excluir una sola página

Si no desea que se indexe una página, puede excluirla utilizando la instrucción "no permitir". Esto se hace de la siguiente manera:

 Agente de usuario: robot de Google
 No permitir: /Don-tCrawlThisPageExample

 Hola robot de Google, bienvenido a mi sitio web. No tiene permiso para visitar la página /Don-tCrawlThisPageExample.

Excluir una carpeta

Si desea excluir una carpeta completa, utilice:

 Agente de usuario: robot de Google
 No permitir: /Don-tCrawlThisFolderExample

 Hola robot de Google, bienvenido a mi sitio web. No se puede visitar la carpeta /Don-tCrawlThisFolderExample/.

El texto anterior significa que tampoco se pueden visitar las páginas subyacentes. De este modo:
Adiós robot de Google, bienvenido a mi sitio web. Carpeta /Don-tCrawlThisFolderExample/Don-tCrawlThisPageInsideTheFolderExample

Permitir el acceso

También está la instrucción "permitir". Con esto indicas cuándo quieres que se indexe una página. De forma predeterminada, un bot rastrea todo, por lo que no es necesario simplemente agregar páginas con la instrucción permitir. Entonces, ¿por qué existe la instrucción permitir? Podría ser que no desee que un bot rastree una determinada carpeta, pero que algo dentro de esa carpeta pueda rastrearse nuevamente. Luego obtienes:

 Agente de usuario: robot de Google
 No permitir: /Don-tCrawlThisFolderExample/
 Permitir: /Don-tCrawlThisFolderExample/ButCrawlThisPageInsideOfIt

 Hola robot de Google, bienvenido a mi sitio web. La carpeta /Don-tCrawlThisFolderExample/ no puede visitarse
 pero la página "/ButCrawlThisPageInsideOfIt" dentro de esa carpeta sí lo está.

Bloquear URL según caracteres

Además de bloquear carpetas o páginas enteras, también es posible bloquear URL que contengan determinados caracteres. Esto se hace con el carácter '*'. Si agrego lo siguiente en el archivo robots.txt, se bloquearán todas las URL que tengan un signo de interrogación:

 Agente de usuario: robot de Google
 No permitir: /*?
 
Hola robot de Google, bienvenido a mi sitio web. Es posible que no visites todas las URL que contengan un signo de interrogación.

Bloquear archivos

Finalmente, puedes usar el signo de dólar ($) para excluir URL con el mismo final. Si tiene una carpeta con diferentes tipos de archivos, de los cuales desea bloquear solo los archivos pdf, agregue esto:

 Agente de usuario: robot de Google
 No permitir: /*.pdf$

 Hola robot de Google, bienvenido a mi sitio web. No se permite visitar todas las URL que terminan en .pdf.

Mapa del sitio en Robots.txt

La ubicación del mapa del sitio también se puede agregar en Robots.txt. Esto puede ayudar a indexar mejor determinadas páginas del sitio web. El mapa del sitio es una descripción general de todas las páginas de un sitio web.

En realidad, siempre querrás agregar el archivo robots.txt. Especialmente porque puede consultar el mapa del sitio que contiene, lo que puede contribuir a indexar mejor las páginas. También te permite bloquear páginas o carpetas de los motores de búsqueda. Si no ha agregado robots.txt, los bots pueden visitar cualquier cosa desde su sitio web.

La configuración del archivo robots.txt depende completamente del sitio web. Algunos sitios web dan a los bots todo el espacio que necesitan, mientras que otros restringen las visitas. Siempre es bueno considerar si desea que todas las páginas de su sitio web sean visitadas por bots. Al hacerlo, es aconsejable recordar que bloquear una página mediante robots.txt no siempre significa que la página no será indexada. Si hay muchos enlaces externos a esa página, entonces la página podrá indexarse pero el motor de búsqueda no sabrá qué hay en esa página.

metarobots

Los meta robots son instrucciones que se encuentran en el código fuente de su página web. Con estos códigos es posible dar instrucciones a los bots por página de tu sitio web. Colocas los códigos en el

de tu página.

Instrucciones para la mayoría de los bots:

 .

 Hola bot, bienvenido a esta página. No tienes permitido indexar esta página.

Y para un bot específico:



 Hola robot de Google, bienvenido a esta página. No puede indexar esta página y, por lo tanto, no mostrarla en los resultados de búsqueda.

Como se indica en el código anterior, el primer metarobot (noindex) les dice a los bots que no indexen la página. El segundo código instruye específicamente al robot de Google. El metarobot noindex también se puede utilizar para evitar contenido duplicado. Puede optar por no indexar una página SI es demasiado similar a otra página.

Hay más metarobots que puedes usar en una página web. A continuación enumero los metarobots más utilizados:

No seguir

 Código:

 Hola robot de Google, bienvenido a esta página. No puede seguir los enlaces que aparecen en esta página.

Nossnippet

 Código:

 Hola robot de Google, bienvenido a esta página. No puede utilizar la información de esta página en el fragmento de los resultados de búsqueda.

Sin archivo

 Código:

 Hola robot de Google, bienvenido a esta página. En los resultados de la búsqueda, es posible que no muestre la opción "en caché" con este enlace.

No disponible_después

 Código: 

 Hola robot de Google, bienvenido a esta página. Después de esta fecha, es posible que esta página ya no esté indexada.

Sin índice de imagen

Esto evita que un bot indexe imágenes en una página.

 Código:

 Hola robot de Google, bienvenido a esta página. Las imágenes de esta página no deben indexarse.

Ninguno

Esta es una versión abreviada de noindex y nofollow juntos.

 Código:

 Hola robot de Google, bienvenido a esta página. Esta página no debe indexarse y no se deben seguir los enlaces de esta página.

Estas instrucciones se pueden utilizar dentro del código fuente de una página. La instrucción nofollow también se puede utilizar para enlaces a otras páginas dentro de su sitio web u otros sitios web. Luego pasas la instrucción nofollow a un único enlace.

Si desea asegurarse de que un motor de búsqueda no indexe una página, entonces es aconsejable excluir esta página en el archivo robots.txt y colocar un metarobot sin índice en la página.

etiqueta canónica

La etiqueta canónica es una forma de evitar contenido duplicado e indicar qué página es la más importante. Esto se explica mejor mediante un ejemplo. Supongamos que tienes una zapatería WooCommerce y estás mirando todos los zapatos para hombres: https://www.woocommercemen.com/menshoes. Llegas a la página web con todos los zapatos para hombre. A menudo, en una página de este tipo puede filtrar por color, tamaño, marca y más atributos. También es posible clasificar los productos por precio y nombre. Por ejemplo: https://www.woocommercemen.com/menshoes?ord=price. La página predeterminada tiene una etiqueta H1 "zapatos de hombre", posiblemente varias etiquetas H2 y un texto adjunto (contenido).

Si un visitante quiere un pedido de producto diferente, la URL cambia y en realidad tienes una segunda página. Esa segunda página tiene las mismas etiquetas y contenido H1 y H2. Tienes, por así decirlo, la página predeterminada con todos los zapatos de hombre y la misma página, con productos en diferente orden, con el mismo contenido: contenido duplicado. Al utilizar una etiqueta canónica, puede informarle al bot cuál es la página original.

Inserte el siguiente código:

Hola Googlebot, la página https://www.woocommercemen.com/menshoes/ord=price tiene el mismo contenido que https://www.woocommercemen.com/menshoes pero https://www.woocommercemen.com/menshoes es la página al Indice.

Lo mismo se aplica cuando un producto pertenece a varias categorías. Por ejemplo, esto es cierto en el siguiente caso:

https://www.woocommercemen.com/menshoesG (original)
https://www.woocommercemen.com/sport/menshoesG
https://www.woocommercemen.com/brand/menshoesG

En el ejemplo anterior, existen tres páginas para el producto zapato de hombreG. En este caso, tiene sentido etiquetar una de estas páginas como original ( la página con mayor valor, es decir, la página más importante ) y asignar una etiqueta canónica a esta página original para las otras dos páginas:

 https://www.woocommercemen.com/menshoesG (original)

 https://www.woocommercemen.com/sport/menshoesG


 https://www.woocommercemen.com/brand/menshoesG

Si no haces esto, entonces el motor de búsqueda no sabrá cuál es la mejor página para tu sitio web para este contenido y elegirá qué página indexar por sí solo. Para evitar esto, designe usted mismo una página como original para indexar. De esta manera mantienes más control sobre la indexación. Colocas la etiqueta canónica en el encabezado de la página.

Combinando la etiqueta canónica con noindex

Así, lo canónico demuestra ser un medio poderoso para excluir de la indexación páginas con contenido duplicado. Los medios discutidos anteriormente son las etiquetas noindex y nofollow. No es aconsejable utilizar una etiqueta canónica y un meta robot sin índice. En teoría, al hacerlo, estás enviando dos señales. La etiqueta canónica indica que las páginas son (casi) idénticas. Mientras que la etiqueta noindex indica que sus páginas están lejos de ser idénticas. Por lo tanto, utilice la etiqueta sin índice o la etiqueta canónica.

Rel=etiqueta “siguiente”/”anterior”

Si una categoría tiene muchos productos, esa categoría se puede dividir en varias páginas.

Puede especificar la relación entre este contenido paginado en el código fuente de una página web, concretamente en el

. La primera página es (casi) siempre la página de categorías. Por ejemplo: https://www.woocommercemen.com/menshoes.

Si tengo 50 pares de zapatos en una categoría, con 12 zapatos por página, entonces tengo las páginas 1 a 5, que pueden verse así:

https://www.woocommercemen.com/menshoes
https://www.woocommercemen.com/menshoes/?page=2
https://www.woocommercemen.com/menshoes/?page=3
https://www.woocommercemen.com/menshoes/?page=4
https://www.woocommercemen.com/menshoes/?page=5

Como se indicó anteriormente, si tengo varias páginas que pertenecen una tras otra, puedo hacer referencia a la página siguiente en el código fuente de /men shoes:
https://www.woocommercemen.com/menshoes?page=2

Hago esto usando el siguiente código en la página https://www.woocommercemen.com/menshoesG/:

Cuando estoy en la página 2, quiero vincularme a la página anterior y siguiente. En ese caso agrego dos fragmentos de código:

Tenga en cuenta aquí que desde la página dos me refiero a la página de categorías (/menshoes/) y no a /menshoes/?page=1. Si tuviera que hacer esto último, sin usar un canónico, tendría contenido duplicado para la primera página: a saber, /menshoes y /menshoes/?page=1.

Para la página 3, hago referencia a /?page=2 y /?page=4 y así sucesivamente.

La última página ( en este ejemplo, página 5 ) solo tiene una referencia a la página anterior:

.

Es importante ser completo en la implementación de esta etiqueta. Si olvida (un fragmento de) el código en una de las páginas, el bot no verá la relación entre las páginas o no la verá tan bien y comenzará a buscar la relación en sí. Esto puede causar problemas de indexación.

Combinar rel=”next”/”prev” con canónico

Para páginas de categorías con paginación, no desea una página canónica de una página a otra. El código rel=”prev”/”next” refleja la relación entre páginas, lo que evita problemas con contenido duplicado. Algunos CMS colocan automáticamente una etiqueta canónica en cada página. Lo que a menudo sale mal es que las páginas 2 y posteriores tienen una etiqueta canónica que apunta a la primera página.

Si desea utilizar la etiqueta canónica junto con la etiqueta rel="next"/"prev", la etiqueta canónica de la página debe apuntar a sí misma. Entonces la página https://www.woocommercemen.com/menshoes/?page=2 tiene un canónico para sí misma: rel=”canonical” href=”https://www.woocommercemen.com/menshoes/?page=2″ .

Si el canónico de la página 2 se refiere a la página 1, los productos y el contenido de la página 2 no se pueden indexar. Un canónico autorreferencial también se denomina canónico autorreferencial.

etiqueta hreflang

La etiqueta hreflang se utiliza cuando un sitio web tiene varias configuraciones de idioma. Con esta etiqueta es posible remitir bots a versiones del sitio web en otro idioma. Por ejemplo, si tengo https://www.woocommercemen.ro además de la versión en inglés, puedo consultar esta versión en el código fuente. Un motor de búsqueda reconoce la etiqueta hreflang y luego ofrece al visitante la versión correcta del sitio web según la ubicación y la configuración de idioma del visitante.

Esto se hace usando la etiqueta hreflang y se ve así: rel=”alternate” hreflang=”x”. Colocas el código en el

de la página.

Cuando utilice la etiqueta hreflang, tenga en cuenta lo siguiente. El sitio web en inglés debe hacer referencia al sitio web en rumano y viceversa. Por lo tanto, no basta con hacer referencia únicamente desde el sitio web en inglés a la versión rumana. Además, al utilizar esta etiqueta, también debes agregar una parte de autorreferencia. Un pequeño ejemplo:

Código fuente versión en inglés
https://www.woocommercemen.com

Código fuente versión rumana
https://www.woocommercemen.ro

La etiqueta hreflang también le permite configurar su sitio web para regiones lingüísticas. Por ejemplo, Bélgica tiene una parte de habla francesa y otra de habla holandesa.

Entonces puedo configurar mi sitio web para la Bélgica francófona con:

y Bélgica de habla holandesa con:

Tenga en cuenta que esto debe configurarse para cada página del sitio web. Por lo tanto, no basta con establecer una etiqueta hreflang solo en la página de inicio. Por lo tanto, una página de categoría holandesa se refiere a la página de categoría holandesa e inglesa, y viceversa. La página del producto en holandés se refiere a la página del producto en holandés e inglés, y viceversa.

Combinando hreflang con etiqueta canónica

Si desea combinar la etiqueta hreflang con una etiqueta canónica, debe hacer referencia dentro del mismo idioma con la etiqueta canónica. Si me refiero a la versión en inglés de mi sitio web holandés con la etiqueta hreflang, quiero que la versión canónica sea la versión holandesa. Esto se debe a las diferentes señales que envían las dos soluciones. Como se mencionó, la etiqueta canónica indica una preferencia por tener indexadas las páginas más importantes y las menos importantes no. La etiqueta hreflang indica qué otras versiones del sitio web también desea que aparezcan en los resultados de búsqueda. Entonces estas son señales contradictorias.

Para completarlo, a continuación se muestran ejemplos de etiqueta hreflang con etiqueta canónica.

Código fuente versión holandesa

https://www.woocommercemen.nl

Código fuente versión en inglés

https://www.woocommercemen.com

Combinando hreflang con rel=”next”/”prev”

Si está combinando la etiqueta hreflang con la etiqueta rel="next"/"prev", entonces, lógicamente, debe considerar las siguientes cosas. Asegúrese de mantener la misma etiqueta rel="next"/"prev" dentro de una versión de idioma del sitio web. Por lo tanto, no debe utilizar la etiqueta rel="next"/"prev" con una dirección web .com en la versión holandesa del sitio web. Además, una página 2 en holandés debe hacer referencia a la página 2 en holandés y a la página 2 en inglés mediante la etiqueta hreflang.

Debido a que los ejemplos a menudo funcionan de manera más conveniente, he colocado fragmentos de código fuente a continuación.

Código fuente versión holandesa

https://www.woocommercemen.nl/menshoes

Código fuente versión holandesa

https://www.domein.nl/mannenschoenen/?page=2

Código fuente versión en inglés

https://www.woocommercemen.com/menshoes

Código fuente versión en inglés

https://www.woocommercemen.com/menshoes/?page=2

Parámetros de URL de Google Search Console

Con los parámetros de Google Search Console es posible indicar a Google los puntos anteriores. Es posible que uno o más de estos aspectos técnicos no se puedan personalizar en su CMS de WordPress. En ese caso, los parámetros de URL de Google Search Console ofrecen una solución. Si inicia sesión en Google Search Console, puede encontrar la opción de parámetros de URL en la pestaña de rastreo.

Dentro de los parámetros de URL de Google Search Console, puede agregar sus propios parámetros que los visitantes pueden usar para organizar o filtrar contenido.

Después de agregar un parámetro, puede elegir entre dos opciones:

El parámetro no afecta el contenido de la página.
El contenido de la página se modifica, reorganiza o restringe.

Por ejemplo, un parámetro que no afecta el contenido es el ID de sesión. Si tiene un parámetro que afecta el contenido, como una opción de clasificación o un filtro, puede indicar en Google Search Console cómo afecta este parámetro al contenido. La siguiente imagen muestra que el contenido puede verse afectado por ordenar, restringir, especificar, traducir y paginar.

Luego puedes especificar qué debe hacer Google con las URL que contienen este parámetro:

Deje que Googlebot decida: si no está seguro de qué hace el parámetro o si el comportamiento es diferente en varias partes del sitio web.
Cada URL: de esta manera, cada cambio en un parámetro se ve como una URL separada. Utilice esta opción cuando esté seguro de que el contenido cambia al cambiar el parámetro.
Solo URL con valor especificado: esta opción le permite especificar el valor de un parámetro a rastrear. Si hay un parámetro en el sitio web que ordena los productos por precio, puede especificar que solo se rastreen las URL que ordenan los productos por precio de mayor a menor. Las URL que contengan una opción de clasificación de precios de menor a mayor no se rastrearán.
Sin URL: esta opción le permite excluir por completo las URL con un parámetro. Esto puede resultar útil si tiene varios parámetros seguidos en una URL.

Los parámetros de URL de Google Search Console contienen opciones que también se pueden corregir mediante los medios mencionados anteriormente. Por ejemplo, los parámetros que traducen o paginan son la etiqueta hreflang mencionada anteriormente y la etiqueta rel=”next”/”prev”, respectivamente.

Si falla la implementación de una etiqueta en particular, puede lograr lo mismo a través de esta herramienta. Sin embargo, la cuestión es que estas reglas sólo se aplican al motor de búsqueda de Google, mientras que las implementaciones de etiquetas se aplican a (casi) todos los motores de búsqueda.