5 Feb 2018
Guía SEO: indexación y errores técnicos
Lectura: 14 mins.
|
Dificultad:

Guía SEO: Indexación y errores técnicos

Sabíamos que ya estabais echando de menos otra entrega de nuestra guía sobre cómo desarrollar un proyecto SEO (al final del post, tenéis el índice de todos los artículos publicados), así que hemos vuelto para hablaros sobre cómo auditar la indexabilidad de una web y cómo detectar y corregir los errores técnicos más comunes.

Lo primero que haremos será ver cuántas páginas se están mostrando en los resultados de búsqueda de Google, es decir, qué se está indexando. Antes de nada, es necesario conocer las diferencias entre indexación y rastreo (a veces se tiende a considerar lo mismo, y no es así).

  • Rastreo: Cuando Googlebot (rastreador web o araña) recorre los billones de sitios web que existen en internet, utilizando los diferentes enlaces de las páginas para poder navegar por todo el contenido.
  • Indexación: De ese rastreo anterior, Google recopila las páginas y crea un índice para ayudar al usuario en su búsqueda. En sus resultados priorizará las páginas que le parezcan más interesantes y que mejor encajen con la búsqueda del usuario.

Sabiendo esto, lo que está claro es que cuanto más fácil le dejemos las cosas a Googlebot sobre las páginas que queremos que rastree e indexe, mejor será nuestro posicionamiento.

 

Indexabilidad

En primer lugar, tendremos que saber el número de páginas indexadas en Google y el estado de indexación. Para conocer el número de resultados de nuestra web que muestra Google, es tan sencillo como utilizar el siguiente atajo de búsqueda (quedaros con él porque lo utilizaremos bastante a lo largo del artículo):

site:midominio.com

Por otro lado, accediendo a Search Console (siempre y cuando tengamos acceso), podremos ver el estado de indexación. Esta vista es muy útil para detectar, por ejemplo, las páginas que se han desindexado de manera inintencionada.

Aprovechamos este post para hablar sobre una de las funcionalidades que ha introducido la nueva versión de Search Console y que resulta enormemente útil para detectar URLs concretas que se han excluido de las SERPs.

Entrando en la sección de Cobertura de índice dentro de Search Console, encontramos encontramos lo siguiente:

  • La primera novedad es que ahora Search Console nos permite diferenciar entre la indexación de páginas conocidas, las que el propio Google ha descubierto, y la indexación de páginas enviadas al sitemap, las que hemos considerado relevantes para su indexación. Esto ya nos puede dar una pista, sobre si Google se ha encontrado páginas que no consideramos relevantes o si por el contrario no está indexando otras que sí lo son.
Todas las páginas conocidas
Páginas conocidas.
Páginas enviadas a Search Console
Páginas enviadas al sitemap.

Como podemos observar en este ejemplo, hay una gran discrepancia entre el número de páginas enviadas al sitemap y las páginas conocidas o encontradas por Google.

  • La segunda novedad es que ahora podemos comprobar exactamente las URLs que sí están indexadas y aquellas URLs que han sido excluidas (no indexadas). Respecto a esto último, además podremos ver el motivo por el cuál la URL no se ha indexado. La información es mucho más detallada respecto a la versión antigua (y eso nos encanta).

paginas excluidas search console

 

Sin embargo, si no tengo acceso a Search Console, ¿cómo puedo ver la proporción entre URLs conocidas y las URLs enviadas? Revisando el sitemap de la web, podremos ver cuáles son las páginas “estratégicas”. El objetivo del sitemap es dar pistas a Google sobre las páginas importantes de nuestra web, que siempre deberán ser las canónicas.

Para acceder al sitemap, normalmente se utiliza la siguiente ruta:

midominio.com/sitemap.xml

Decimos normalmente, ya que dependerá de cómo se haya generado. Los sitemaps, a diferencia por ejemplo del archivo robots.txt, puede llamarse como queramos, colocarse donde queramos (aguas arriba del contenido al que referencia), pueden existir varios, juntarse en un sitemapindex e incluso gestionar más de un dominio (aunque tampoco hay que venirse arriba).

Una vez revisado el sitemap e identificadas las URL canónicas, comprobaremos que estas no se están bloqueando en el archivo robots.txt. Este archivo funciona a nivel de servidor y sirve para indicar a robots como Googlebot las URLs que no queremos que visite ni acceda.

La ruta para revisar el archivo robots.txt es la siguiente:

midominio.com/robots.txt

ejemplo archivo robots

También será recomendable indicar la URL del sitemap.

 

Rastreabilidad

Como hemos señalado al principio, uno de los objetivos será facilitar el rastreo al Googlebot para que priorice aquellos documentos o páginas que son importantes. Cuando hablamos del crawl budget o presupuesto de rastreo, nos referimos al tiempo y frecuencia que dedica el Googlebot a visitar nuestra página web. Incrementar el crawl budget mejorará el posicionamiento de nuestra web.

Y es que es lógico, ya que si conseguimos aumentar el tiempo y la frecuencia de rastreo, Google tendrá información más fresca, abundante y correcta de nuestro sitio, síntoma de que nos considera relevantes para responder a las búsquedas de los usuarios en nuestro nicho semántico.

 

Crawl Budget

Para entender el crawl budget, es importante saber cómo se calcula y qué indicadores forman parte de la ecuación.

  • Frecuencia de rastreo: Es el valor diario con el que el Googlebot entra en nuestro site a crawlear en busca de cambios y/o actualizaciones. Dentro de Search Console (versión antigua, en la nueva no lo han incluido todavía), podemos encontrar datos sobre esa frecuencia de rastreo, clasificándolo por páginas rastreadas al día, kilobytes descargados y tiempo de descarga (de ahí la importancia en tener una buena velocidad de carga).

  • Demanda de rastreo: Si no se alcanza el límite de la tasa de rastreo, no hay demanda de la indexación por lo que habrá poca actividad de Googlebot.  ¿Qué factores son determinantes en la demanda de rastreo?
    • Popularidad: Las páginas que son más populares en internet tienden a ser más veces rastreadas que otras.
    • Urls Obsoletas: Google trata de no mostrar en su índice URLs que considera obsoletas o inexistentes.

El crawl budget es una combinación entre la frecuencia de rastreo y la demanda de rastreo. En resumen, es el número de URLs que el Googlebot puede y quiere rastrear.

Factores que afectan en el crawl budget de una web

Muchos de los aspectos que perjudican el crawl budget de una página web están relacionados con errores técnicos SEO, así que vamos a ir viendo algunos de ellos.

 

Thin Content

El thin content hace referencia a páginas sin valor semántico único o con muy poco contenido. Esto, además de afectar al crawl budget, perjudica al posicionamiento de una web.

¿Cómo identificamos el thin content?

Normalmente, este tipo de páginas las encontramos en los últimos resultados de los rankings (técnica muy casera). Utilizando el famoso atajo de búsqueda site:midominio.com y yendo a las últimas páginas, podremos encontrar esta tipología de páginas (en el caso de que existieran).

También puedes probar a usar una herramienta SEO on-page como Screaming Frog y ver qué páginas tienen pocas palabras o repiten su metaetiquetado, por ejemplo. Así además encontraremos páginas que no se indexan pero que hacen perder el tiempo al Googlebot.

 Ejemplos de thin content:

  • Páginas duplicadas o con contenido copiado.
  • Páginas sin contenido o demasiado breve.
  • Páginas Doorway para alterar los rankings. Son creadas a propósito para posicionar para determinados términos. Por ejemplo, crear una página donde hablamos de SEO y otra donde hablamos de Search Engine Optimization. Una práctica que, además de ser muy poco recomendada, está bastante desfasada.
  • Páginas con contenido autogenerado.
  • Páginas de afiliación.
  • Paginaciones irrelevantes de contenido.

Corrigiendo el thin content

Dependiendo del tipo de páginas, se llevarán a cabo diferentes soluciones que pueden ir desde crear una redirección 301 o implementar etiqueta canonical, en el caso de que se trate contenido muy similar a otro, hasta restringir vía robots.txt patrones de parámetros de URL que se están indexando. Más adelante veremos cómo los parámetros también pueden gestionarse vía Search Console.

 

Contenido duplicado

Antes de nada, hay que diferenciar el contenido duplicado que se puede autogenerar en tu web y el contenido duplicado consecuencia de copiarlo de otras fuentes o creado a propósito para alterar los rankings.  Hablaremos del primer caso, ya que el segundo, directamente es una práctica muy penalizada. En un ecommerce, es muy común que se generen URLs con parámetros cuando agregamos algún filtro como talla, precio u ordenación de productos.  Veamos un ejemplo de la web de Zalando.

Filtro de precio: [1€-1650€]

Url: https://www.zalando.es/mujer-rebajas/?price_from=1&price_to=1650

Contenido mostrado

Filtro de precio [1€-1538€]

Url: https://www.zalando.es/mujer-rebajas/?price_from=1&price_to=1538

Contenido mostrado:

Como vemos, el contenido es el mismo, pero las URLs cambian. La generación de estas URLs es en muchos casos inevitable. Sin embargo, tendremos que procurar que el Googlebot no pierda tiempo rastreando estas páginas. Para ello, podemos hacer lo siguiente:

  • Etiqueta Canonical:  En todas las URLs generadas por filtros o atributos y sus combinaciones, apuntamos a la URL canónica (la importante, la que queremos indexar y posicionar).

En el ejemplo anterior de Zalando, en las URLs donde hemos ajustado el precio, tienen etiqueta canónica hacia la URL “buena”:

canonical-tag

De acuerdo, es una buena solución para solventar el problema de duplicidad, pero ojo, estamos hablando de cómo optimizar el presupuesto de rastreo, por lo que si Google sigue rastreando esta URL, el canonical no será suficiente. Veamos más opciones:

  • No index tag: A través de la etiqueta meta name= “robots” content=”NOINDEX, NOFOLLOW”,  indicamos a los robots que no indexen ni sigan los enlaces de esa URL. Sin embargo, para que el Googlebot lea eso, tiene que entrar en el código y leer esa etiqueta.
  • Disallow archivo robots.txt: Esta sería la forma más efectiva para restringir el acceso a googlebot a URLs que no nos interesan que indexe, ni que pierda tiempo en rastrearlas. En el ejemplo anterior, vemos que además de la etiqueta canonical, se ha indicado en el archivo robots que se restrinjan las URLs con esas características. ¿Quieres saber más sobre cómo configurar el archivo robots.txt?
  • Parámetros de URLs en Search Console: Esta función está indicada para ayudar a Google a enteder cómo gestionar los parámetros de las URLs.

Por último, para comprobar que realmente no se están indexando URLs del ejemplo anterior con dichos parámetros, podemos utilizar el siguiente atajo:

site:zalando.es inurl:price_from

A la hora de tomar decisiones entre no permitir el rastreo o no permitir la indexación habrá que definir cuáles son los principales problemas del sitio y priorizar. Dicho de otra forma, si estamos ante un problema de escaso crawl budget la solución generalmente pasará por no permitir el rastreo, sin embargo para sitios con escasa autoridad es posible que nos interese permitir el rastreo para, de esta forma, permitir que el link-juice siga distribuyéndose internamente a través de los enlaces que el rastreador encuentre en nuestro sitio.

 

Enlaces rotos

Google tiene muy asumido que en su tarea de rastreo encontrará páginas de error 404. En ningún caso penalizará a una web por encontrarse páginas con ese protocolo de respuesta. Sin embargo, reducir el número de URLs con error 404 (y “soft 404) mejorará nuestro crawl budget.

¿Cómo detectar los broken links?

Por un lado, podemos recurrir a Search Console (si tenemos acceso). En la versión nueva, lo encontraremos en cobertura del índice, en la pestaña error, nos muestra el siguiente gráfico:

errores 404 search console

Otra opción para detectar los errores 404 es utilizar un crawler tipo Screaming Frog

¿Cómo corregir los errores 404?

La solución más común para solventar los errores 404 es realizar una redirección 301 a una página equivalente (para subsanar tanto el funcionamiento de enlaces externos como los posibles intentos de visita del rastreador) y actualizar los enlaces internos que apuntaban a esa URL de error para traspasar todo el valor.

 

Arquitectura y estructura de los enlaces internos

Como vimos en uno de los post de esta guía, tener una arquitectura web adecuada con una buena estructura de URLs es vital para que los robots puedan navegar e identificar más fácilmente el contenido de tu web.

Por otro lado, los enlaces internos tienen una gran importancia a la hora de priorizar más un contenido que otro. Si una página recibe un alto flujo de enlaces, estaremos aumentando el page-rank de dicha página. Si, por el contrario, vemos que una página estratégica no está recibiendo apenas enlaces, tendremos que llevar a cabo una estrategia de interlinking para potenciar su autoridad.

Esto nos servirá también para mejorar la experiencia del usuario y, por ejemplo, para dar pistas a Google en relación a las páginas que debería mostrar entre nuestros sitelinks.

 

Otras prácticas importantes para optimizar tu crawl budget y facilitarle la vida a Google

Etiqueta hreflang

Lo veremos más adelante cuando hablemos sobre SEO internacional, pero básicamente la etiqueta hreflang es una directiva de Google donde le damos pistas sobre lo que tiene que indexar en función de la geolocalización de la búsqueda. Por ejemplo, para búsquedas desde Francia, indexa la versión francesa de mi web: midmonio.com/fr.

Además, permite establecer equivalencias de contenido entre una versión idiomática y otra, de manera que Google sabrá mucho antes que un contenido es relevante en francés, cuando tiene un equivalente en castellano que es, a su vez, muy relevante.

WPO

Hemos comentado antes que uno de los indicadores del crawl budget es la frecuencia de rastreo, que está altamente relacionada con el rendimiento de tu página web. Así que, ¡mejora la velocidad de carga!

Y ya sabéis que dentro de nada Google volverá a pegarle fuerte a los sitios mobile más lentos…

Paginación

Muy relacionado con lo que hemos visto sobre los parámetros generados en URLs, cuando se añaden filtros, atributos u ordenación de contenido, es muy probable que en ecommerces o portales de contenido donde hay varias páginas, se generen URLs del tipo midominio.com/zapatos/p=3 o midominio.com/zapatos/page/3/.  Hay una práctica sugerida por Google (no obligatoria) donde dice que utilizando los atributos HTML rel=”next” y rel=”prev” podemos señalar la relación existente entre direcciones URL concretas, para que Google las procese como una secuencia lógica.

Básicamente, le estamos diciendo que las páginas forman parte de un todo y que se apañe él a la hora de darles la importancia que estime oportuna. En la práctica, casi siempre tomará la primera página como elemento más importante y, por tanto, será lo que muestre en las búsquedas.

 

Conclusiones

De la misma forma que intentamos optimizar la experiencia del usuario habrá que optimizar la experiencia de rastreo de los bots. Esto ayudará a que Google la próxima vez que nos visite, nos dedique más tiempo, sepa qué páginas son las importantes, las catalogue correctamente en su índice y finalmente las presente entre sus resultados de búsqueda.

Teniendo en cuenta los factores que se han tratado en este artículo nuestro sitio estará listo para que Google nos devuelva todo ese cariño en forma de resultados.

Cerquita del ecuador de esta guía, en la próxima entrega os hablaremos sobre cómo hacer un análisis semántico.