Breadcrumbs

Breadcrumbs

Importantes para la navegación del usuario y para la navegación del bot de Google (para que pueda navegar entre secciones, por ejemplo).

Lo ideal es tenerlos implementados en todas las páginas y, además, tenerlos marcados con Schema markup (el marcado de Schema que hemos visto antes), cosa que hará que consigamos snippets de búsqueda así:

Uso de Flash e iframes

Seré breve: uso de Flash es caca, no se lee en móviles ni en muchos navegadores.

Iframes: caca. Sinónimo de página metida con calzador para hacer algo raro. A Google no le gustan. Además, si estamos metiendo contenido de la página dentro de iframes, Google no podrá leerlo.

Sitemap

El sitemap es el archivo o archivos que enviamos a Google con el conjunto de URLs que queremos indexar.

Suelen aceptar un máximo de 5.000 URLs y estar divididos por idiomas.

A mí me gusta tener un sitemap principal (un sitemap_index.xml) que contenga los demás sitemaps idiomáticos. Pero, además, me gusta separar los sitemaps de contenido de los de imágenes, porque el bot de Google para imágenes es distinto que el de contenido. Por lo que, siempre que puedas, sepáralos.

Otros errores comunes son incluir dentro de los sitemaps:

● Páginas con status 404

● Páginas con status 301, 302 o 307 ● Páginas con meta robots no index

● Páginas cerradas en el robots.txt

● Páginas que no queremos indexar (categorías, productos o, incluso, las páginas de política de cookies, carrito, login…)

Por cierto, no se te olvide enviar los sitemaps a Google Search Console y a Bing Webmaster Tools. También asegurarte de que tu sitemap está usando protocolos válidos de XML.

Canonicals

La etiqueta Canónical fue presentada por Google, Yahoo! y Bing en el año 2009 para solucionar la problemática de contenido duplicado o similar en SEO.

Si en tu código no existe la etiqueta canónical en un conjunto de páginas con contenido duplicado o similar, los motores de búsqueda tendrán que decidir cuál es la URL que mejor se adapta a lo que está buscando específicamente el usuario. Sin embargo, si introducimos esta etiqueta, somos nosotros los que indicamos a Google y demás buscadores cuál es nuestra página preferida. Esto mejorará el proceso de indexación y posicionamiento de nuestra web en SERPs.

Ejemplo de etiqueta canónical: <link rel=”canonical” href=”http://www.miweb.com/principal” />”

Veamos un ejemplo: si nuestra web es la plataforma desde la que vendemos pisos en el barrio de Chueca, en Madrid y tenemos varias páginas con un contenido muy similar, debemos elegir como canónica aquella URL por la que nos queremos posicionar. Esta puede ser la que nos haya traído más tráfico o la que mayor beneficio aporte.

Para utilizar la etiqueta canónical de manera eficaz en SEO, sólo tienes que seguir estos pasos:

• Elige cuál es la página canónica o principal.

• Decide cuál o cuáles son tus páginas secundarias que pueden competir en el posicionamiento con la principal.

• Añade la etiqueta canonical en las páginas secundarias apuntando a la página principal entre “<head>” y “</head>”

• Pon la etiqueta canonical en la página principal apuntando a sí misma entre “<head>” y “</head>”

Ya hemos hablado de ellas y de su utilidad para evitar contenidos duplicados o ayudarnos a paginar.

Lo importante cuando las usamos es saber distinguir entre URLs canonicals y canonicalizadas.

Una canonical simple puede ser un producto con canonical a si mismo:
https://dominio.com/producto-rojo.html con canonical a https://dominio.com/producto-rojo.html

Una canonicalizada sería el mismo producto azul apuntando al rojo https://dominio.com/producto-azul.html con canonical a https://dominio.com/producto-rojo.html

Si utilizamos un crawler, podremos ver esas URLs canonicalizadas y ver si son consistentes con el contenido que deben tener.
También es importante ver que esas URLs canonicals y/o canonicalizadas no estén cerradas por robots.txt o por meta no index.

Robots.txt

El archivo robots es aquel que ponemos en la raíz del servidor para indicarle a Google qué debe ver, qué no debe ver, qué debe indexar y qué no. Y todo esto podemos especificarlo, además, por bot (Googlebot, Googlebot Mobile, Yahoo, Bing, Slurp…). Es decir, podemos especificar qué ver e indexar por user-agent de la visita que estemos recibiendo.

El robots.txt es crítico para tener control sobre lo que se indexa o no

En este archivo es importante abrir todas aquellas URLs y extensiones de archivo que queramos que vean y/o indexen los bots, especialmente imágenes, CSS y JS. Digo especialmente, porque si Google no puede acceder a dichos archivos, no verá la página como un usuario final (con su maquetación e interacciones) y eso no es bueno.

Lo mismo para las que no queramos que vea/indexe: página de carrito, login, recuperación de password…

Y para los parámetros que no deba seguir como filtros de ordenación, facetas…
¡Ah! y poner también la URL del sitemap, que acostumbramos a dejárnosla.

Etiqueta index / no index / follow / no follow

Dicha etiqueta en el <head> de la página especifica si queremos que Google la indexe o no y si queremos que Google siga sus enlaces o no. Es útil para el link sculpting, una técnica para diseñar la distribución estratégica del pagerank de una web mediante la optimización del enlazado.

Ni debemos indexarlo todo ni dejar que Google siga todos los enlaces

Ni debemos indexarlo todo ni debemos dejar que Google siga todos los links de nuestra página web. Un método para hacer que no los siga son estas etiquetas (en el caso de las follow/no follow pueden especificarse también a nivel de HTML en cada enlace).

A mí me gusta usar un crawler para ver si tengo páginas importantes con etiqueta “no index”.

Páginas sin Analytics

Otro clásico es no tener Analytics en todas las páginas. Sin eso, ni Google tiene estadísticas de todas nuestras URLs, ni las tenemos nosotros. Puedes usar un crawler para comprobarlo o la herramienta gratuita http://gachecker.com

También hay que vigilar de tener una sola propiedad de Analytics por página para evitar problemas como que se nos descantillen las métricas de rebote o de duración de sesión.

“No te conformes con medir el tráfico total de tu portal, mide por secciones, los segmentos avanzados de Google Analytics son tus amigos”

Páginas huérfanas

Las páginas huérfanas son documentos dentro de tu site que no están enlazadas y que no pueden ser rastreadas por un robots de búsqueda (ya que no pueden llegar a ellas).

La mejor forma de encontrarlas es utilizando una herramienta para análisis de logs como las que veremos a continuación.

Obviamente, si nos interesa que un bot llegue a ellas, tendremos que usar el interlinking para conseguirlo.

Por cierto, verás que en el manual he hablado bastante del análisis de logs, pero no he entrado al trapo a fondo en ningún capítulo. Lo de los logs, como imaginarás, da para otro libro entero (como UX o Mobile) aunque hemos hablado de muchos de los aspectos que cubre dicho análisis, como redirecciones, 404, páginas huérfanas…

El análisis de logs es importante para ver diferencias entre un crawleado normal y lo que realmente están bicheando los bots de búsqueda: URLs, hits de cada URL, clústers de URL (páginas de producto, categorías…), frecuencia de rastreo, errores que están encontrando como 4xx/3xx/5xx…

Herramientas para el análisis del SEO técnico

Para crawlear

● ScreamingFrog

● Botify

● Deepcrawl

● FandangoSEO

● Sitebulb

● Ryte ● Moz

Análisis de logs

● ScreamingFrog Log Analyzer

● Botify

● Deepcrawl

● FandangoSEO