Meta Robots: Todo lo que tienes que saber [Guía Completa]

Ivan Larizgoitia

Probablemente ya hayas escuchado hablar sobre ester peculiar término, pero aún no hayas acabado de comprender qué son las etiquetas meta robots y para qué son utilizadas en las páginas web de hoy en día.

Y lo cierto es que sin estas tag, las arañas de búsqueda de Google y otros buscadores tendrían mucho más difícil su tarea de rastreo e indexación de todas las páginas web subidas a la red. Ya lo verás más adelante.

En este artículo aprendéras qué es meta robots, para qué sirven, los distintos tipos de etiquetas de este tipo que existen, así como otra información relacionada con las mismas que te ayudaran a mejorar el rastreo de tu sitio online de forma muy eficaz. ¡Comenzamos! 👇

· ¿Qué es Meta Robots?

A nivel técnico, se conocen como meta robots a unas metaetiquedas HTML insertadas en el código de una página web cuya misión en guiar y dar instrucciones al bot de Google relativas al rastreo e indexación de dicha página en la que se encuentran insertadas.

Gracias a las meta robots, somos capaces de decirle al buscador si queremos que indexe una página, o preferimos que no la incluya en su índice por diveras razones.

📝 Por ejemplo, imagina que no te gustaría que tus páginas de Aviso Legal y Política de Privacidad apareciese como visibile cuando tus usuarios buscan en el buscador tu sitio web. Pues bien, mediante estas metaetiquetas, podrías darle la indicación al buscador para que nos las incluya en su índice genera.

💡 Además, también pueden ser utilizadas para aportar órdenes relativas al seguimiento, o bloqueo, de los enlaces salientes hacia otras páginas externas al sitio web.

· ¿Para qué sirve la meta robots?

La meta robots tiene numerosas aplicaciones y usos. Aunque de forma concisa, pueden ser resumidas en tres funciones principales:

Control de la indexación de una página para que esta aparezca en los resultados de búsqueda [SERP] o no.
Seguimiento de las arañas de Google de los enlaces de sitio que nos dirigen hacia otros sitios online de la web.

✔️ En el caso de los buscadores, la ausencia de estas metaetiquetas suele ser entendida como la permisividad o deseo del webmaster para que el buscador la rastree y la muestre. Es decir, sin hacer nada, ya se intrepreta como un hecho positivo y la muestra.

❌ Por esta razón, tan sólo deberás aplicar y usar la metaetiqueta robots en el caso de que quieras bloquear el acceso de los bots del buscador en esa página en concreto.

👉 Y como ya puedes imaginar, deberás prestar mucha atención a que no estén incluidas en sitios relevantes de tu página web, ya que pasarán a ser «totalmente invisibles» de cara a los internautas.

· Pero, ¿dónde y cómo insertar la metaetiqueta robots?

Es hora de pasar a la acción.

Tras haber comprobado cuáles son los usos principales de las meta robots, toca aprender cómo puedes insertarlas en tu sitio online. Y en realidad, se trata de un proceso realmente sencillo.

👉 Para instaurar metarobots en tu página, deberás introducir la meta etiqueta específica en la sección <head> de tu página. Y esta deberá ir acompaña de dos atributos sin los que no funcionaría:

Name
Content

Ejemplo de implementación de la meta robots:

🔎 Deberás pegar la etiqueta tras la línea de código en la que veas <head> y ,por supuesto, antes de la que ponga <body>.

<html> <head> ... <title>...</title> <meta name="robots" content="noindex" /> ... </head> <body> ... </body> </html>

El atributo meta name hace referencia al tipo de metaetiqueta que estás insertando. En este caso, meta robots.

El atributo content hace referencia al estado en el que quieres que esté tu contenido. En este caso, «noindex», sin indexar. Pero existen muchos otros.

· Atributos Content y Directrices principales

En esta sección de «content» es donde deberás introducir todas y cada una de las directivas que quieras darle a las arañas rastreadoras de Google. Y podrás añadir todas las quqe consideres de la lista que te dejo más abajo.

💡 Eso sí, no olvides separar cada una de ellas por una coma.

Estas son los códigos principales y su significado de cara al buscador.

Directivas de la meta robots:

index / noindex: Se trata de las más conocidas. Y como ya te hemos explicado anteriormente, marca a Google si debe indexar la página en la que se encuentra incluida o no.
follow / nofollow: Le indica al crawl de Google si debe «seguir» el enlace que apunta a otra página y transmitir parte del Page Rank hacia este sitio externo.
archive / noarchive: Ordena al buscador si debe guardar el contenido de esa página en la memoria caché del mismo o no.
snippet / nosnippet: Esta es algo menos freucuente y no recomendamos desactivarla. Le da la órden para que únicamente muestre el título y no la descripción de abajo en los resultados del busador.
translate / notranslate: Para autorizar que se muestre todo el contenido presente en los resultados de búsqueda traducido en distintos idiomas o no.
noimageindex: Tiene el objetivo de evitar la indexación de las miniaturas que aparecen en las SERP.
unavailable_after [RFC-850 date/time]: La última es bastante extraña. E indica a Google si queremos excluir un determinado sitio web del índice a partir de una hora concreta.

· Usos característicos de las meta robots

A modo de ejemplo, nos gustaría traerte dos de los ejemplos más utilizados en este tipo de meta etiquetas.

Además, debes ser plenamente consciente de lo que significan y las implicaciones que tendrán en tu sitio web. Como verás, y al igual que sucede con los footprints, aumentan su efectividad si se combinan entre ellos.

💡 Pero recuerda siempre separarlos mediante una coma.

Index,Nofollow

Esta es una de las meta robots más empleadas que vas a encontrar en paginas web de internet. Ya que permiten la indexación de la página, pero bloquean el seguimiento de enlaces externos.

<meta name="robots" content="index,nofollow" />

Te pongo dos ejemplos muy sencillos en los que puede tener sentido incluirlas:

Tienes una página web en la que debes enlazar a tu competencia o contenidos similares, pero no quieres transmitir ese Page Rank y darle más autoridad a su sitio web.
Tienes que enlazar a una página «noindex» o que está bloqueada por otra razón. Si indicases «Follow» estarías desaprovechando Crawl Budget y perjudicando la indexación general de tu sitio.

Noindex,Follow

En este caso, la frecuencia con la que se da es menor, aunque es recomendable incluirla en todas las páginas no index de tu sitio web que puedan contener enlaces hacia otras partes sí indexables del mismo sitio online.

<meta name="robots" content="noindex,follow" />

Las dos aplicaciones más extendidas de esta meta robtos son las siguientes:

Páginas de Aviso Legal, Política de Cookies y Privacidad en las que se despliegan enlaces a la página home del sitio.
Paginaciones en las que están presentes enlaces a artículos y otras páginas sí indexadas.

· Diferencia principales entre las Meta Robots y el Archivo robots.txt

Esta cuestión es fuente de numerosas dudas y cuestiones entre la gente que comienza en el mundo del SEO. Y tiene todo el sentido.

👉 Tanto las metaetiquetas meta robots como el robots.txt son capaces de indicarle al buscador qué páginas deben indexarse o no indexarse. Y aunque se trate de métodos distintos, ambos son igualmente efectivos para llevar a cabo esta tarea.

Pero a nivel de SEO, sí que existen diferencias que debes considerar para obtener el resultado deseado de la forma más efectiva posible.

📝 Estas tienen que ver principalmente con dos conceptos clave: rastreo e indexación.

Nivel Rastreo: Meta robots vs robots.txt

Para que puedas entender las diferencias a nivel de rastreo entre ambos elementos, debes conocer cuál es el proceso general mediante el que Google analiza y lee un sitio online.

Cuando los archivos de una página son subidos a la web, el primer documento que las arañas intentan localizar es el archivo robots.txt. En este, se incluyen directrices de suma importancia, como la función de <disallow> que, directamente, bloqueda el acceso de las arañas a dicha web.

❌ Por tanto, si no se produce este primer rastreo, el bot de Google nunca será capaz de llegar a las meta etiquetas insertadas en el <head> de la misma. Ya que han sido previamente bloqueadas por el archivo robots.txt

📝 En resumen, Google ni se va a molestar en leer el contenido que hay dentro, ya que le hemos indicado al principio que no lo haga. Independientemente si dentrod el mismo le hemos indicado que lo indexe o no a través de las meta robots.

Ahora bien, imagina el caso contrario.

En el archivo robtos.txt no existe ninguna directriz de bloqueo para el bot. Entonces, ahora sí, Google comenzará con el rastreo de todos los archivos de la página web. Si al acceder al <head> se encuentra con la metaetiqueta «noindex», pues no la mostrará en sus resultados.

✔️ Pero sí habrá empleado tiempo y recursos en leer todo el contenido del sitio.

👉 Y aquí radica la principal difrencia: En ambos casos la URL no se va a indexar ni, por tanto, va a aparecer en los resultados de búsqueda. Pero en el primer ejemplo, no vamos a gastar ningún presupuesto de rastreo, mientras que en el segundo sí, ya que al menos ha tenido que leer hasta llegar al meta robots.

En definitiva, podemos decir que el robots tiene un carácter más general, a nivel de sitio, mientras que el metarobots es más local, a nivel de URL.

Nivel Indexación: Robots.txt vs Meta Robots

Pero la historia entre ambos conceptos no termina ahí. Ya que, por si fuese poco, puede darse otra circunstancia a nivel de indexación que marca una diferencia entre ambos conceptos.

Como hemos comentado anteriomrente, la directiva «disallow» en el archivo robots.txt evitará que Google acceda al sitio o una URL concreta. Y, por tanto, si no la rastrea, es imposible que la indexe.

👉 Bien, esto es en la teoría, porque en la práctica,si esta URL se encuentra enlazada desde otro sitio externo que sí está indexado en el buscador, es posible que las arañes la rastreen y la indexe. Aunque no las muestre de forma completa en sus resultados de búsqueda.

📝 Por ejemplo, habrás descubierto algunas URL sin descripción al introducir el footprint site:tudominio.es y ver todas las páginas indexadas de tu web.

En cambio, con las meta robots con el código <no index>, podrás estar seguro que Google, si la rastrea, no la va a mostrar bajo ningún concepto en su índice de resultados. Ya que así se lo has pedido de forma explícita.

·Alternativa a las meta robots

Por si no fuese suficiente con las metatags robots y el archivo robots.txt, también existen otras posible alternativas para decidir qué contenido indexar o no indexar. Veámoslas de forma muy breve.

Canonicals

En primer lugar, recordarte que en el siguiente enlace tienes una guía completa sobre canonicals. Échale un vistazo para entender a fondo este recurso tan utilizado por webmasters de todo el mundo.

📝 En líneas generales, cuando insertamos una etiqueta canonical en un sitio web, estamos diciéndole al buscador que el contenido a indexar es el otro al que apunta dicha etiqueta. Y puede darse en páginas iguales en el que la única variación se produzca en el certificado de seguridad [http vs https] o en páginas distintas.

En el caso de que sean distintas, pero cuyos contenidos canibalicen por las mismas palabras clave, esta etiqueta va a «pedir» al buscador que no indexe la menos relevante de ambas. Siendo otro recurso utilizado para no indexar ciertos contenidos web.

👉 Aunque, en la práctica, algunas canonicals no funcionan tan bien si dicha página es muy enlazada desde otros sitios de la web. Ya que , por un lado le dices al buscador que esa no es importante y que debe apuntar a la otra, pero está recibiendo muchísima fuerza desde otros sitios de la página web.

Hasta aquí este artículo sobre las etiquetas meta robots y sus implicaciones en un sitio web. Recuerda que si necesitas ayuda profesional para instaurarlas de forma segura en tu página web y evitar problemas de indexación que perjudiquen tu visiblidad web y SEO, puedes contactarnos sin ningún tipo de compromiso.

¿Qué buscas?

Lo más leído

RELACIONADOS