El fichero
robots.txtes un archivo de texto que dicta unas
recomendaciones de indexacióny de comportamiento para los
crawlerso los
robots de los motores de búsqueda(¡ojo! recomendaciones, no obligaciones). Estos crawlers desean
indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo.
El problema brota cuando deseas evitar que ciertas páginas se incluyan en sus índices, ¿Qué haces entonces? Tienes 2 opciones. La primera es
usar una etiqueta especial en cada página(véase Meta Robots) o bien utilizar un
archivo centralizado para supervisar la entrada. Esta última opción es la de robots.txt que es la que vamos a ver en profundidad.
El
Protocolo de Exclusión de Robotso Robots Exclusion Protocol o bien REP es una serie de estándares web que
regulan el comportamiento de los robotsy la
indexación de los motores de búsqueda. El REP consiste en lo siguiente:
Si hablamos de una, las etiquetas REP (noindex, nofollow, unavailable_after) dirigen ciertas labores de los indexadores y en algunos casos (nosnippet, noarchive, NOODP) incluso motores de consultas en el monento de la ejecución de una consulta de búsqueda. Además de las directrices para los rastreadores, cada motor de búsqueda interpreta estas etiquetas REP de forma diferente.
Por ejemplo, Google suprime los listados de URLs únicas y referencias OPD de suscuando un recurso está etiquetado con «noindex», no obstante Bing muestra esas referencias externas a direcciones URL como prohibidas en sus resultados de búsqueda. Como las etiquetas REP pueden ser incorporadas en los elementos META de contenidos X/HTML, así como en las cabeceras HTTP de cualquier objeto web, el consenso es que contenidos con la etiqueta «X-Robots-Tags» deberían inutilizar o cancelar las indicaciones en enfrentamiento que se hallen en los elementos META.ç
Las indicaciones de los indexadores implementadas como
microformatosinvalidarán la configuración de página para determinados elementos HTML. drupal 7 o drupal 8 ejemplo, cuando la etiqueta «X-Robots-Tag» de una página afirma «follow» (no hay valor «nofollow»), la directriz
rel-nofollowde un elemento A (link) se sobrepone.
Aunque robots.txt carece de indicaciones para indexadores, es posible establecer estas directrices para conjuntos de URIs con el scripts en el servidor actuando al mismo nivel web que apliquan a «X-Robots-Tags» para pedir recursos. Este método requiere conocimientos de programación y una buena comprensión de los servidores web y el protocolo HTTP.
Google y Bing tanto entienden 2 expresiones regulares que se pueden utilizar para identificar las páginas o subcarpetas que unquiere excluir de su página web. Estos dos caracteres son el asterisco (*) y el signo de dólar ( dólares americanos ).
El fichero robots.txt es público. Cualquiera puede ver qué secciones ha bloqueado un webmaster de su servidor (mira mi). Esto quiere decir que si un posicionamiento web en buscadores tiene información de usuario privada a la que no desea dejar acceder a nadie (y menos públicamente), debe utilizar un método más seguro como la protección con contraseña para mantener a raya a los curiosos que quieran ver qué páginas confidenciales no desea que se indexen.
Como ya sabrás, los robots o arañas son unos programas que emplean los buscadores para
rastrear la web. Cuando llegan a tu página web, la primera cosa que hacen es buscar el archivo robots.txt y dependiendo de lo que afirme en él, continúan en tu página web o bien se van a otra. Puedes entender el archivo robots.txt como una lista de robots no admitidos, la que te
permite restringir el acceso a tu página web selectivamente. Si hay páginas que prefieres sostener fuera del alcance de los motores de búsqueda, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.
Más concretamente, puedes usar el fichero robots.txt para lo siguiente:
No obstante, hay dos cosas que debes tener en cuenta sobre robots.txt:
Lo primero que necesitas saber sobre el archivo robots.txt es que
no es obligatorio. Sólo necesitas crearlo cuando quieres impedir que ciertas páginas o bien directorios de tu sitio aparezcan en los resultados de búsqueda. Generar el archivo es sencillísimo, es suficiente con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (/robots.txt), que es el sitio donde los los motores de búsqueda esperan localizarlo.
Lo más fácil es crearlo a mano, a través de el bloc de notas o bien cualquier aplicación afín, si bien si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.
Un fichero robots.txt básico puede ser:
Lo que hacen estas instrucciones es rechazar el acceso al directorio “privado” a todos los buscadores. Para esto, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por último se detalla el directorio desautorizado (Disallow: /privado/).
Los comandos que utiliza el fichero robots.txt vienen del llamado Robots Exclusion Protocol, un acuerdo universal cuya sintaxis debes seguir:
Los comandos más importantes son:
Adicionalmente, como comentaba más arriba, puedes utilizar 2 caracteres para aumentar o bien reducir la concordancia:
Con los comandos y comodines se puede crear todo género de limitaciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, en tanto que puedes acabar bloqueando algo que no quieres.
En este sentido, es mejor ceñirse a las restricciones más comunes, como son:
Para asistirte a comprender mejor el funcionamiento del archivo robots.txt me gustaría enseñarte un ejemplo real. analisis marketing digital del mismo fichero que utilizo en este weblog, de ahí que sea un caso orientado a Wordpress.
No obstante, tienes que saber que este fichero quizá NO sea ideal para tí a pesar de emplear Wordpress. Según el caso, es posible que necesites añadir limitaciones, quitarlas, o bien utilizar la etiqueta meta robots. No hay un archivo robots.txt universal, tenlo en cuenta.
Recientemente he actualizado mi archivo robots.txt como prosigue (sin los números de línea):
Ahora me gustaría explicarte cada línea:
Te aconsejo que cuando crees tu archivo compruebes que hace lo que esperas de él. Ten en cuenta que un simple error puede impedir el acceso a los buscadores y ocasionar la pérdida de todos tus rankings. La comprobación es fácil de hacer con las Herramientas para Webmasters de Google, en
Rastreo > URL bloqueadas.
Te voy a enseñar varias opciones, y tu elige la que más te convenga:
¿Ya sabes cómo crear tu
archivo robots.txt?
Hola, qué tal tengo un problema, mi web estaba posicionada en google, pero después de un año renové el diseño y todo cambio, ahora también posicionada, cuando busco algo sobre mi empresa, me aparecen los links antiguos, como podría hacer para que ya no salgan por el hecho de que son bastantes. Gracias
Hola Adrian, mas los contenidos viejos prosiguen publicados o has hecho redirecciones? Si sólo has cambiado el diseño pero no has hecho redirecciones y sigue publicado, hasta que Google no indexe de nuevo los cambios saldrán. Saludos!
Contenido de calidad, prácticamente siempre y en todo momento me voy rapidamente de todos y cada uno de los articulos de internet, en un caso así me lo lei todo, solo te falto un detalle, afirmemos que encontre un nuevo software de scrapeo o similar
Hola Ricardo 😊
Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Ciertamente, Internet es «el sitio de todos» y por esta razón, no siempre y en toda circunstancia hallamos calidad y verdad. Respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se marchan actualizando y, poco a poco, yo también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog.
¡Saludos!
Amo tus contenidos. Son fáciles de comprender, prácticos, concisos y me resultan muy útiles. Entro en uno y ya entonces no puedo parar porque todo me interesa jeje
Gracias por compartir tu experiencia y conocimiento.
Un abrazo y que prosigas sumando éxitos.
Gracias Ingrid,
Me alegra que te agraden mis contenidos y que sean de tu interés. Del mismo modo muchos éxitos! Saludos :)
Tus artículos son estupendos, mas echo en falta vídeos sobre los mismos. Si pudieras hacerlos seria fantástico.
Gracias, por tu aportación
Hola Teresa,
Es algo que tengo pendiente, pero para hacer vídeos necesitas algo muy importante: tiempo, y es algo que, por desgracia, no tengo. Quizás con el tiempo, ya veremos… gracias.
Hola, qué tal tengo un inconveniente, mi web estaba posicionada en google, pero después de un año renové el diseño y todo cambio, ahora también posicionada, cuando busco algo sobre mi empresa, me aparecen los enlaces viejos, como podría hacer para que ya no salgan pues son bastantes. Gracias
Hola Adrian, mas los contenidos antiguos prosiguen publicados o has hecho redirecciones? Si sólo has modificado el diseño pero no has hecho redirecciones y prosigue publicado, hasta que Google no indexe nuevamente los cambios saldrán. Saludos!
Hola Adrian, mas los contenidos viejos siguen publicados o bien has hecho redirecciones? Si sólo has cambiado el diseño pero no has hecho redirecciones y sigue publicado, hasta que Google no indexe nuevamente los cambios saldrán. Saludos!
Contenido de calidad, casi siempre me marcho rapidamente de todos los articulos de internet, en un caso así me lo lei todo, solo te falto un detalle, digamos que encontre un nuevo software de scrapeo o bien similar
Hola Ricardo 😊
Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Ciertamente, Internet es «el sitio de todos» y por esta razón, no siempre encontramos calidad y verdad. Respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se van actualizando y, poquito a poco, yo también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog.
¡Saludos!
Hola Ricardo 😊
Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Ciertamente, Internet es «el lugar de todos» y por este motivo, no siempre y en todo momento encontramos calidad y verdad. Respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se marchan actualizando y, poquito a poco, yo también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog.
¡Saludos!
Amo tus contenidos. Son fáciles de comprender, prácticos, breves y me resultan muy útiles. Entro en uno y ya entonces no puedo parar porque todo me interesa jeje
Gracias por compartir tu experiencia y conocimiento.
Un abrazo y que sigas sumando éxitos.
Gracias Ingrid,
Me alegra que te gusten mis contenidos y que sean de tu interés. Igualmente muchos éxitos! Saludos :)
Gracias Ingrid,
Me alegra que te agraden mis contenidos y que sean de tu interés. Igualmente muchos éxitos! Saludos :)
Tus artículos son estupendos, pero echo en falta vídeos sobre los mismos. Si pudieras hacerlos seria fantástico.
Gracias, por tu aportación
Hola Teresa,
Es algo que tengo pendiente, pero para hacer vídeos necesitas algo muy importante: tiempo, y es una cosa que, por desgracia, no tengo. Quizás con el tiempo, ya veremos… gracias.
Hola Teresa,
Es algo que tengo pendiente, mas para hacer vídeos precisas algo muy importante: tiempo, y es algo que, desgraciadamente, no tengo. Quizás con el tiempo, ya veremos… gracias.