Un robots.txt es un archivo (sí, del bloc de notas) donde indicamos a los robots (o arañas) de los buscadores, los ellos que rastrean la red, qué contenidos queremos que indexen y cuáles no. De esta manera evitamos que páginas que no nos interese posicionar interfieran en el posicionamiento del resto (o eso dicen). Además, podemos decidir qué robots no deseamos que nos visiten. Al parecer, sus rastreos consumen ancho de banda.
Hay decenas de decenas de robots. Sin embargo, como sabréis por vuestras estadísticas, la mayoría de las visitas proceden de google, yahoo y msn.
Google te explica cómo crear el robots.txt de tu sitio. Una vez hecho podrás modificarlo cuando quieras y tendrás que alojarlo en directorio raíz de tu sitio: tudominio.es/robots.txt.
El robots.txt de El Mundo:
El "Usser-agent:" es la denominación del robot. El de Google es el googlebot, pero no bloquees totalmente a Google!!! ;). El asterisco significa que todos los robots están obligados. Sorpréndete viendo cuántos robots hay.
El Disallow:" es la orden, "no seguir". Lo que está entre las barras son directorios que El Mundo considera que los robots no deben indexar. Por eso nunca encontraréis en google un comentario hecho en uno de sus foros.
Estas dos son las órdenes más sencillas de un robots.txt.
También puedes indicar estas órdenes en las metatags del código de cada página que no quieras que se indexe. Cómo no, google también nos explica cómo usar las metatags de nuestro código.
Sigo pensando...
Punto y (quizá) aparte
Hace 2 meses
No hay comentarios:
Publicar un comentario