Yo desde que inicie en el mundo de los sitios web, note que en muchos proyectos libres para crear tu propio foro, blog u otro sitio, en todos incluían el archivo robots.txt y no sabia para que servia, pero después de iniciar con mi blog empece a averiguar todo lo que pude y ahora entiendo la importancia de este archivo de texto.
¿Que es y para que sirve robots.txt?
Robots.txt es un archivo de texto donde se especifican los permisos para que los robots de los buscadores puedan indexar tu sitio web en los resultados, esto a primera instancia suena bien, pero voy a dar una breve explicación sobre la edición optima de este archivo de texto, ya que algunos dicen que solo con optimizar su archivo robots.txt mejoraron 1400% el trafico en su sitio web.
La creación el archivo robots.txt
El ejemplo que manejare esta basado en el archivo de WordPress que utilice para mi blog, pero puede ser fácilmente editado para cualquier otro tipo de pagina web.
Para iniciar se deben especificar los permisos a los robots para evitar que entren en lugares privados o entrar a lugares donde puedan encontrar información duplicada, por ejemplo entrar en categorías, tags o feeds, en ellos encontrara los mismos artículos que tenemos desde la pagina principal y a los buscadores les molesta encontrar tanta información repetida en un sitio, porque para ellos significa que no es un sitio confiable o con buen contenido.
Primero debemos especificar a que robot es al que le estamos dando los permisos, para eso utilizamos User-agent, por ejemplo:
(el signo de numero «#» se utiliza para los comentarios)
# Permisos para todos los robots
User-agent: *
...
# Permisos para Google
User-agent: Googlebot
...
# Permisos para Yahoo!
User-agent: Slurp
...
Para poder negar el acceso utilizamos Disallow o podemos permitirlo usando Allow (se recomienda solo utilizar Disallow, ya que por default todo tiene acceso al menos que tu no lo permitas usando Disallow), por ejemplo:
# Negando el acceso a todo el sitio
Disallow: /
# Negando el acceso a todo lo que inicia con la palabra pagina (en la raíz o carpeta especifica)
Disallow: /pagina # /paginacion.html, /pagina_acceso.php, /paginas/, etc.
Disallow: /documentos/pagina # /documentos/pagina-actual.doc, /documentos/pagina_anterior/, etc.
# Negando el acceso a la carpeta privado y todo su contenido
Disallow: /privado/
Disallow: /imagenes/fotos/
# Negando el acceso a un archivo
Disallow: /archivo.html
Disallow: /subido/cosas.zip
# Permitiendo el acceso a todo
Disallow:
# Permitiendo el acceso a todo (se recomienda usar solo Disallow)
Allow: / # Para algunos robots el parámetro Allow puede dar errores
Crear los permisos para todos los robots
Ahora vamos a especificar a donde no permitiremos el acceso a todos los robots, de esa forma sera genérico el tipo de acceso para todos los robots y después podremos especificar solo algunas diferencias para algunos robots en especifico, por ejemplo:
# Para todos los robots
User-agent: *
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /acerca-de/
Disallow: /contacto/
Disallow: /categoria/
Disallow: /feed/
Disallow: /trackback/
Crear los permisos para algunos robots específicos
Existen un gran numero de robots, por ejemplo:
- Google – Googlebot
- Yahoo – Slurp
- Altavista – Scooter
- Lycos – Lycos_Spider_(T-Rex)
- Excite – ArchitextSpider
- Alltheweb – FAST-WebCrawler/
Ahora especificaremos a que parte no deseamos que entre un robot en especifico, en este caso los robots de Google y Yahoo, pero primero tengo que explicar que estos robots permiten el uso de otros parámetros para hacer mas eficiente la declaración de permisos, permiten el uso de asteriscos (*) para declarar que puede ir cualquier cosa en esa parte, y también usa el signo de moneda ($) para declarar el final del contenido o texto, por ejemplo:
# Para no permitir las paginas que usan variables GET (cosas después de "?")
Disallow: /*?* # /pagina.php?var1=valor&var2=otro
# Para no permitir archivos con extensión ".php"
Disallow: /*.php$ # /pagina.php, /entrada.php, etc.
# Para no permitir todo lo que inicie con wp-
Disallow: /wp-* # /wp-include/, /wp-content/, etc.
Mi recomendación para Google:
# Para el robot de Google
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.gz$
Disallow: /*?*
Mi recomendación para Yahoo:
# Para el robot de Yahoo
User-agent: Slurp
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.gz$
Disallow: /*?*
Mi recomendación para robot de imágenes de Google (busca imágenes para colocar en sus resultados) y el robot de Google Adsense (hace búsquedas para ver que publicidad puede colocar en tu sitio web):
# Permitir todo a Google Image
User-agent: Googlebot-Image
Disallow:
# Permitir todo a Google Adsense
User-agent: Mediapartners-Google*
Disallow:
Entra las recomendaciones me encontré también un robot que dicen es una molestia y para evitar que sature el sitio con peticiones y que tome nuestro contenido para duplicar o cosas por el estilo, es recomendable evitar que tenga acceso al sitio:
# Evitar el acceso de duggmirror
User-agent: duggmirror
Disallow: /
Agregar un sitemap del sitio
El sitemap como tal lo explicare con mas detalle en otro articulo, por ahora solo queda explicar que es recomendable agregar la ruta completa del sitemap en el archivo de texto robots.txt, porque es una manera rápida y sencilla para los robots de encontrar el contenido y agregarlo en los resultados.
Para agregarlo no hacen falta mas parámetros mas que agregar Sitemap con su respectiva ruta, por ejemplo:
# Mapa del sitio
Sitemap: http://www.pagina.com/sitemap.xml
Resultado final
Por ultimo dejo un resultado final de como debería quedar el archivo de texto robots.txt optimizado, solo quedara esperar para notar la diferencia en algunos días o semanas, ya que por desgracia no podemos acelerar el proceso de los robots y el indexado a los resultados de los buscadores.
# Para el robot de Google
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.gz$
Disallow: /*?*
# Permitir todo a Google Image
User-agent: Googlebot-Image
Disallow:
# Permitir todo a Google Adsense
User-agent: Mediapartners-Google*
Disallow:
# Para el robot de Yahoo
User-agent: Slurp
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.gz$
Disallow: /*?*
# Evitar el acceso de duggmirror
User-agent: duggmirror
Disallow: /
# Para todos los robots
User-agent: *
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /acerca-de/
Disallow: /contacto/
Disallow: /categoria/
Disallow: /feed/
Disallow: /trackback/
# Mapa del sitio
Sitemap: http://www.pagina.com/sitemap.xml
Para mayor información: Robotstxt.org
Habia visto que mucha gente mencionaba la importancia de este documento, pero nunca habia sabido para que valia. Gracas por aclaralo y por la buena explicacion decomo optimizarlo.
Un saludo.
Es muy complicado. por ejemplo yo necesito un esquema de código para colocar en los robots mi blog.Me gustaria me des un ejemplo especifico de lo que puedo yo hacer en ese caso.
Mi blog es ENFERMEDADES Y TRATAMIENTOS entra mediante el link: http://enfermedadytratamiento.blogspot.com
Bueno tu en este caso utilizas Blogger, tengo entendido que ellos colocaron un robots.txt por default, puedes utilizar el que coloco al final como ejemplo solo elimina la ultima parte de los Disallow: o puedes intentar utilizarlo de esta forma.
Blogger genera un Sitemap, por lo que no lo necesitas y además lleva un tiempo notar cambios, pero pruebalo de todas formas.
Saludos.
Desde donde comienzo a pegar el código, pues no se desde donde es cuando voy a mi codigo html
Todo este texto se agrega en el archivo robots.txt
# Para el robot de Google
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.gz$
Disallow: /*?*
# Permitir todo a Google Image
User-agent: Googlebot-Image
Disallow:
# Permitir todo a Google Adsense
User-agent: Mediapartners-Google*
Disallow:
# Para el robot de Yahoo
User-agent: Slurp
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.gz$
Disallow: /*?*
# Evitar el acceso de duggmirror
User-agent: duggmirror
Disallow: /
# Para todos los robots
User-agent: *
Disallow: /cgi-bin/
Disallow: /search/
que tiempo mas o menos tardare en ver los resultados del robot y de como cuantas visitas aseguramoos con eso
Algunos dicen que puede llevar hasta 2 semanas en notar una diferencia significativa, otros dicen que hasta un 1400% mejoro después de cambiar los parámetros de los robots.
Y sobre tener seguro algo la verdad nada es seguro, yo acabo de colocarlo hace una semana y continuo con mi trafico normal, las recomendaciones siempre son tener información de calidad y publicar constantemente pero sin excederse o te tacharan de spammer.
Saludos.
Gracias hermano. Te agradezco la informacion.
El mejor aporte para un blog es este.
Gracias por tu aporte.
Por más que chequeo mi archivo html de mi blog MUSIC VIDEOS LMTP no logro encontrar en donde esta el robot ¿Por qué será?
Es que deseo hacerle un robot diferente para aumentar mis visitas ¿Que hago?
El archivo robots.txt no esta dentro de ningún HTML debes crear el archivo como archivo de texto (.txt), y debes colocarlo por FTP en la raíz de tu pagina web.
http://tupagina.com/robots.txt
Como «ver» los sitemaps o contenidos de una pagina web . Como buscarlo con Google y encontrarlo.
Hay una manera con site:www.xxxx.html, pero en muchos casos no funciona. Te agradezco la respuesta.
No entendi que quieres hacer, los sitemaps son archivos xml y no son de facil entendimiento para las personas, a diferencia de los robots que saben como interpretar esa informacion para indexarlo en los buscadores.
Saludos.
oye pero como puedo ponerlo desde mi escritorio de wordpress, teniendo en cuenta que es un blog de http://www.wordpress.com no de esos donde el hospedaje esta en otro servidor y subes wordpress para editar tu pagina web. En los escritorios de blog no hay opcion plugins, ni tampoco lo de permalinks , gracias por tu respuesta.
Si no puedes manipular directamente el archivo robots.txt por medio de FTP o con permisos por el mismo host, no podrás hacer alguna modificación, creo que blogger permite ese tipo de movimientos, pero no estoy 100% seguro.
Saludos.
Valla Hermano, te felicito por tan grandiosa explicacion acerca de los robots.txt
Te dire que andaba buscando algo de esto ya que me intento dedicar a trabajar en esto de las paginas web y en tu sitio he encontrado una maravilla de explicacion, hay otros sitios en los cuales explican pero ninguno como el tuyo.
Felicidades! Se ve que sabes de lo que hablas.
Por cierto… Aqui les dejo una pagina para que validen sus robots.txt, es de sencillo manejo y ademas les va diciendo lo que esta mal en sus robots.txt y les da la oportunidad a que lo corrijan y hasta les entrega un distintivo para que lo coloquen en su web.
http://tool.motoricerca.info/robots-checker.phtml
Reciban un gran saludo, suerte y adelante! 🙂
Hola Happy: Te cuento que ete artículo está excelente hermano, la verdad desde hace días venía buscando una explicación bien detallada y con argumentos claros acerca del archivo robots.txt y aquí la encontré. Muchas gracias por compartir esta valiosa información.
Saludos!
Simplemente graaaciiiaaass!!
hace semanas que vengo buscando esta info,aunque yo uso blogger,no encontraba ningun modelo que pueda adaptar o para orientarme. :biggrin: :biggrin:
Asi que ya mismo la pruebo y despues cuento si sirvio para mejorar mi trafica 😎
Nuevamente gracias y muy buen sitio!!!!!!!!
Hola yo queria si me pueden explicar donde encuentro el archivo de mi robots porque en mi pagina no lo encuentro, o el que publicaste vos lo copio y lo pego en que parte de mi blog no entiendo si como entrada, como gagets o en el codigo html
muchas gracias
Entra por FTP si no tienes un archivo llamado robots.txt, entonces necesitaras crearlo y dentro debes colocar las lineas que están al final del post, ya después solo subelo por FTP y listo.
Ese archivo debe ser accesible de esta forma: http://tusitio.com/robots.txt
Saludos.
que es ftp lo q pasa q soy nuevo
Verifica en tu panel de administración, desde ahí deberías poder editar o subir algún archivo, desde ahí sube el archivo robots.txt
no me deja editar mi robot
la verdad q no me deja subir ningun archivo no encuentro eso
Acabo de notar que usas Blogger, lamento decirte que en Blogger no puedes hacer modificaciones, solo Google decide que puede ir en tu archivo robots.txt.
Necesitas tener tu propio hosting para poder colocar el robots.txt.
Saludos.
uhhh bueno muchas gracias amigo me gustaria tenerte en facebbok o tu msn gracias
Puedes contactarme tanto en «Acerca de» y en «Contacto»
Igual te dejo mi facebook: http://facebook.com/elhappy
Saludos.
Que buena labor haces Happy, he visto y seguido esta conversación y me encuentro que no puedo subir mi txt a blogger, o al ménos no tengo ni puñetera idea. Es cierto que soy un principiante y me cuesta aprender tánta palabra rara aunque avanzo pero quisiera saber si me podéis decir ( explicado en plan principiante) como subo el txt al directorio raiz y donde se encuentra el directorio raiz de blooger. Muchas gracias!! :whistle:
Lo siento, pero como había comentado en el #27, Blogger no permite subida de archivo robots.txt, se generan en automático.
Necesitarías comprar un dominio y hospedaje web para poder hacer todas esas personalizaciones a un sitio web, en los servidores gratuitos no puedes hacer cambios. 🙁
Me surge una duda, ya en teoria se que tipo de codificacion me conviene, pero como la puedo agreagar a mi web? Cualquier ayuda es bienvenida y gracias de antemano.
Muy buena la aportación! no se ve mucha información de calidad acerca del robots.txt, probaremos como nos cuentas a ver que tal funciona. Pero veo que tu código no funcionaria a quien tenga, por ejemplo, en wordpress, las entradas o paginas como *.php, verdad? Y crees que es buena idea no indexar los tags o las categorías? Mejor solo las entradas? Gracias!
Estoy sorprendido Happy. Este es un magnífico artículo sobre el archivo robots.txt y la verdad resolviste todas mis dudas. Muchas gracias por tu esfuerzo en publicar este excelente recurso.
Muy buen artículo happy. Pero te voy a contradecir en una cosa: Blogger SI permite modificar robots.txt. Tenemos que ir a «configuración», «preferencias de búsqueda», «Archivo robots.txt personalizado: si» y nos aparece debajo un formulario de texto donde escribimos las nuevas lineas del robot.
Gracias por el aviso ElAbducido, hace dos años no tenia esa modalidad, pero es bueno saber que ya se puso las pilas Blogger.
Buen articulo gracias por apoyarnos a los que iniciamos en este arte, y a la vez contribuimos en algo a tu crecimiento. :blink:
Saludos a todos
soy nuevo en esto de archivos robot y blogger y todo eso
tengo una pagina web http://www.peliculasv.com y quisiera saber cuales codigo serian buenos para poner como robot en la parte de Archivo robots.txt personalizad y Etiquetas de encabezado de robots personalizadas
Alguien ayudeme PLease