Justo ahora que le estaba tomando cariño, va a ser duro despedirse…
Dejando las bromas de lado, parece que a Google le preocupa y mucho como los webmasters manejen el contenido duplicado de sus sitios. En este sentido y después del importante cambio que trajo aparejada la etiqueta canonical y el uso que próximamente Google le dará para usarla en distintos sitios, ahora nos recomienda no bloquear determinadas URLs que consideremos como contenido duplicado vía nuestro archivo robotx.txt.
¿Cuál es el problema con el archivo robots.txt y porque Google prefiere que no lo usemos?
Simplemente porque prefiere poder rastrearlas y reconocerlas como contenido duplicado mediante los métodos que ellos recomiendan. La idea que plantean es que al rastrearlas, el robot aprende las reglas para reconocerlas como contenido duplicado y así mejora la indexabilidad del sitio, evitando rastreos innecesarios.
Literalmente dicen: “A better solution is to allow them to be crawled, but clearly mark them as duplicate using one of our recommended methods. If you allow us to crawl these URLs, Googlebot will learn rules to identify duplicates just by looking at the URL and should largely avoid unnecessary recrawls in any case.”
Ya todos sabemos que el contenido duplicado no genera ningún tipo de penalización por parte de Google, pero seguramente tenerlo no te ayude a ti en la indexabilidad de tu sitio y seguramente genere demasiada dispersión de valor en tus Urls (dilución de pagerank).
Por eso y porque a Google le gustan los sitios con una buena estructura de URLs, es que lo mejor es internar disminuir al mínimo los posibles contenidos duplicados de nuestros sitios.
Para esto, Google acaba de dejar una serie de pasos o recomendaciones para manejar el contenido duplicado, que paso a dejárselas resumidas y traducidas:
- Reconocer que tienes contenido duplicado en tu sitio Web.
- Determinar las URLs preferidas.
- Ser coherente dentro de tu sitio Web con las URLs elegidas.
- Aplicar redirecciones permanentes 301 cuando sea necesario y posible.
- Utilizar la etiqueta rel = “canonical” en las paginas que sea posible.
- Utilizar la herramienta para manejar los parámetros de URL en nuestro panel de Webmaster Tools.
Si les interesa en detalle el tema les recomiendo la lectura del texto original del blog Oficial de WebmasterCentral y este video del blog de Matt Cutts.




creo que tendre que desblquear el seguimiento de los tags en mi robots.txt, las unicas paginas que no desbloqueare seran las de login y about.