tecnologia

Páginas duplicadas

Los Gestores de Contenido como Joomla! generan varias URLs que apuntan a la misma página. Si no se controlan inundan los buscadores y pueden perjudicar el SEO, o promoción de nuestra web, y el rendimiento de nuestro sitio aunque no sean penalizadas por Google, Bing, Yahoo y otros buscadores.

Contenido duplicado

Es sorprendente la cantidad de URLs que generan las "Extensiones" de los Gestores de Contenido como Joomla! inundando los buscadores de basura. Por ejemplo, este sitio con poco más de 150 páginas ha llegado a tener indexadas en Google más de 1500 URLs.

Por lo visto hay que utilizar Extensiones de pago para reducir este problema y no estoy seguro de su eficacia. Me pregunto por qué Joomla! no incluye en su núcleo alguna solución a este tema. Podría ser suficiente dar la opción a marcar como canónicas las direcciones del sitemap.

Buceando por internet he visto que aconsejan definir bien la estructura del sitio web antes de difundirlo (para evitar cambios posteriores) y tener el fichero robots.txt en el directorio raíz con instrucciones que restrinjan el acceso de los buscadores a ciertas partes de nuestro sitio. No obstante estoy comprobando que hay buscadores que no atienden al fichero robots.txt e indexan páginas que finalmente acaba capturando Google.

También se aconseja utilizar el plugin "canonical" para Joomla! para remarcar la URL principal de cada página, pero yo no lo utilizo porque deja de funcionar el componente etiquetas (Tags). Hay otras extensiones de pago que no he comprobado.

Así que de vez en cuando reviso los índices de Google y voy eliminando manualmente, una a una, las nuevas URLs duplicadas que van apareciendo.

Proceso de rastreo e indexación de URLs

El objetivo de los motores de búsqueda de Google, Bing, Yahoo, etc. es rastrear la Web, recopilar las URLs e indexarlas para presentar los mejores contenidos a los usuarios. No obstante, la existencia de páginas con contenido repetido entorpece la labor de los buscadores, limita el número de páginas que se rastrean y perjudica al rendimiento de nuestro sitio en los resultados de búsqueda.

El caso es que los Gestores de Contenido como Joomla! generan de forma automática una gran cantidad de páginas, que son necesarias para el funcionamiento interno pero que inundan los buscadores con contenido repetido.

Ejemplo, las siete páginas que se relacionan a continuación tienen el mismo contenido. En el índice solo debería figurar la primera, las demás habría que evitar que sean rastreadas e indexadas por los buscadores.

  • www.revistilla.es/actualidad/10-manualidades-portal-de-labores.html
  • www.revistilla.es/actualidad/10-manualidades-portal-de-labores.html?cal_offset=0n
  • www.revistilla.es/actualidad/10-manualidades-portal-de-labores.html?cal_offset=0p
  • www.revistilla.es/actualidad/10-manualidades-portal-de-labores.html?cal_offset=0p?cal_offset=0n
  • www.revistilla.es/actualidad/10-manualidades-portal-de-labores.html?cal_offset=0p?cal_offset=0p
  • www.revistilla.es/actualidad/10-manualidades-portal-de-labores?cal_offset=-1n
  • www.revistilla.es/actualidad/10-manualidades-portal-de-labores?cal_offset=-1p

Para sustraer a los rastreadores directorios y páginas de nuestro sitio web he visto varios métodos. Nos centraremos en los dos más comunes.

Configurar archivo robots.txt para limitar acceso a los robots

Los buscadores tienen robots que entran en los servidores y rastrean las páginas web y su contenido para clasificarlas en sus índices. Además de rastreadores también se les denomina indexadores, bots, arañas y spiders.

Pues bien el archivo robots.txt es un fichero de texto que se incorpora en el directorio raiz de nuestro sitio web con instrucciones para indicar a cada robot las áreas a las que no debe acceder (seguridad) y los enlaces que no debe indexar para evitar contenido duplicado que perjudique el SEO. También hay que incluir el sitemap o mapa del sitio para informar a los robots sobre las direcciones que nos interesan.

Ha de advertirse que las instrucciones del archivo robots.txt no garantizan el bloqueo de las áreas y enlaces sino que son recomendaciones para los buscadores y se confía en que lo respeten (Google, Bing, Yahoo …), aunque pueden ser ignorados. Sin embargo es muy conveniente cuidar el contenido del archiv545o robots.txt.

Al instalar un Gestor de Contenidos como Joomla! o WordPress se construye automáticamente un archivo robots.txt con instrucciones básicas que conviene revisar. El archivo robots.txt tiene que estar situado en el directorio raíz del sitio web. Con los comandos y comodines se puede crear todo tipo de restricciones. Las más comunes son las siguientes:

User-agent:* Incluir todos los robots
User-agent: Googlebot Intrucciones inmediatamente debajo se refieren al robot de Google
Disallow: / Denegar todo el sitio
Disallow: Permite la entrada a todo el sitio
Disallow: /directorio/ Deniega la entrada al directorio (/  /)
Disallow: /palabra-*/ Deniega acceso a directorios que comienzan por "palabra-"
Disallow: /2014/* Deniega acceso al direcciones que empiecen por /2014/
Disallow: /página.html Deniega acceso a una página (/    )
Disallow: /palabra Deniega acceso a directorios y páginas que comienzan por “palabra” 
Disallow: /*? Deniega páginas con ?
>Disallow: /*.php$ Deniega direcciones acabadas en .php ($ indica terminación)
Allow: /*?option=com_wma Autoriza la indexación de esta dirección
Sitemap: http://midominio/sitemap  Indica a los robots laruta donde está el mapa del sitio

 

Para evitar el contenido duplicado hay que indicar al robot que indexe únicamente la dirección principal de la cada página y no indexe otras direcciones que lleven a la misma página. Esto para los buscadores, es contenido duplicado. De ahí la importancia de saber configurar el archivo robot.txt para evitar esto.

Importante: Hay que poner cuidado con la utilización del carácter “*”. No es lo mismo “Disallow: /carpeta”, que bloquea todo el contenido de carpeta, que “Disallow: /*carpeta”, que bloquea todas las direcciones que contengan la palabra carpeta.

Cuando se tenga definido el fichero robot.txt, es conveniente verificar su funcionamiento para asegurar que no bloquea URLs erroneamente. En Herramientas para Webmaster de Google (Rastreo -> URLs bloqueadas) es posible probar diferentes URLs con nuestro archivo robots.txt para saber si están permitidas por éste o son bloqueadas.

Tener en cuenta que si el fichero robots.txt deniega el rastreo de las páginas con signo de interrogación "?", también deniega el rastreo del fichero "sitemap" porque éste tiene en su URL el carácter "?" (http://www.nombre-web.es/index.php?option=com_xma ...), para evitarlo hay que poner una instrucción que permita al buscador el acceso a esta URL. La instrucción es "Allow" para la URL del sitemap:

  • Allow: /*?option=com_xma ...

Y conviene añadir también la dirección del sitemap para que los motores la lean cada vez que rastrean.

  • Sitemap: http://wwwnombre-web.es//index.php?option=com_xma ...

Realizados los cambios en el archivo robots.txt hay que subirlo al servidor y esperar unos días a que Google lo actualice (es preferible hacer esto antes de difundir la web) Se puede hacer seguimiento de la actualización en "Herramientas para webmaster de google -> Rastreo -> URLs bloqueadas.

Ejemplo práctico de configuración del archivo robot.txt en Joomla!. Al instalar Joomla se crea automaticamente un archivo robots.txt con unas instruccionens básicas

  • User-agent: *
  • Disallow: /administrator/
  • Disallow: /cache/
  • Disallow: /components/
  • Disallow: /images/
  • Disallow: /includes/
  • Disallow: /installation/
  • Disallow: /language/
  • Disallow: /libraries/
  • Disallow: /media/
  • Disallow: /modules/
  • Disallow: /plugins/
  • Disallow: /templates/
  • Disallow: /tmp/
  • Disallow: /xmlrpc/

Estas instrucciones restringen el acceso de los robots a contenido del funcionamiento interno del sitio. Sin embargo no es suficiente porque los Gestores de Contenidos generan varias direcciones para una misma página que perjudica el SEO. Por otra parte este robots.txt desautoriza el acceso al directorio de imágenes y esto tampoco es conveniente para el SEO. Por tanto:

  • Hay que eliminar la instrucción Disallow: /images/
  • Eliminar la sentencia Disallow: /installation/, en el caso que estuviera. y si en el sitio figura el directorio installation eliminarlo también.
  • Excluir el acceso de los robots a todas las direcciones extrañas que aparezcan indexadas en Google (ver en el navegador con site:nombre del sitio). Por ejemplo: Si acaban o contienen “.php” en su estructura incluir Disallow: /*.php. Si contienen el carácter “?” en su estructura incluir Disallow: /*?
  • Dependiendo de las extensiones que hayamos instalado en el sitio se generan URLs que hay que ir viendo con "site: nombre del sitio". Por ejemplo en mi caso observo indexadas en Google direcciones con "&" o "RK=. en tal caso poner Disallow: /* Disallow: /*RK= (Para descubrir las direcciones problema ayuda bastante el componente redireccionamiento de Joomla!).
  • También pueden aparecer direcciones por instrucciones sobre el tamaño de la fuente (texto) realizadas por el usuario. Incluir Disallow: /?fontstyle=f-smaller Disallow: /?fontstyle=f-larger.
  • Por último añadir el sitemap para informar a los robots del contenido relevante del sitio.
  • Sitemap: http://www.midominio.con/sitemap.xml

El archivo robots.txt podría quedar así:

  • User-agent: *
  • Disallow: /administrator/
  • Disallow: /cache/
  • Disallow: /cli/
  • Disallow: /components/
  • Disallow: /includes/
  • Disallow: /language/
  • Disallow: /layouts/
  • Disallow: /libraries/
  • Disallow: /logs/
  • Disallow: /media/
  • Disallow: /modules/
  • Disallow: /plugins/
  • Disallow: /templates/
  • Disallow: /tmp/
  • Disallow: /*?
  • Disallow: /*&
  • Disallow: /* (otros caracteres o cadenas de direcciones extrañas que aparezcan indexadas)
  • Sitemap: http://www.dominio.com/sitemap.xml

Con este archivo robots.txt estamos ayudando a mejorar la seguridad y la SEO de nuestro sitio.

Parametrizar Google Webmaster Tools

Google recomienda utilizar también su herramienta de organización de parámetros (en Google Webmaster Tools), que permite informar de las URLs que no queremos que se rastreen en función de los parámetros que contemplan. En el ejemplo son todas las URLs que tengan el parámetro cal_offset. Se parametriza sobre Google Webmaster Tools.

Herramientas para Webmaster -> Panel del sitio -> Rastreo -> Parámetros de url -> Editar (el parámetro) -> Si. cambia ... -> Ninguna URL (Si no presenta ningún parámetro habría que añadirlo y editarlo).

Extensiones SEF de Joomla!

Joomla! genera unas direcciones con caracteres que no son amigables del tipo "http://localhost/revistilla.es/index.php?option=com_content&am;view=article&id=167&Itemid=715" que la Extensión SEF de Joomla! se encarga de transformar a URLs amigables como "www.revistilla.es/actualidad/10-manualidades-portal-de-labores.html" que además de ser más atractiva para los ojos humanos facilita la promoción de la página y el SEO.

Pero como ya venimos diciendo Joomla! y el resto de Gestores de Contenidos crean varias URL,s dirigidas a la misma página dependiendo su número del tipo de Extensiones que tengamos instaladas y es necesario informar a los buscadores de cual es la URL principal de cada página (canónica) de nuestro sitio y que ignore el resto. Hay extensiones (de pago) que permiten gestionarlo, yo utilizo una libre denominada "canonical" que realiza esa función. He comprobado que informa a los buscadores de la URL principal añadiendo dentro de head...head el código <link href="http://misitio/pagina" rel="canonical"> pero también he visto este código en páginas duplicadas, o sea que es de dudoso resultado.

En cualquier caso, el contenido duplicado que generan los CMS como Joomla no es penalizado por los buscadores, pero sí reduce el rendimiento de la web. Si un sitio tiene problemas de contenido duplicado Google elige la versión que considera más adecuada para mostrar en los resultados de la búsqueda. En mi caso prefiero perder unos minutos todos los días y limpiar los índices de Google de contenidos duplicados.

La extensión para Joomla SH404SEF parece bastante efectiva para evitar las URLs duplicadas (no la he utilizado). Es una extensión de pago.

Eliminar en Google las páginas indexadas indebidamente

Aún con las restricciones anteriores hay que hacer seguimiento del índice de Google (poner site:nobre de la web) porque le llegan páginas de nuestra web desde otros sitios o desde otros buscadores. Para eliminarlas del índice utilizar “Google Webmaster Tools” herramienta "Eliminar URL". De vez en cuando hay que dedicar unos minutos a revisar el índice de Google y eliminar las páginas duplicadas.

 


Comentarios  

Flavio Salazar
0 # pregunta??Flavio Salazar 06-12-2016 21:37
Hola Jesus, antes que nada gracias por compartir tu conocimiento, me resulto muy util, y si no es mucho el abuso, te importaría hacer un tutorial sobre webmastertool. Gracias de nuevo y por favor continua con tu blog
Responder
Jesús
0 # RE: pregunta??Jesús 17-12-2016 21:56
Flavio ya me encantaría poder dominar este tema y compartirlo, pero todos mis conocimientos los he plasmado en el artículo.
Por otra parte, al principio le di importancia al SEO, pero ahora no tanto porque en definitiva esta web no es comercial.
Responder

Web,s amigas