El contenido duplicado

Contenido duplicado: causas y soluciones

José Luis Martínez Marketing, SEO, Wordpress Leave a Comment

Tiempo de Lectura: 10 minutos

Si el tema del SEO te interesa, seguro que conoces el problema con el contenido duplicado. Sabrás que los buscadores como Google se esfuerzan por detectarlo y filtrarlo. Lamentablemente, pueden ir más lejos, penalizando la clasificación o ranking en los resultados de tu web o incluso eliminándola del índice.

En este artículo vamos a dar una visión general sobre el contenido duplicado, sus causas y cómo encontrar la mejor solución para evitar penalizaciones.

Contenido duplicado

¿Qué es el contenido duplicado?

Según la definición de Google, contenido duplicado es todo aquel que aparece en dominios o URL distintos y que es completa o apreciablemente similar.

Cuando decimos “contenido” no nos estamos refiriendo a una página web completa, que también, sino a cualquier bloque de cierta entidad. Ponemos algunos ejemplos:

  • Un párrafo dentro de un texto
  • Varios párrafos de un texto
  • Un texto completo
  • Una página web completa

En la gran mayoría de casos, el contenido duplicado no se crea intencionadamente, con objetivos engañosos o malignos, sino que, por motivos de configuración técnica, puede aparecer en URL distintas.

¿Por qué es importante evitarlo?

Puedes llegar a pensar que si el contenido duplicado no es malintencionado, no habrá problema, bueno, la realidad es que sí lo hay, lo vemos con un ejemplo:

Imagina que una página cualquiera de tu blog, se publica en Internet bajo estas 2 URL diferentes:

Página duplicada hola mundo

Esto es muy sencillo que suceda si, por ejemplo, tienes un gestor de contenidos (CMS) como WordPress y tienes activa la página de archivos del autor “pepe”.

Ahora piensa en cómo otras páginas enlazan a tus contenidos. Al recibir enlaces de otros sitios, los famosos backlinks, un poquito de su “SEO” llega a ti, ganando autoridad y posicionando las keywords de tus páginas.

¿Qué pasa si tienes unas páginas enlazando a la primera URL y otras enlazando a la segunda?

Páginas de terceros apuntando a contenido duplicado

Pues que tus palabras claves, en lugar de ganar una reputación de, pongamos 30 enlaces, lo estarán haciendo de 15 (si el reparto fuera equitativo), porque el buscador tiene que elegir una de las URL, la otra la filtrará al comprobar que es duplicada y sus backlinks no aportarán nada.

En general, la existencia de contenido duplicado nos penalizará siempre pues:

  • Los buscadores tendrán que elegir una de las páginas duplicadas para incluirla en sus resultados. Las otras sencillamente no existirán.
  • La página duplicada no alcanzará el máximo de reputación o visibilidad potencial, porque los enlaces de terceros estarán distribuidos entre las URL duplicadas.
  • Si además, el contenido es malintencionado, toda la visibilidad del dominio puede verse comprometida.

Tráfico de un sitio web

Causas del contenido duplicado

Podemos clasificar las causas de contenido duplicado en dos grandes grupos:

Accidentales

Aquellas que se producen por una mala configuración o estrategia. La mayoría del contenido duplicado entra en este grupo, que puede dividirse en:

  • Uso de parámetros: algo muy habitual en las tiendas de comercio electrónico o ecommerce. A las URL se les añaden parámetros de búsqueda, IDs de sesión, paginación, filtrado o clasificación. Aunque la página del producto sea la misma, a ojos de los buscadores tendremos varias URL:
    • www.example.com/tienda/pantalon-rojo
    • www.example.com/tienda/pantalon-rojo?talla=40
    • www.example.com/tienda/pantalon-rojo?talla=42
    • www.example.com/tienda/pantalon-rojo?talla=44
  • Uso de taxonomías: en los gestores de contenido, como WordPress, es común que aparezca contenido duplicado en agrupaciones o categorías:
    • www.example.com/blog/el-quijote
    • www.example.com/blog/cervantes/el-quijote
    • www.example.com/blog/novela-caballeresca/el-quijote
  • Títulos y descripciones: tanto título de página como meta-descripción deben ser únicos, pues describen una página única y singular para los buscadores.
  • Páginas para impresora: se crean con el mismo contenido de texto, pero sin gráficos o anuncios, para facilitar la impresión.
  • Sindicación o redifusión: reenvío de contenidos de nuestro sitio a otra web que los publica de nuevo. Debe quedar claro a los buscadores cuál es la fuente original.
  • Versión HTTP y HTTPS: un clásico. Si ambas versiones del dominio existen y publican las mismas páginas, tendremos todo el sitio duplicado.
  • Versión con WWW y sin WWW: exactamente como el caso anterior.

Deliberadas

Contenido plagiado, sindicado o copiado expresamente con mala intención, para conseguir autoridad o visibilidad. Hay varias técnicas:

  • El copy-paste clásico: el plagio de siempre, donde un tercero se apropia de partes completas o parciales de nuestros textos.
  • Article spinning: una versión más avanzada del anterior, donde los párrafos del texto o incluso partes de ellos, se cambian de orden para evitar que el buscador los identifique como duplicados. Incluso hay programas que lo hacen de forma automática.
  • Sindicación no autorizada: hacer redifusión sin autorización del autor del contenido.

Barco pirata

Cómo identificar el contenido duplicado

Vale, tenemos claro que debemos tener cuidado con esto. ¿Por dónde empiezo? ¿Cómo puedo identificar si mi sitio web tiene contenido duplicado? Afortunadamente tenemos varias herramientas que nos pueden ayudar en esta tarea:

Google Search Console

La biblia de todo buen webmaster. Entre sus múltiples utilidades, encontramos una que nos permite identificar fuentes de contenido duplicado. Abrimos la consola y vamos a Aparición en Búsquedas -> Mejoras de HTML:

Google Search Console: títulos y descripciones duplicadas

Si las páginas tienen títulos duplicados o descripciones duplicadas, casi nunca es algo bueno. Aquí se mostrarán las URL con títulos duplicados o descripciones para ayudar a identificar el problema.

Buscador Google

El propio buscador permite el uso de operadores especiales para buscar dentro de un sitio web e incluso especificar keywords.

Haz la prueba, abre Google y pon en la barra de búsqueda:

site:www.tuweb.com intitle:"keyword simple o compuesta"

Google te ofrecerá la lista de las páginas de tu dominio que tiene indexadas para esa palabra clave. Pero es que además, y esto es lo realmente útil, si existen contenidos duplicados o muy similares, abajo de la lista verás un texto:

Para mostrarte los resultados más relevantes, hemos omitido algunas entradas muy similares a las X que ya se muestran.
Si quieres, puedes repetir la búsqueda e incluir los resultados que se han omitido.

Haz click en el enlace para mostrarlos y ver qué está pasando.

Screaming Frog

Screaming Frog SEO Spider es una herramienta de gran valor para el SEO en general, pues es un fantástico auditor de tu sitio web. Entre las muchas utilidades que proporciona, se encuentra la identificación de contenido duplicado. La versión gratuita te permite rastrear hasta 500 URL diferentes, y puede ser un buen punto de partida.

Una vez terminado el rastreo, bajo las pestañas URI, Page Titles y Meta Description puedes encontrar apartados Duplicate que identificarán contenidos duplicados en cuanto a URL, títulos o meta-descripciones:

Rastreo con screaming frog

Soluciones para el contenido duplicado

Repasemos cada tipo de contenido duplicado y veamos qué solución tiene.

Uso de parámetros

La fantástica consola de Google nos ayuda también en este caso, permitiendo especificar qué parámetros de nuestra web se usan para acotar, filtrar o paginar:

Google Search Console parámetros de URL

Por lo que respecta a los ID de sesión, éstos se pueden desactivar fácilmente desde la configuración de nuestro sitio.

Uso de taxonomías

Existen plugins como Yoast que ofrecen una inestimable ayuda con WordPress. Permiten restringir la publicación de los resultados de taxonomías, categorías, archivos del autor, del portfolio… Técnicamente lo que hacen es colocar una meta etiqueta noindex en las páginas de estas secciones y excluirlas de los mapas del sitio XML.

Si no usas WordPress o no quieres utilizar plugins, tendrás que configurar tú mismo las etiquetas noindex y asegurarte de que el mapa del sitio XML no contiene páginas que pertenezcan a estas secciones.

Títulos y descripciones

Esta es sencilla, sólo debemos editar la página en cuestión y modificar el título y la descripción.

Páginas para impresora

Nuestro consejo es desactivar totalmente su uso. Hoy en día los navegadores son muy capaces de imprimir correctamente y sin gráficos cualquier página web. Si aún así deseas tener más control, crea un PDF para imprimir de la página en cuestión y permite su descarga al usuario.

Sindicación o redifusión

Esto es algo más complicado de solucionar, pues controlar lo que hacen terceros es difícil. Aún así, en plugins como Yoast puedes configurar las opciones de sindicación RSS para que tu sitio aparezca como el primero donde se publicó ese contenido. Pero no hay seguridad de que el tercero lo respete.

Versión HTTP/HTTPS y WWW/sin WWW

De nuevo la consola de Google nos salva la papeleta. Registra en ella todas las versiones del dominio para después seleccionar cuál es la que quieres ofrecer al usuario.

Redirigir contenido duplicado

En ocasiones, por motivos técnicos o voluntarios, tendremos páginas duplicadas. En estos casos, lo mejor es hacer redirecciones o utilizar en enlace canónico:

  • Redirección: el redireccionamiento 301 nos permite decirle al buscador que la URL ha cambiado o que una URL tiene que apuntar a otra.
  • Etiqueta Canonical: la meta etiqueta rel=canonical les dice a los motores de búsqueda que una página determinada debe tratarse como si fuera una copia de una URL específica, y todos los enlaces, relevancia y autoridad de esta página deben pasarse a la orignal.

Sentimos darte faena, seguro que vas a tener mucha si has leído todo esto. Tampoco desesperes, es algo que hay que ir solucionando y afinando poco a poco, pero que da sus frutos. Bienvenido a la guerra contra el contenido duplicado, ¡buena suerte!

Escrito por

José Luis Martínez

LinkedIN