Solucion para no indexar https://

Hace unas semanas nos encontramos frente a un problema con uno de nuestros clientes. Cuestión que el proyecto de este cliente estaba indexando contenido duplicado, ya que utiliza servidores seguros.

no indexar https

Por un lado indexaba las páginas del sitio con http://…. Y por otro lado, indexaba las mismas páginas, pero con https://…. Con lo cual se estaba generando la indexación de contenido duplicado y corríamos riesgo de que el proyecto sea penalizado.

Automáticamente salimos a encontrar una solución, ya que no nos había pasado algo similar anteriormente y encontramos varias, de las cuales voy a destacar estas dos.

Opción A: Crear un archivo llamado robots_ssl.txt y agregar las siguientes líneas:

User-agent: *
Disallow: /

Subir ese archivo al raíz del dominio. Posteriormente, agregar lo siguiente en el htaccess:

RewriteCond %{SERVER_PORT} 443 [NC]RewriteRule ^robots.txt$ robots_ssl.txt [L]

Lógica: Con el Segundo código, le estamos diciendo a los buscadores que si el protocolo es seguro (https), entonces que en vez de leer el robots.txt, que lea el robots_ssl.txt (el cual no deja indexar nada).

Opción B:
En este caso, no tendríamos que crear un nuevo robots.txt, ni modificar el htaccess, simplemente deberíamos modificar el robots.txt dejándole este código dentro.

<%If Request.ServerVariables(“https”) = “off” Then ‘if not secure%>
User-agent: *
Disallow:
<%
else
%>User-agent: *
Disallow: /
<%
end if
%>

Lógica: Con este código estamos haciendo exactamente lo mismo, pero, estamos usando un condicional… “Si el servidor NO es https (seguro), entonces aplicar lo siguiente (indexar lo que nosotros le especificamos), en cambio si el servidor es seguro (https) entonces no indexar nada”

Me decidí a crear un post sobre este tema ya que en español me costó bastante encontrar información detallada para solucionar el contenido duplicado de los https://.

9 comentarios en “Solucion para no indexar https://

  1. Hola Comiquera,

    La opcion B no se porque no te ha funcionado, en todo caso prueba con la opcion A y si no te funciona, veremos que puede ser.

    Saludos 🙂

  2. Hola, muy bueno el articulo, lo e implementado haber si da resultados, puse https y tengo el mismo problema, me esta indexando las dos versiones :/

    Saludos y gracias!

  3. Yo tengo el mismo problema. Implemente la solución B pero el sitio aun se indexa en https ,incluso esta aumentando el numero de páginas indexadas. Coloquen esto en google site:www.strappinc.com.

    Alguna sugerencia?

  4. Comentar que la segunda forma no es la correcta (tocar robots.txt) y es muy posible que se desindexe la web completa. Se deben usar redirecciones o la etiqueta canonical en cada página a la URL correcta.

    Saludos!

  5. Hola Borja,

    El articulo es del 2009, hoy en dia es mucho mejor indexar https que http, de todos modos como comentas tu, lo mejor es utilizar etiquetas canonical.

    Saludos!
    Bruno

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *