3 oct. 2015

Cómo solucionar problemas con recursos bloqueados de una web en Google Search Console

Suele ser frecuente que el creador de contenidos en Internet pueda tener algunos problemas para añadir correctamente la información de su sitio web en el índice de Google o de cualquier otro buscador.

A menudo se trata de simples avisos que no requieren una atención especial más allá de una sencilla corrección. Dichos avisos, no suelen plantear problemas graves para que Google pueda asimilar los contenidos de una web en su índice, pero siempre suscitan el interés de aquellos que tantas horas dedican a que sus contenidos tengan un buen nivel de presencia en Internet.

Veamos cómo tratar los mencionados avisos en nuestro sitio web con el informe de la Google Search Console (las herramientas para webmaster de Google) para recursos bloqueados.


¿Qué son los "recursos bloqueados" de una página web?


Un buscador en Internet, como por ejemplo Google, recopila enormes cantidades de información de sitios web para después poderla ofrecer a sus usuarios en los resultados de las búsquedas que éstos realizan. 

Google lanza pequeños programas informáticos llamados "robots" (Googlebot) que recorren las páginas web y las analizan para entender cuál es su estructura, cómo se distribuye su contenido y qué información proporciona.

Este análisis de información de un sitio web se conoce como rastreo. Con dicha información rastreada, el buscador después "indexa" u ordena comprensiblemente la información extraída de cada sitio web en su propia "bases de datos" (índice) para después utilizarla para ofrecer los resultados de búsqueda a sus usuarios.

Durante el citado proceso de rastreo se pueden producir diversos problemas que Google reporta en forma de avisos a aquellos propietarios de sitios web que poseen su página dada de alta en la Google Search Console (Herramientas para Webmasters de Google).

Los avisos de errores de rastreo que Google proporciona contemplan desde la imposibilidad de acceder por completo a un sitio web hasta, por ejemplo, que un sitio web está inaccesible durante un tiempo por encontrarse caído o incluso si hay recursos (partes de un sitio web) que puedan estar bloqueadas por no pertenecer realmente a su contenido directo.

El recurso bloqueado suele ser siempre, alguna imagen, alguna hoja de estilos (CSS) ó código javascript que no pertenece al dominio en el cual Googlebot (el robot rastreador de Google) está intentando recopilar información.
Un ejemplo sencillo: Por ejemplo, una situación típica suele ser cuando desde un sitio se copia información de otro para exponerla en ese determinado sitio. En Diarios de la nube por ejemplo, hay veces que se hacen "reviews" de artículos tecnológicos, si copio las especificaciones técnicas desde la página del fabricante a mi página, aquellos datos que copio y pego desde su web a la mía, al encontrarse fuera de mi dominio (de www.diariosdelanube.com), Googlebot me avisa de que se encuentran bloqueados por pertenecer al dominio del fabricante.

¿Es grave tener recursos bloqueados en una página web?


Como norma general, no es en absoluto algo grave si no es algo que sea habitual en todo el sitio web. Es decir, si se da pocas veces y además es por razones justificadas, no da mayor problema.

Lo mejor es intentar tener la menor cantidad de recursos bloqueados posible pero sin obsesionarse con "dejar todo perfecto": es bueno "intentar tener las cosas bien".

¿En qué ocasiones suele tenerse un recurso bloqueado?


Casi siempre se produce cuando utilizamos desde nuestra web algún recurso "protegido" de otra web (ver el ejemplo expuesto al final del párrafo "¿qué son los recursos bloqueados de unas página web?").

Otras veces suele producirse porque nuestro archivo robots.txt está bloqueando algún recurso en concreto sin que nos demos cuenta. El archivo robots.txt como se explica en la guía, "Qué es y cómo se utiliza el archivo Robots.txt", puede "proteger" de la lectura de Googlebot o de cualquier otro rastreador, recursos de un sitio web (la parte que se encuentra detrás del "login" o acceso a una web, páginas de archivo o históricos, etc...).

¿Qué se puede hacer para solucionar el problema de los recursos bloqueados?


La regla general es que todos los recursos de nuestra web que deseamos que Google pueda utilizar para exponerla en sus búsquedas y para que ésta además se muestre correctamente, se encuentren en nuestro propio dominio y sin proteger (por ejemplo protegido por el robots.txt).

  • Para ello debemos siempre comprobar que nuestro propio archivo robots.txt no está bloqueando algún recurso.
  • Si vamos a utilizar recursos en nuestra web que no pertenecen a nuestro dominio, debemos pedirle permiso al propietario de la web de donde los vamos a utilizar para:
a). Pedirle que desbloquee esos recursos en su robots.txt para que nosotros podamos utilizarlos desde nuestro dominio (desde nuestra web www.nombre_de_nuestro_dominio.com). 
b). Después de solicitarle permiso al propietario del sitio web del que deseamos copiar los recursos, nos los traigamos y subamos a nuestro propio dominio (a nuestra web).
Muchas veces, queremos utilizar recursos de otros sitios web que sus autores dan por sentado que se pueden reutilizar y no suele haber mayores problemas, pero como norma, siempre es necesario pedirle permiso al propietario para no infringir ninguna ley de propiedad intelectual.

la nueva consola de busqueda de Google

¿Cómo puedo detectar si mi web contiene recursos bloqueados?


1) Es fundamental tener tu web dada de alta en la Google Search Console (las herramientas para webmaster de Google). Para conseguirlo de una manera sencilla, ejecuta esta guía paso a paso: Google Search Consolo, aprende a utilizar las Herramientas para Webmasters de Google.

Si es la primera vez que das de alta tu web en las herramientas para webmaster, después de haber ejecutado los pasos indicados en la guía, necesitarás un tiempo para que todo tu sitio web sea rastreado por completo. Podrás empezar con el paso 2) si ya llevas un tiempo utilizando la Google Search Console y tu web está ya plenamente rastreada.

2) Utilizando el informe de recursos bloqueados de la Google Search Console, las herramientas para webmaster de Google podrás ver qué recursos tienes bloqueados y porqué en tu web.


  • Accede al informe de recursos Bloqueados a través del menú de la izquierda, dando en la opción "Índice de Google" y después en "Recursos bloqueados".
  • En el ejemplo en pantalla se pueden apreciar dos recursos bloqueados. En la tabla se puede ver que ambos pertenecen a un Host (dominio o página web) que no es www.diariosdelanube.com. 
  • Se hace referencia dentro de una página de www.diariosdelanube.com a dos recursos que pertenecen a otro dominio.
3) Al hacer "clic" sobre cualquier recurso bloqueado de la tabla se accede al detalle del problema:


¿Cómo se puede solucionar el problema de los recursos bloqueados?, un ejemplo paso a paso:


Se observa en el detalle de los recursos bloqueados que se trata de tres imágenes ".png" que pertenecen a un dominio distinto de www.diariosdelanube.com

En la imagen de la izquierda se puede ver la página de www.diariosdelanube.com donde se realizó una review de un artículo técnico de otra web.

Para realizar la review, como es lógico, se copiaron y pegaron tres imágenes que pertenecen al sitio web que es propietario del aparato. 

Gracias a las imágenes se puede realizar la review pero como se encuentran fuera de mi propio dominio, el archivo robots.txt de la web de origen los bloquea.

Hay dos opciones para solucionar el inconveniente:

a) Se le solicita al propietario de la web que desbloquee en su robots.txt el rastreo de esas imágenes para mi sitio web.

b) Lo más fácil es pedirle permiso al propietario de la web y subir las imágenes a mi propia web. 

La opción b) es claramente la más sencilla, se le pide permiso al propietario de la web que posee las imágenes y, en lugar de copiar y pegar sus imágenes de su web a la mía directamente (que arrastra todas sus referencias a su sitio web), las subo una a una al mío.

Si copias y pegas directamente imágenes o recursos de otro sitio web, normalmente se "arrastrará" con la copia la referencia a la web de origen. Esto puede producir no sólo el problema del bloqueo de recursos, sino que además como se referencia directamente al sitio web propietario de las imágenes, si desde éste un día se deciden quitar o cambiar de sitio, dejarán de aparecer también en tu sitio web.

Solución: se pide permiso al webmaster de la web que posee las imágenes (o estilos CSS, o javascript) que se quieren utilizar en tu web y se suben directamente a la tuya.



¡Eso es todo!, por supuesto si tienes alguna duda estoy a tu disposición en los comentarios.

Escrito por Miguel García Sánchez - Colomer

Dispuesto a ayudarte con tu Blog en todo lo posible, Diarios de la nube es mi medio para llegar hasta ti. El conocimiento es universal, es del mundo, es de todos, esta es mi parte y la comparto contigo.

9comentarios:

  1. Y si el problema es que tengo páginas bloqueadas por robots (35), cómo puedo saber cuáles son?.
    Atentamente, un saludo.

    ResponderEliminar
    Respuestas
    1. Hola, si no has tocado tu robots.txt de tu Blog, no tienes que preocuparte por nada. Hay veces que Google bloquea algunas páginas porque provengan de "archivo", o por su calidad, o porque contienen estilos o artilugios de otras páginas web que impiden su lectura desde la tuya. No tiene importancia y es normal (yo tengo mayor número de páginas bloqueadas por robots.txt).

      Un saludo!

      Eliminar
  2. Gracias por escribir este artículo... En mi caso el estado de las paginas dice: "completada parcialmente" y cuando la abro salen las URL que han sido bloqueadas... generalmente son como cinco, crees que son muchas..? otra cosa el cuadro que dice: "enviar al indice" para que se usa...?

    Espero tus respuesta, nuevamente gracias..!

    ResponderEliminar
  3. Gracias por escribir este artículo... En mi caso el estado de las paginas dice: "completada parcialmente" y cuando la abro salen las URL que han sido bloqueadas... generalmente son como cinco, crees que son muchas..? otra cosa el cuadro que dice: "enviar al indice" para que se usa...?

    Espero tus respuesta, nuevamente gracias..!

    ResponderEliminar
    Respuestas
    1. Nada, 5 no son prácticamente nada. Normalmente provienen de copias de otros sitios o cosas por el estilo, no te preocupes.

      Lo de añadir al índice si es importante, tienes varias guías aquí sobre las herramientas de webmaster de google. Lo mejor es que sigas esta y lo que no hayas aplicado, ir haciéndolo que siempre te vendrá bien: http://www.diariosdelanube.com/2013/09/aprende-utilizar-las-herramientas-para.html

      En esta también explico el envío al índice y los errores de rastreo: http://www.diariosdelanube.com/2014/09/como-detectar-y-solucionar-los-errores.html

      Cualquier cosa aquí estoy.

      Un saludo,

      Eliminar
  4. Pues yo tengo 88 recursos bloqueados y son imágenes subidas en mi propio servidor. Cuantas más fotos subo en mis post, más recursos bloqueados tengo. La verdad que no logro entender porqué me pasa esto. Que estoy haciendo mal?

    Saludos

    ResponderEliminar
    Respuestas
    1. Hola Guzy, ¿cuando los subes es copiando y pegando desde otra web o los subes directamente desde tu web?. Ojo, no es malo tener recursos bloqueados, pueden estar protegidos por tu robots.txt y ser normal su protección.

      Un saludo, cualquier duda aquí estoy.

      Eliminar
  5. Gracias,

    Si, son imagenes que subo a mi propio servidor, no son externas. Cada vez tengo más errores :/

    ResponderEliminar
    Respuestas
    1. Mira a ver si al estar en tu propio servidor, estás cambiando la URL y no pones la tuya correctamente. No tiene ningún problema particular el tener recursos bloqueados, en este caso, es posible que el robot de Google no interprete que estén dentro del mismo dominio las imágenes y por ello las da como si vinieran de otro sitio. Revisa las URLs y si están bien (que tengan el mismo dominio que tu web), tampoco te preocupes mucho por ello.

      Un saludo!,

      Eliminar

 

© 2015 Por: Miguel García Sánchez - Colomer en Diarios de la nube Todos los derechos reservados.