¿Cómo filtrar el tráfico no deseado en Analytics?

SPOILER ALERT!

¿Cómo filtrar el tráfico no deseado en Analytics?

10:48 pm 28 April 2020

¿Por qué es esencial filtrar el tráfico no deseado o tráfico basura (visitas SPAM)?

Dicen que una imagen vale más que mil palabras, así que empezaré este artículo con la siguiente imagen a fin de que comprendáis la importancia y el impacto que el tráfico no deseado puede tener en nuestras estrategias:

Esta gráfica corresponde a un sitio web real que, en unos pocos días, casi triplicó el número de visitas a páginas.

La primera sensación ante tal comportamiento es una mezcla de sorpresa y euforia, mientras una pregunta revolotea sobre nuestra cabeza:
“¿qué ha pasado?”

Si ves una gráfica así en tu sitio, seguro que revisas tu registro de actividades y acciones de tu estrategia de difusión, promoción o posicionamiento del sitio, para hallar una explicación a ese desarrollo.

Y, casi siempre, encontrarás algo que coincida en el tiempo con este cambio y que, legítimamente, lo justificaría, como la publicación de un artículo en el que te esforzaste singularmente, una revisión en la, un cambio en la estrategia Social Media o el comienzo de una nueva campaña, por poner ciertos ejemplos más que posibles.

Si te sigues llevando por la euforia, estimas que has atinado totalmente en el cambio o ampliación de tu estrategia y, claro, continúas con ella...

Hasta que múltiples semanas después observas que esta explosión de visitas no viene pareja con el incremento de otras métricas mucho más relevantes y, al final, las que verdaderamente importan: por ejemplo, que las conversiones mantienen un mismo nivel.

Ahora cambian las sensaciones.

De la alegría pasamos a la zozobra, de la alegría a la desazón, mientras que nos hacemos esta pregunta:
“¿qué está pasando?”.

Y pensamos que puede ser uno que las palabras clave no están optimizadas para la conversión...

Pero, ¿y si todo el inconveniente hubiese estado en esa primera gráfica?

Veamos ahora la próxima gráfica, del mismo sitio web, en exactamente las mismas datas y exactamente la misma métrica:

En este informe vemos la comparación entre dos gráficas: la gráfica azul corresponde con la primera que vimos, mientras que la gráfica naranja representa la misma métrica pero filtrando el tráfico basura.

Como veis, apenas hubo un cambio significativo en su comportamiento y todas las decisiones que hubiéramos tomado desde la primera gráfica habrían estado destinadas al fracaso, puesto que partían de supuestos falsos.

El tráfico no deseado suministra información falsa a la analítica web que nos hará tomar resoluciones estratégicas equivocadas.

¿Podemos advertir y eludir el tráfico no deseado?

Visto el enorme impacto que el tráfico basura y el Ghost Spam particularmente, pueden tener en nuestras estrategias, lo primero que nos proponemos es si podemos advertir y quitar este tráfico basura y si existe algún método para evitarlo.

En los dos casos, la contestación es positiva.

Solo así habría sido posible obtener la gráfica comparativa en el apartado anterior.

Ahora bien, ¿cómo conseguirlo?

Nuestro inconveniente de interpretación del número de visitas se produjo porque nos habíamos limitado a los resultados globales en esta métrica, sin entrar a analizar más de manera profunda el origen exacto de su radical aumento.

En otras palabras, ¿qué provocó esa subida?

Pero si consultamos las tablas con datos más detallados en Analytics, habríamos observado
dos entradascon información algo desconcertante a primera vista:

Son múltiples los datos de esta tabla que llaman la atención:

Nunca ya antes había habido visitas desde la dirección lifehacker.com, donde, además, la “k” no es una “k” real, sino un carácter con esa apariencia.
Tampoco habíamos tenido visitas previamente desde la dirección reddit.com.
Ambos muestran porcentajes de rebote próximos al 0 por cien visitando 2 páginas, casi en números redondos por sesión. ¿Tanto interés despertaba, de repente, el sitio?
El porcentaje de nuevas sesiones rondaba el 90 por cien . No es que sea demasiado atípico, mas tampoco es un valor habitual para el sitio web (que ronda entre el sesenta-setenta por cien ).

Veamos ahora cuáles serían esos datos si desechamos (filtramos) las visitas correspondientes a estas direcciones:

¡Increíble! De cuatrocientos ochenta y nueve visitas entre ambos, hemos pasado a 0 visitas.

Además, si estudiamos un poco por Internet, hallamos que hayque procede de la dirección lifehacker.com y reddit.com.

Hemos dado puesto que, con el origen de nuestros males y, desde este momento, podemos configurar nuestro servidor o bien Google Analytics para que los datos relacionados con ese spamming sean filtrados, tanto de los informes de resultados globales como de las propias tablas de datos.

Esta situación que he descrito no es tan inusual como puede parecer.

La mayoría de los administradores web, singularmente los propietarios de sitios pequeños e inclusive medianos, están centrados en el desarrollo de su modelo de negocio, no tienen por qué ser expertos en analítica web ni acostumbran a tener el tiempo preciso.

Por tanto, su analítica web gira esencialmente en torno a los resultados y comportamientos globales, sin ser siendo conscientes de lo que se “cuece” por debajo, de lo que puede llegar a representar o bien a afectar a su negocio, ni cómo solucionar cualquier anomalía o bien aberración en el análisis.

Los administradores web deberían revisar periódicamente las visitas de su web y saber cómo identificar cuáles pueden corresponder a spammers.

La mayoría de las veces, copian soluciones para filtrar el tráfico basura publicado en blogs o bien sitios especializados, con la esperanza de que resuelvan el problema y con cierta resignación de que no pueden hacer mucho más.

Sin embargo, muchas veces estas soluciones solo mitigan parte del problema, pues no se amoldan a las visitas específicas de su sitio web, o sea, que tenga filtros para visitas spam que el lugar no está recibiendo pero, en cambio, no tengan filtros para las que sí está recibiendo.

Por este motivo, los administradores web deberían efectuar labores básicas de análisis de las visitas que están teniendo, para ser capaces de identificar cuáles pueden corresponder a potenciales fuentes de spam y crear mismos los filtros para que no contaminen el análisis de los resultados globales.

Posibles fuentes de tráfico no deseado

Habréis observado que hasta he utilizado un tanto indistintamente tráfico no deseado, tráfico basura y Ghost Spam, mas ¿es lo mismo?

En realidad, se podría decir que todo Ghost Spam es tráfico basura mas, no todo el tráfico basura es Ghost Spam pues hay otros géneros de tráfico no deseado que pueden trastocar el análisis de los informes de Google Analytics:

Nuestras propias visitas al sitio web

Nuestras propias visitas al lugar web

No es tráfico basura como tal, pero sí que son visitas que Analytics contabiliza y, si suponen un porcentaje significativo del total, pueden distorsionar los informes de análisis.

O simplemente Crawler Spam.

Visitan y, normalmente, recorren todo el sitio con algún propósito, ya sea bueno (motores de búsqueda) o bien malo (hackers).

El más peligroso de los 3 porque, de ahí su nombre (“fantasma”), realmente no visitan al sitio, sino se hacen con él (en cierta forma).

Veamos ahora cada uno de ellos con más detalle...

► Procedentes de nuestras propias visitas

Este tráfico no deseado no se puede estimar “spam” en el riguroso sentido de la palabra, mas debemos valorarlo para valorar su posible impacto en la tendencia general de las visitas totales de nuestro sitio.

Para sitios webs grandes y decenas de miles y miles de visitas al día en el cómputo general, el impacto de nuestras propias visitas al sitio o bien, por extensión, del equipo desarrollador del sitio, acostumbra a ser bastante pequeño y puede ignorarse por su escaso impacto.

En sitios webs más pequeños, con unos pocos cientos o bien miles de visitas, puede darse la situación de que nuestras visitas supongan un porcentaje significativo del total.

Si nuestras visitas se sostuvieran más o menos constantes a lo largo del tiempo, quizás no resultaría demasiado problemático, pues no afectarían a la tendencia general de las visitas totales.

Sin embargo, lo común es que visitemos nuestro sitio con una mayor frecuencia cuando acabamos de lanzar una novedad, estamos revisando nuevas funcionalidades o ¡cómo no! las primeras semanas después de haberlo lanzado por el hecho de que, ¿quién puede resistirse a ver cómo está creciendo su nueva criatura?

Esto significa que a lo largo de esos días o bien semanas nuestras visitas tendrán un impacto más significativo en nuestras estadísticas y pueden alterar la tendencia de las visitas totales.

Así, conforme visitamos menos nuestro sitio web, también descenderán las visitas totales, lo cual nos puede llegar a hacer creer que hacemos algo mal con nuestras estrategias.

Nuestras propias visitas a nuestro sitio web pueden afectar a la interpretación y análisis de los datos de visitas de Google Analytics.

Para que os hagáis una idea del impacto que las visitas propias pueden tener, la siguiente gráfica muestra la comparación de las visitas totales, sin filtrar, que un sitio recibía durante sus primeras semanas, a fines de 2015, respecto a las visitas descontando las efectuadas por el propietario del sitio web:

Como podéis ver, en ciertos instantes las visitas propias pueden suponer casi la totalidad de las visitas del sitio web.

Hay diferentes métodos para filtrar laspero, salvo que tengamos una configuración de navegador muy específica o bien una dirección IP fija, solo tienen efecto desde el momento en que son creados o activados.

Aunque ciertos de estos métodos no son triviales, existen(complementos) libres para los navegadores más extendidos, que hacen este filtrado a la perfección.

Por tanto, mi recomendación es que, si no filtráis vuestras propias visitas, lo hagáis cuanto antes, sobre todo, si no tenéis un volumen muy alto de visitas totales.

► Procedentes de Crawler (Referral) Spam

En su faceta positiva, los
Crawlers o bien rastreadores, son las aplicaciones informáticas que los motores de búsqueda emplean para visitar todas las páginas de un sitio web y parsearlas (“leerlas”) con el fin de indexarlas y posicionarlas cuando los usuarios hagan búsquedas relacionadas con esas páginas.

Estos rastreadores acostumbran a respetar una serie de reglas de “buena urbanidad”, en el sentido de que no hacen más visitas que las realmente precisas, para no sobresaturar al servidor web ni realizar muchas visitas en un margen de tiempo demasiado pequeño.

Además, estos rastreadores, como prueba de su buena educación, respetan lo que les afirmemos en el fichero robots.txt, que puede supervisar y limitar qué páginas visitan y cuáles no.

En general, no deberíamos preocuparnos demasiado por estos rastreadores, merced a sus buenas prácticas, mas como pueden ser muchos rastreadores distintos los que pueden visitarnos, el efecto amontonado de todas sus visitas sí que puede ser significativo.

Afortunadamente, Analytics da un mecanismo para filtrar estas visitas, a través de los siguientes pasos:

Seleccionar la pestaña de
“Administrador”en el menú superior de Google Analytics.
Seleccionar la
cuenta,
propiedady
vista del lugar webdonde queráis filtrar las visitas de los rastreadores.
Seleccionar la opción
“Ver configuración”bajo la columna de la vista seleccionada.
Marcar la opción
“Excluir todos y cada uno de los hits de robots y de arañas conocido”y pulsar el botón
“Guardar”.

Sin embargo, no todos los rastreadores son tan “benévolos”, sino también tienen su Lado Oscuro.

Hay multitud de rastreadores que bullen por Internet con malas intenciones y que, claro, no serán tan “considerados” como para respetar las reglas de “buena urbanidad” o bien del archivo robots.txt.

Los Crawler Referral Spam efectúan visitas reales a los sitios y no respetan las instrucciones del archivo robots.txt del servidor.

Por ejemplo, por mencionar ciertas de sus malas acciones, pueden rastrear páginas y sitios web para localizar vulnerabilidades de seguridad y hackearlos o bien parsear el contenido para buscar direcciones de correo electrónico, números de teléfono u otros datos de contacto para campañas de marketing exageradas.

► Provenientes de Ghost Spam

Los 2 tipos de Spam que hemos visto previamente tienen una característica común: generan visitas “reales” en el sitio web.

Pueden parecer una futileza pero esta propiedad hace que tengamos más alternativas para tratar contra ellos, como veremos más adelante.

Sin embargo,
los Ghost Spam no visitan realmente el lugar web, sino que interactúan de manera directa sobre los servidores de Google Analytics, haciéndoles creer que nuestro sitio ha recibido una visita.

Comprendamos mejor cómo marchan los Ghost Spam y cómo engañan a los servidores haciendo un breve recorrido de la mecánica del seguimiento y registro de visitas que hace Analytics.

Una visita “verdadera” a un sitio web, que tiene el código de seguimiento de Analytics en la cabecera de sus páginas, se registra en los servidores de Google a través de los próximos pasos:

La visita accede a una página web.
El navegador carga y ejecuta el código de seguimiento de Google Analytics.
Google Analytics y el servidor web de esa página intercambian información relativa a esa visita.

En cambio, una visita “fantasma” se salta los 2 primeros pasos y se hace pasar por el servidor web para ese intercambio de información, utilizando el identificador “UA-XXXXXXXX-X” que todos y cada uno de los códigos de seguimiento incluyen (único para cada sitio):

(function(i,s,o,g,r,a,m)i['GoogleAnalyticsObject']=r;i[r]=i[r]function() (i[r].q=i[r].q[]).push(arguments),i[r].l=1*new Date();a=s.createElement(o), m=s.getElementsByTagName(o bien)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m) )(window,document,'script','//-analytics.com/analytics.js','ga'); ga('create', 'UA-XXXXXXXX-X', 'auto'); ga('send', 'pageview');

Quizás os preguntéis cómo Google puede dejarse “engañar” así, mas la culpa no es de Google, sino que podríamos decir que se debe a un “imperativo técnico”.

Para que el código de seguimiento sea ejecutado por el navegador del usuario visitante, ha de estar perceptible y en abierto, lo que significa que, por servirnos de un ejemplo, cualquier rastreador puede parsear la página y extraer el código Analytics correspondiente a un sitio.

Por otro lado, tampoco es preciso que el Ghost Spammer rastree nuestras páginas para leer su código Analytics.

Puede simplemente generar aleatoriamente un identificador UA que, por casualidad, coincida con el nuestro y ejecutar un script similar al nuestro.

En realidad, todo el proceso es algo más complicado que esta explicación tan resumida, mas nos sirve para hacernos una idea bastante aproximada del funcionamiento de los Ghost Spam.

Como el Ghost Spam no visita los sitios web, solo podemos contrarrestarlos desde Google Analytics, nunca en el servidor web.

La primera consecuencia así de actuar es que no podemos filtrar el Ghost Spam desde el servidor web (como los otros 2 géneros de Spam), puesto que no interviene en todo el proceso, sino solo a través de Google Analytics.

De ahí, por consiguiente, la necesidad de que sepamos cómo identificar y filtrar esas visitas espectro examinando los datos compendiados por Analytics.

Métodos para filtrar el tráfico no deseado (incluido el Ghost Spam)

En este apartado nos vamos a centrar en el tráfico no deseado proveniente de Crawler Referral Spam y Ghost Spam, los más perjudiciales con una gran diferencia.

Los métodos que veremos aquí se pueden dividir en
dos conjuntos generales:

Los que tienen efecto sobre el
spam producido por visitas realesal sitio web (es decir, el Crawler Referral Spam): ficheros robots.txt y .htaccess.
Aquellos que actúan sobre el
spam que no realizan visitas realesal sitio (esto es, el Ghost Spam): Filtros en la vista de datos y Segmentos con filtros.

La diferencia esencial entre ambos grupos es que, con el primero, podemos tomar medidas de contención en los propios servidores de alojamiento, evitando que visiten el sitio.

Mientras que, con el segundo, los servidores de alojamiento nunca tienen constancia de semejantes visitas, por lo que dichas medidas sólo pueden aplicarse desde en el propio Analytics.

Para explicar cómo usar estos métodos con ejemplos reales, supondremos que hemos detectado que nuestro sitio está recibiendo tráfico web no deseado de las tres siguientes fuentes, reconocidas como spam: , y

► A través del fichero robots.txt

El archivo robots.txt es un archivo de texto que se halla en la carpeta raíz de un sitio y establece una serie de pautas y condiciones a los rastreadores que visitan un sitio.

Desde qué carpetitas y ficheros pueden rastrear (por poner un ejemplo, para indexarlos en un buscador) hasta qué rastreadores tienen “permiso” para acceder a ese sitio.

¿Cuál es el primordial problema de este archivo?

Que los rastreadores no están obligados a acatar sus instrucciones.

En general, los rastreadores “buenos” (como los de los motores de búsqueda que todos conocemos) sí que seguirán los comandos del fichero robots.txt, mas... nuestro enemigo no son estos rastreadores, sino más bien los que producen excesivo tráfico no deseado.

Y, como habréis adivinado, un rastreador con malas intenciones no va a hacer mucho caso de lo que pongamos en el robots.txt.

Sería como poner un cartel de “No entrar” en la puerta de nuestra casa: quien no tenga intención de hurtarnos no entrará, mas el ladrón ni se parará a leerlo.

Los comandos del robots.txt no son obligatorios a los rastreadores, en consecuencia, no podemos emplearlo para impedir tráfico no deseado.

Entonces, ¿por qué miento este fichero si, a la hora de la verdad, no sirve para filtrar los spam?

Porque, aún a día de hoy, se pueden encontrar bastantes artículos que describen el fichero robots.txt como un método de control para impedir a los rastreadores el acceso a ciertas o a todas las carpetitas y archivos del servidor web.

Por tanto, olvidaos de este fichero como método para filtrar tráfico no deseado y centraos únicamente en los que vienen a continuación.

► A través del fichero .htaccess

Al igual que el robots.txt, el archivo .htaccess también es un archivo de texto que se encuentra guardado en el servidor web y contiene una serie instrucciones y comandos.

Sin embargo, no están dirigidos a los rastreadores, sino más bien al propio servidor web, que debe acatarlos obligatoriamente.

Es decir, ya no queda al albedrío de los rastreadores el acatar o no dichas instrucciones, sino que el servidor web las debe realizar para cada visita que reciba, con independencia de su origen.

Por su propia definición, el .htaccess solo tendrá utilidad para restringir el tráfico no deseado que genera visitas reales al servidor web, o sea, el Crawler Referral Spam.

No hay forma de impedir el Ghost Spam con este fichero.

El servidor web asegura la ejecución de los comandos del .htaccess, por lo que podemos emplearlo para impedir visitas de Crawler Spam.

Antes de seguir, un mensaje de aviso muy importante: además de permitir quiénes pueden acceder o no a nuestro sitio web, el fichero .htacces controla muchas otras áreas vitales del servidor web.

Un comando erróneo, incluso una errata en este archivo puede provocar que nuestro sitio o bien una parte de él deje de funcionar apropiadamente.

Por tanto, cuando alteremos este archivo, siempre debemos tener a mano una imitación de su última versión operativa para, en caso de fallo, poder restaurarla rápidamente y dejar el servidor tal como estaba ya antes de cualquier cambio.

Con estas precauciones, veamos ahora cómo configurar el .htaccess para cortar el acceso de las visitas spam generadas por , y

Antes de nada, debemos tener en cuenta que el fichero .htaccess puede contener líneas de comandos generados por el gestor de contenidos que estemos usando.

Normalmente, estos comandos aparecen al comienzo del fichero de texto, debidamente comentados.

Por ejemplo, WP añade las siguientes líneas al principio del .htaccess:

# BEGIN WP <IfModule mod_rewrite.c> rewriteEngine On rewriteBase / rewriteRule ^index.php$ - [L] rewriteCond por cien REQUEST_FILENAME !-f rewriteCond por cien REQUEST_FILENAME !-d rewriteRule . /index.php [L] </IfModule> # END WordPress

Es importante que no toquemos estas líneas y que las dejemos tal como están, sin añadir ningún comando ya antes ni en el bloque enmarcado entre las líneas de comentarios
# BEGIN WordPressy
# END WordPress.

Ahora, a continuación de este bloque de instrucciones creado por el gestor de contenidos, copiar el próximo bloque de texto:

RewriteRule ^(.*)$ - [F,L] </IfModule> # FIN Bloquear el Crawler Referral Spam

Dentro de este bloque (después del comentario
## Aquí se introducen...), debemos añadir una línea por cada spammer que deseemos impedir el acceso al sitio.

Por ejemplo, para
escribiríamos:

RewriteCond por cien HTTP_REFERER ^https?://.*ilovevitaly.ru/ [NC,OR]

Es decir, solo tenemos que redactar el nombre principal del dominio (ilovevitaly) y su extensión (.ru) en los parámetros pertinentes de este comando.

El patrón es similar para las otras 2 direcciones:

RewriteCond por ciento HTTP_REFERER ^https?://.*kambasoft.com/ [NC,OR] RewriteCond por ciento HTTP_REFERER ^https?://.*darodar.com/ [NC,OR]

¡Mucho ojo!

Escribid TODOS los caracteres tal y como se muestran (como los puntos, interrogaciones, etcétera), sin intercalar espacios en blanco, salvo los que ya aparecen.

Cualquier omisión puede anular el funcionamiento del comando de bloqueo.

El bloque completo quedaría como sigue:

# INICIO Bloquear el Crawler Referral Spam <IfModule mod_rewrite.c> RewriteEngine on ## Aquí se introducen las direcciones web de los spammers: RewriteCond por cien HTTP_REFERER ^https?://.*ilovevitaly.ru/ [NC,OR] RewriteCond por ciento HTTP_REFERER ^https?://.*kambasoft.com/ [NC,OR] RewriteCond por ciento HTTP_REFERER ^https?://.*darodar.com/ [NC] RewriteRule ^(.*) dólares americanos - [F,L] </IfModule> # FIN Bloquear el Crawler Referral Spam

Para terminar, una última consideración.

Observad que en el último comando RewriteCond (el correspondiente a darodar.com), solo aparece el parámetro “[NC]”, en lugar de “[NC,OR]”.

Esto es debido a que el siguiente comando no es otro RewriteCond, sino más bien el comando RewriteRule.

El parámetro “OR” solo lo incluimos para concatenar comandos RewriteCond consecutivos.

Como veis, es bastante fácil configurar el fichero .htaccess para bloquear el acceso a los Referral Spam.

Sin embargo, a continuación veremos que también es muy fácil filtrarlo en Analytics.

Por tanto, ¿qué sistema es mejor para eliminar este género de tráfico no deseado?

En su cometido, ninguno es mejor que el otro y seleccionar uno o bien otro depende de nuestras preferencias.

Personalmente, prefiero utilizar solo los filtros de Analytics por las próximas razones:

Toda la gestión de tráfico no deseado está centralizada en una única herramienta, no en 2 lugares separados e independientes, con lo que solo debo trabajar en un entorno.
Evito tener que estar modificando el fichero .htaccessy cometer algún error que pueda afectar la navegación del sitio. Mientras que un error en los filtros de Analytics ni afecta a la navegabilidad ni se pierden datos de las visitas recibidas.
Al limitar el acceso en el .htaccess, no hay una forma fácil de
saber si estoy recibiendo un elevado número de visitas de Referral Spam, puesto que no se reflejarían en Analytics y no podría adoptar otras medidas de protección.

Aunque un buenproporciona mecanismos de detección y protección contra las visitas masivas de los spammers, las 2 primeras razones son de suficiente peso para mí para que no utilice el fichero .htaccess para bloquear el Crawler Referral Spam y lo haga todo en Analytics.

Filtros en la vista de datos de Google Analytics

Todos los datos recopilados por Analytics para un sitio se agrupan dentro de las vistas, en las que configuramos cómo queremos administrar, examinar y comprobar dichos datos.

Entre las múltiples operaciones que podemos hacer con las vistas, una de ellas es la creación de filtros, para limitar o bien descartar qué datos se van a compendiar en esa vista.

Por tanto, nos puede servir para filtrar las visitas de los spammers mas no solo el Crawler Referral Spam, sino más bien también el Ghost Spam, pues trabajamos sobre datos de Analytics y no sobre las visitas reales del sitio web.

Ahora bien, no deberíamos sin más, crear un filtro en la vista primordial de nuestro sitio web, puesto que estos filtros descartan totalmente los datos filtrados, sin posibilidad de recuperarlos y siempre deberíamos tener una vista con todos y cada uno de los datos, sean buenos o malos, por si los necesitáramos para futuros análisis o cometiéramos un error con algún filtro.

Así que, el paso inicial consiste en crear una nueva vista desde la pestaña de Administrador, para la cuenta y propiedad de nuestro lugar web:

Filtrando los Crawler Referral Spam

Filtrando los Crawler Referral Spam

Una vez hayamos creado la vista, la seleccionamos y pulsamos
“Filtros”:

Google Analytics nos mostrará la lista (aún vacía) de filtros de esta vista:

Pulsamos el botón
“+ Añadir filtro”, y rellenamos los datos del nuevo filtro con los próximos datos, en la secuencia numérica que se señala, para filtrar las visitas del spammer :

Una vez introducidos estos datos, pulsamos el botón
“Guardar”y ya tenemos guardado el filtro para esta vista:

Ahora podríamos proceder igual con el resto de spammers y crear un filtro para cada uno de ellos de ellos, sin embargo, esta solución no es la idónea.

Con el tiempo, el número de spammers puede medrar, de manera que acabaríamos con agencia marketing online granada de filtros, resultando en una larga lista de filtros.

Para evitarlo, podemos utilizar expresiones regulares a lo largo de la creación del filtro, para indicar no solo la dirección de un único spammer, sino más bien de varios.

De esta forma, el filtro se aplicaría a todos .

Aunque las expresiones regulares pueden adoptar patrones muy complejos, siempre recomiendo usar la expresión menos compleja posible, aun a costa de hacerla más larga, para que sea muy fácil de entender y a simple vista observemos rápidamente cualquier errata.

En nuestro ejemplo, la expresión regular más sencilla que recoge las tres direcciones de spam quedaría como: “ilovevitaly.ru|kambasoft.com|darodar.com” (la barra invertida es necesaria para marcar el punto, “.”, de la dirección) y el filtro se vería así:

Desde el instante de creación del filtro, esta vista solo recogerá aquellas visitas que no cumplan la condición del filtro, si bien siempre y en todo momento podremos preguntar los datos completos de todas y cada una de las visitas accediendo a la vista original que hemos dejado sin filtros.

Aunque la configuración anterior de filtros también se puede usar para filtrar los Ghost Spam, no es el sistema más eficiente.

Sobre todo, si tomamos en cuenta que continuamente brotan Ghost Spammers con nuevos nombres y direcciones, lo que haría inacabable la lista de filtros.

Afortunadamente, tenemos una opción alternativa que aprovecha un defecto de los Ghost Spam, debido a que no visitan nuestro sitio web: sus visitas no tienen asociado un nombre de host o bien, si lo tuviesen, no estaría relacionado con el sitio web.

En general, el nombre del host será la dirección del sitio pero, puede haber nombres de hosts válidos en función de los servicios que utilice el sitio o bien cómo esté configurado.

La mejor forma para revisarlo es a través de los Informes de Analytics, tal y como muestra la figura siguiente:

En este caso, sólo aparece un nombre de host válido, el correspondiente a mi dirección web.

El resto no guardan relación con mi web ni tengo ningún tipo de relación con ellos.

Con esta consideración, solo tenemos que crear un nuevo filtro (en la misma vista donde creamos el anterior filtro) para que solo recopile aquellos datos que tengan un nombre de host correcto, con la próxima secuencia de acciones:

Con lo que tendríamos nuestra vista con los 2 filtros:

Segmentos con filtros en Google Analytics

A la hora de gestionar y examinar los datos, la utilización de vistas con filtros presenta
dos limitaciones:

La vista y los filtros solo tienen efecto en los datos a partir del momento en que son creados

La vista y los filtros solo tienen efecto en los datos a partir del instante en que son creados

Es decir, una nueva vista no dispone de datos precedentes a su creación y un nuevo filtro solo filtra los datos posteriores a su creación.

No podemos hacer análisis comparativos sobre un mismo informe entre los datos filtrados con los datos sin filtrar

No podemos hacer análisis comparativos sobre un mismo informe entre los datos filtrados con los datos sin filtrar

Por ejemplo, la gráfica comparativa que vimos en la primera sección, sino tendríamos que hacerlo “a ojo” en dos ventanas separadas del navegador, una para cada vista.

Para superar estas limitaciones, podemos usar segmentos, creando filtros afines a los que hicimos con las vistas, pero con la peculiaridad de que tienen efecto sobre todos y cada uno de los datos compendiados en la vista actual, independientemente de cuándo fuera creado el segmento o bien el filtro.

El proceso es muy sencillo:

Pulsamos en la pestaña
“Informes”y, en la
Visión general de audiencia, pulsamos la barra
“+ Agregar segmento”:

Pulsamos el botón colorado
“+ CREAR SEGMENTO”.
Seleccionamos
“Condiciones”en las opciones avanzadas y añadimos 2 filtros tal y como se muestra en la próxima imagen:

< precio tienda online woocommerce >

Pulsamos el botón
“Guardar”.

Observad que en un mismo segmento hemos creado los dos filtros que necesitábamos:

Para el Ghost Spam (recuadro 3), seleccionando el
“Nombre de host”e introduciendo la expresión regular de las direcciones web válidas (en un caso así, sólo el nombre de dominio del sitio).
Para el Crawler Referral Spam (recuadros cuatro-seis), el filtro tiene 2 condiciones que deben cumplirse simultáneamente (la “Y” del recuadro cinco).Por un lado, debemos seleccionar la
“Fuente”e introducir la expresión regular de las direcciones de los spammers. Además, hay que escoger el
“Medio”para indicar que debe ser de tipo
“Referral”.

A medida que vamos creando los filtros, el cuadro resumen de la derecha va mostrando el porcentaje y número de usuarios y de sesiones que pasan los filtros.

En este caso, el 47,70 por cien de usuarios no cumple ninguna de las condiciones de los filtros y son visitas “legales”.

Una vez creado el segmento, solo necesitamos elegirlo a fin de que los informes no incluyan datos de visitas de spammers:

¿Cómo detectar el tráfico basura?

Ahora que sabemos las clases de tráfico basura que podemos localizar en Analytics y cómo descartarlos en nuestra analítica web, la próxima pregunta que surge es, ¿cómo saber que unas determinadas visitas son producto de un spammer?

De todas las tareas y configuraciones que hemos visto hasta el momento, analizar los datos compendiados por Google Analytics para hallar cuáles pueden corresponder a un spammer puede resultar la más difícil y tediosa.

¿El motivo?

No hay una regla fija que nos permita identificar con certidumbre y rotundidad que una determinada visita la realiza un spammer, sino más bien una serie de pautas y comportamientos sospechosos que pueden darnos indicios de que se están produciendo.

En líneas generales, no deberíamos preocuparnos por el Ghost Spam, puesto que como hemos visto, presenta el defecto de utilizar un nombre de host inválido o bien que no está relacionado con nuestro sitio web, con lo que el filtro que hemos creado puede confrontarlos perfectamente.

El inconveniente puede venir, entonces, de los Crawler Referral Spam que cambien o bien empleen nuevos nombres o bien direcciones de origen (“Fuente de campaña”, en los filtros), con lo que vamos a deber, primero identificarlos y segundo, actualizar las expresiones regulares de los filtros.

Para identificarlos, no nos queda otro remedio que examinar periódicamente la gráfica y los informes del “Tráfico de referencia”:

Sobre estos datos, debemos revisar si se presenta alguno de los próximos comportamientos sospechosos de spamming:

Crecimiento desmesurado del número de sesiones o bien de visitasdesde una misma referencia, que es el caso que os presentaba como introducción en este artículo. Muchas veces, éste será el primer rastro de que algo anómalo está pasando.
Nombres de fuente (direcciones URL) sin sentidoo de los que no cabe esperar que nos referencien (columna “Fuente”). Por servirnos de un ejemplo, en la tabla precedente, abc.xyz o reddit.com serían sospechosos. No obstante, t.co o bien plus.google.com sí que serían válidos, puesto que es muy normal que nos referencien desde Twitter o bien Google+.
Porcentaje de rebote irreal, tanto cercano al 100 por ciento como al 0 por cien . El porcentaje de rebote varía mucho de un sitio a otro, en función de muchos factores, mas siempre y en toda circunstancia debería moverse por la zona media, no en los extremos. En la tabla anterior, motherboard.vice.com y site-auditor.online serían sospechosos de spamming.
Duración media de la sesión atípica, ya sea porque dura cero o bien muy pocos segundos o múltiples minutos muy por encima de la duración media. En la tabla anterior, site-auditor.online o addons.mozilla.org se salen del comportamiento típico en este sitio web.
Porcentaje de nuevas sesiones próximo al 100 por cien o al 0 por ciento ,es decir, que prácticamente todas las visitas son de usuarios distintos o prácticamente todas son de un mismo usuario, respectivamente. diseño pagina web comercio madrid , no en los extremos. En nuestro ejemplo, lifehacker.com o bien thenextweb.com resultarían sospechosas.

Una vez hayamos identificado algunas fuentes sospechosas de spamming, el próximo paso sería analizarlas más en detalle.

Por ejemplo, viendo si esa dirección web verdaderamente existe o revisar que la página web que nos está referenciando exista y sea válida.

Otra posibilidad, más rápida y sencilla, es buscar de manera directa en Google plus esas direcciones de los nombres de fuente (por ejemplo, buscando “
abc.xyz spam”).

Si son spammers, lo más seguro es que alguien ya lo haya detectado y escrito acerca de ellos.

Como mentaba al principio, no es una ciencia exacta mas con estas precauciones casi siempre seremos capaces de identificar posibles fuentes de spamming.

Conclusiones

En cualquier estrategia de Marketing Digital, la analítica web da información crucial para determinar la eficacia de nuestras acciones y el impacto en las visitas de nuestro sitio web.

En consecuencia, cualquier adulteración de los datos compendiados por Analytics puede resultar en una interpretación errónea de los resultados de la estrategia y hacernos tomar nuevas decisiones que dañen o limiten el éxito de nuestras campañas.

El tráfico basura o bien las visitas spam, son la primordial causa de alteración de las visitas de un sitio, haciéndonos pensar que estamos recibiendo más visitas de las que realmente están llegando de usuarios reales, además de afectar a otros factores, como el porcentaje de rebote o bien la duración media de las visitas.

El origen del tráfico basura puede generarse por 2 medios:

Crawler Referral Spam, que hacen visitas reales al sitio y, por consiguiente, son detectadas y registradas por el servidor web. Se pueden filtrar tanto en el propio servidor web (mediante el archivo .htaccess) como con filtros en vistas o bien segmentos de Analytics.
Ghost Spam, que no visitan el sitio web, sino interactúan directamente con los servidores de Analytics, simulando que hacen visitas. Como no hacen visitas al servidor web, solo se pueden filtrar en las vistas o segmentos de Google Analytics.

Nuestras propias visitas al sitio, sin ser tráfico basura como tal, también pueden alterar la interpretación de los datos de analítica web, por lo que también debemos tomar medidas para quitarlas.

La detección del tráfico basura no tiene un proceso claro y válido para cualquier circunstancia, sino que debemos fijarnos en una serie de rastros (como el porcentaje de rebote, la duración de la visita o el nombre de la fuente) que puedan identificar algunas visitas como posible spamming.

El webmaster o el analista web debe prestar atención a semejantes rastros para, en el caso de observarlos, estudiarlo más detenidamente, determinar si corresponde a spamming o no y actualizar los filtros en caso preciso.

En el artículo hemos visto diferentes métodos y filtros para eliminar y advertir el tráfico no deseado o tráfico basura, pero como cada maestro tiene su librillo, ¿utilizas otros métodos para detectarlo y quitarlo?

noodlestore32

Blog

Shelf

Timeline