Psicofonías

(algo así como el blog de Psicobyte)

Estadísticas y spam

Estoy trabajando en un modulillo para extraer estadísticas de accesos a este blog, y ya está dando algunos resultados curiosos.

Primero, unas aclaraciones:

El log muestra solo las visitas a páginas del blog. No contabiliza descargas de imágenes, hojas de estilo, archivos ni nada similar. Tampoco cuenta acesos al RSS (esos van en un log aparte).

En esta tabla, "Visitas" se refeire, realmente, a "Visualizaciones". Por ejemplo, si alguien entra en la página principal, luego pasa a ver los comentarios de un post y escribe un comentario, eso cuenta como tres visitas (una de la página principal, otra de los comentarios, y otra despues de enviar el suyo). O sea, que las estadísticas están "hinchadas".

Spam se refiere a accesos que se hacen con cabeceras HTTP_REFERER falsificadas. Es decir, gente que dice venir a través de un enlace en una página que, en realidad, no tiene ese enlace.

Visitas Legitimas son las que no son spam según la definición de arriba, evidentemente.

El protocolo HTTP, que es el que sostiene la Web, tiene una serie de campos que envía en la cabecera de las páginas (justo antes de enviar la página en sí) con información variada. Uno de estos campos es HTTP_REFERER, que indica de qué página viene un visitante cuando llega a la tuya.

El trucar la cabecera HTTP_REFERER es un método de los spamers para hacer creer a tu página que tienen enlaces apuntándote. Muchos blog tienen un listado de accesos desde otras páginas (Como, por ejemplo, el de Malglam), y así el spamer consigue un enlace en tu página apuntándole a él, con lo que eso puede significar de vistas, pagerank, etc. (Son unos cabrones retorcidos, como puedes ver).

Yo no muestro en este blog las HTTP_REFERER pero, además de que consumen ancho de banda, si son muchas respecto a las visitas legítimas, pueden falsearme la estadística (cosa que me irrita sobremanera).

Y el hecho es que me la falsean.

Porque, efectivamente, recibo un montón de spam de esta clase. Básicamente casinos, sexo y medicamentos.

He escrito un pequeño filtro (benditas sean las regexps) que me separa el spam del resto de visitas, y esta es la tabla resultante para lo que llevamos de mes (hasta ayer):

FechaVisitas LegítimasSpam
01-02-200584414
02-02-200584262
03-02-20059289
04-02-200573643
05-02-200578647
06-02-200590120
07-02-200568939
08-02-200591437
09-02-200570329
10-02-200572163
11-02-2005815189
12-02-200558540
13-02-2005839822
14-02-20058361324
15-02-2005869111
16-02-2005114012

En general, tengo por aquí una cantidad bastante apreciable de spam. Lo cual, unido a que no hay demasiados visitantes, hace que la la proporción sea notable.

Y luego, los casos extremos. El domingo 13 llegó aquí casi tanto spam como visitas legítimas. Pero al día siguiente, lunes 14, la cosa se disparó brutalmente: ¡Llegó mucho más spam que visitas reales!

Definitivamente, tengo que hacer algo. Me estoy planteando hacer un filtro similar al que he usado parqa las estadísticas, pero para los accesos al blog. De modo que si alguien viene aquí desde, pongamos por caso, "culitos-calientes-pervertidos.com" (es un ejemplo inventado, me niego a poner las URLs auténticas de estos tipos), el blog le envíe una respuesta 404 "Page not found".

Lo que pasa es que no me acaba de gustar eso de filtrar accesos. No sé, me da un cierto mal rollo.

¿Tú que opinas?

Otros post en este blog que hacen alusión a este:
(12496 visitas a este artículo)
Dirección de TrackBack: http://www.psicobyte.com/trackback/estadisticas_y_spam
Comentarios:
# [17 de Febrero de 2005 a las 21:00] RuonorY
No he entendido nada ^^
# [17 de Febrero de 2005 a las 22:58] mewt
A mi no me parece una mala medida, yo creo que todo el que vistia un blog lo hace accediendo desde un enlace válido. Sólo hay un par de cosillas que me gustaria que me aclararas (que se le va hacer, matematico torpe que es uno) pa asegurarme de como va la cosa:
1. ¿Cual es el HTTP_REFERER si accedo a tu pagina escribiendo directamente la direccion en el explorador?
2. Idem si lo hago pinchando en un "live bookmark" de firefox.
3. Idem si lo hago desde un "feed" (p. ej, el de Thunderbird)

Y ya que te pones a joder spammers, en vez de ponerles un 404, ¿por qué no los lanzas a un bucle infinito? }:-)
# [17 de Febrero de 2005 a las 23:05] Arkangel
A mi no me parece mal el filtrillo ese, siempre que seas más permisivo que restrictivo, para evitar falsos positivos... Supongo que se basará en una lista negra, ¿no?

Si lo haces, podías liberarlo, que yo lo pongo.
# [18 de Febrero de 2005 a las 08:40] malglam
Yo listo los referers porque como mi blog está en una esquinita de internet, no lo conoce mucha gente y no me dan demasiado la lata (he detectado unos tres referers falsos).

mewt: si escribes la url directamente en la barra del navegador o en un live bookmark no hay referer. Está vacío.
Si pinchas desde un feed, pues depende: si es desde el planet granada, por ejemplo, te pone como referer el planet. Si es desde el de firefox, supongo que será vacía, pero no lo sé.
# [18 de Febrero de 2005 a las 14:17] Allan Psicobyte
mewt:
1. Ninguno. De cara a la estadística cuentan como "visitas legítimas".
2. Idem.
3. Idem. Aunque, si en lugar de pinchar el e feed para acceder al blog, lo lees en el propio feed, no se cuenta en esta tabla. Tiene un log aparte.
Arkangel: Exacto. Aunque uso (arriesgadas) regexps, porque los que me espamean a mí son muy poco originales al elegir nombre...

Malglam: Mucha gente los usa y no les da problemas. Pero se ve que a mí me ha pillado manía algun spamer y ya ves que me invaden a lo bestia...
Añadir comentario
No admite etiquetas HTML.
El correo electrónico no se mostrará.
PCMS 2004