Strategie per un filtro anti-splog

Qualche mese fa ero alla ricerca di approfondimenti per conoscere meglio Kailash Nadh, autore di Pingoat e SplogSpot. Curiosando sul suo sito sono capitato in un documento chiamato Fighting spam blogs.

Il documento, disponibile in formato Word, HTML e Pdf, è una preliminare analisi su come è possibile realizzare un iniziale filtro antispam contro lo SPLOG.
Nella prima parte del documento Kailash illustra il concetto di Spam Blog (SPLOG) motivando il perché è necessario porre un freno a questo fenomeno oramai in continua crescita.

How to possibly tackle?
Now the question is how to track/detect a spam blog? We could employ the tactics that anti-spam (email) systems use. The very
popular SpamAssassin is the best example. It works by performing a series of tests on an email, assigning scores and then using the Bayesian theorem to predict the probability of an email being spam.

Before performing any tests or arriving at any conclusions, I started off by collecting around a hundred spam blogs and closely studying their characteristics. I found that 90% of the spam blogs have certain features in common, which could be well used against them.

Kailash Nadh

Nella seconda parte, immediatamente preceduta dal passo quotato sopra, Kailash descrive quali siano le possibili strade, in termini di tattiche, per escludere i blog realizzati al solo scopo di SPAM.
E' probabile, se non quasi certo, che almeno una parte di questi concetti siano alla base del filtro applicato a Pingoat per flaggare i siti in fase di propagazione dei ping e popolare il database di SplogSpot.

Gli aspetti analizzati da Kailash sono diversi e vanno dal semplice controllo dell'URL alla verifica delle unità di AdSense pubblicate sul blog.
E' possibile controllare la densità e la rindondanza delle parole e valutare il numero di volte in cui le entità monetarie compaiono.

La parte più affascinante di tutto il documento, a mio avviso, è l'analisi della compressione della pagina. Tanto semplice quanto ingegnosa.
Il sistema si basa sul principio che è possibile applicare una compressione sostituendo i termini più ricorrenti con una referenza e mantenendo una tavola delle sostituzioni. Così facendo, sostituendo ad esempio il carattere A ogni qual volta compare il termine blog e referenziando l'azione, è possibile risparmiare spazio e caratteri riducendo di conseguenza il peso finale della pagina.

Cosa centra tutto questo discorso con lo SPAM? Pensate per un attimo alle email che affollano le vostre caselle di posta elettronica.
Cosa? Voi non ricevete SPAM? Uff, i soliti fortunati... vabbé, pensate per un attimo alle email che affollano la mia casella elettronica e quella dei vostri amici. Di certo non sarà difficile verificare come la densità di certe parole chiave è estremamente elevata.
Immaginate di applicare una compressione alla pagina e comparare il peso della pagina iniziale con quella compressa. Affinando il rapporto di confronto sarà possibile isolare una buona percentuale di SPLOGS semplicemente verificando la percentuale di compressione.

Come dicevo inizialmente, tanto semplice quanto affascinante.
Ovviamente è necessario avere un pannello di blog di test estremamente ampio per trovare il giusto rapporto ed il valore dovrà essere continuamente adattato e rivalutato, oltre che affiancato ad altri sistemi di analisi.

Affascinati? Approfondite la lettura.