Parto da una doverosa premessa, ma cercherò di essere breve e generico perchè se queste cose le sai non c’è bisogno che le ripeta, se non le sai non basterebbe un post per impararle.

Web Analytics: 2 modi diversi di raccogliere dati

E’ possibile fare della Web Analysis utilizzando due tipi di strumenti. Esistono software di Web Analytics che si basano sui log del server e software che funzionano grazie a un codice Javascript incluso nelle pagine del sito.

Proprio per la diversa natura dei due metodi, il risultato finale può essere profondamente diverso e questa differenza deve essere conosciuta da chi interpreta i dati.
A grandi linee è possibile affermare che i log vengono prodotti in base alle richieste che gli utenti fanno al server. Generandosi lato server, nei log mancano alcune informazioni sul tipo di browser, sulla risoluzione dello schermo, sul sistema operativo e altre informazioni relative a chi/come naviga.
Al contrario il sistema a Tag (con il Javascript inserito nel footer) riesce a raccogliere tutti i dati in possesso del pc dell’utente.

Google Analytics appartiene al secondo gruppo e non è il miglior software di cui disporre se l’utenza del tuo sito ha Javascript disabilitato, o se hai la necessità di monitorare le attività di crawling di spider e bot.

In realtà, benchè sia stato Google in primis ad affermare che con il Javascript anche gli spider dei motori di ricerca potrebbero riscontrare problemi durante la scansione del tuo sito, ultimamente leggo sempre più spesso di possibili interazioni fra crawler e javascript.

Un problema con la Web Analytics

Di recente mi è stato fatto notare che su un sito di cui seguo la Web Analysis abbiamo parecchie visite dirette (circa 40 al giorno) dagli Stati Uniti d’America.
Partendo dal presupposto di cui sopra, ovvero che l’Analytics di Google non conteggia bot e spider e la natura diretta degli accessi, ho pensato subito ad una qualche attività di spamming.
L’altra cosa anomala a proposito di queste visite è che pur essendo vicine, nel tempo e geograficamente, vengono considerate tutte visite nuove al 100%. Non solo, il tempo medio di permanenza è 00:00:00, praticamente nullo.

Il fatto che il 90% di queste visite si riferisse alla pagina 404.php mi ha indirizzato verso una qualche attività di crawling. Se l’accesso è diretto e genera un’errore 404 (pagina non trovata) significa che il mio visitatore aveva già un riferimento e che questa visita è forse una visita di “controllo”.
Successivamente ho controllato il network da cui provengono queste visite e ho notato che partono tutte dal network-location di Ask: iac search media inc e ask jeeves. Ho avuto la conferma di ciò incrociando i log sul server e sono arrivato alla conclusione che il responsabile di ciò è: crawler6132.ask.com.

Ask può sporcare in modo sistematico le tue Web Analysis

Dall’incrocio di queste informazioni l’unica conclusione a cui siamo arrivati (io e lghinelli) è che il crawler di Ask si comporta in modo analogo ad un Web Browser. Non solo può leggere i Javascript, ma nel nostro caso decide addirittura di eseguire il Javascript di Analytics.
Sul come faccia e perchè i dati raccolti dall’Analytics siano così strani (100% visite nuove, 100% bounce rate e tempo di premanenza pari a 0 secondi), mi rimetto a voi, ma una cosa è certa per un Web Analyst il comportamento di Ask è dannosissimo.

Ask in questo modo non solo inficia sul numero di visite uniche, ma nel caso in cui eseguisse non solo il Javascript dell’Analytics, ma ad esempio anche qualche attività sugli OnClick a cui abbiamo associato un obiettivo, averemmo falsati anche i Conversion Rate settati sul’Analytics.

Come rimediare ai guai combinati da Ask

L’unico modo che mi viene in mente per ripulire i report dalla sporcizia generata dal bot di Ask è quella di escludere il suo indirizzo IP. A giudicare dalle mie osservazioni giornaliere questa soluzione funziona, ma non è da escludere che un domani il crawler possa cambiare indirizzo.

Per rimuovere l’IP di questo Bot, se utilizzi Google Analytics, è possibile impostare un filtro. Il mio consiglio è di lasciare comunque un profilo senza filtri, visto che qualsiasi filtro applicherai effettureà dei tagli sulla reportistica che non potrai più recuperare.

Per creare un profilo clone dell’originale, a cui decurtare le visite del bot di Ask, puoi andare, dalla schermata di ingresso, ad Aggiungi profilo sito web. Setta l’impostazione “Aggiungi un profilo per un dominio già esistente” e dai al nuovo profilo un nome abbastanza esplicativo. Per aggiungere il filtro al profilo appena creato vai sul Filter Manager e successivamante su + Aggiungi Filtro. In questa pagina troverai il filtro escludi traffico da un indirizzo IP, fra i filtri comuni, ricordati di non applicare questo filtro al profilo originale. Nel momento in cui scrivo l’indirizzo IP del crawler di Ask è 212.48.8.140.

Condividi: Queste icone linkano i siti di social bookmarking sui quali i lettori possono condividere e trovare nuove pagine web.
  • bodytext
  • del.icio.us
  • Facebook
  • Google
  • Segnalo
  • Technorati
  • TwitThis
  • Wikio

Francesco ha scritto questo post il 15th gennaio, 2009 | File Under Best Practice, Web Analytics | -