… poi Google decise che si poteva fare di meglio.

Premetto che: deciso a superare l’incombenza dell’overflow information, ho pensato di fissare su mappe concettuali alcune conoscenze a zonzo nella mia testa. Dallo schema “how search engine works” condivido qualche passaggio, che spesso diamo per scontato ma che, sono sicuro, sarà utile a chi è più giovane in questo mestiere.

Precision & Recall

Quando compiamo una ricerca su un qualsiasi motore di ricerca, fondamentalmente rientriamo in una di queste tre categorie: Informational (documenti o informazioni desumibili anche in SERP, notoriamente l’80% delle ricerche ricadono in questa voce), Navigational (navigazione siti web), Transictional (ricerca di servizi web). Google a seconda del tipo di ricerca, propone determinate SERP, non interpretando la volontà di chi interroga, ma desumendola dal tipo di query.

Qualsiasi motore di ricerca, anche quello interno a un sito - so che è difficile non pensare a Google, ma fate uno sforzo, esistono anche altri motori - fornisce dei risultati valutabili per precision & recall.
Precision è il grado di pertinenza della lista dei risultati proposti con la query effettuata dall’utente. La pertinenza può andare dal “pattern matching”, caso in cui lo spider trova delle pagine che contengono una corrispondenza precisa con la query, a risultati che sfiornao soltanto l’argomento.

Precision= il rapporto fra il numero dei documenti rilevanti recuperati e il totale dei documenti rilevanti della raccolta.
Recall= il rapporto fra il numero dei documenti rilevanti recuperati e il totale dei documenti della raccolta.

Stemming

Chi ha nel proprio sito web un motore di ricerca interno, sa che dovrà scegliere quale bilanciamento fra Recall e Precision adottare. Semplificando molto è possibile affermare che quando il motore adotta un sistema di automatic stemming, se questo è debole, i risultati avranno una minore recall e una maggiore precision.

Lo stemming espande la query individuando documenti che non solo contengono la key digitata dall’utente ma anche parole derivate, con la stessa radice o semanticamente affini. Lo stemming è la capacità dell’algoritmo di formulare diversi termini partendo da una data radice (stem). Definizione non enciclopedica, ma che rende l’idea di questo concetto applicato al nostro settore.

Lo stemming viene utilizzato durante il processo di parsing delle pagine web, quando il crawler separa il testo dal codice, e i termini vengono riconosciuti per la loro radice. In questa fase cartone, cartoncino e cartonato vengono associati al concetto di carta.

In assenza di stemming probabilmente i risultati restituiti saranno solo quelli contenenti pattern matching con la key di ricerca.

Google inizialmente non implementò lo stemming, proprio per la sua peculiarità di basare il ranking non tanto sui contenuti on-page ma piuttosto sui link in entrata, ricordate l’Hyper Search di Massimo Marchiori?
Dal 2003 Google ha scelto la via dell’automatic stemming, per aumentare significativamente il numero dei risultati potenzialmente interessanti, possiamo dire che questo processo fu idealmente ultimato con l’implementazione del Phrase Rank nel 2006.

Algoritmi

I motori di ricerca possono adottare diversi algoritmi per ordinare i risultati richiesti dall’utente. Due dei più semplici ad esempio sono le classifiche per Meta Dati, o per Thesauri - il nome che si usa per indicare una collezione di termini priva di definizioni che hanno in comune fra loro degli aspetti onomasiologici cit. Wikipedia -.

Ovviamente l’algoritmo più efficente è  senz’altro quello di Google, ma non ho certo la presunzione di potervi spiegare le variabili che incidono sull’algoritmo Google.

Nel Web Semantico

Il web semantico potrà migliorare e forse superare il concetto di precision & recall. Ma del resto a chi potrebbero interessare i risultati oltre la decima pagina? Gli addetti ai lavori, e io sarò uno di quelli, potranno certo rallegrarsi che anche dopo la 20° pagina i risultati mostrano un’alta pertinenza, ma a chi altri potrà interessare? La user experience e la percezione della qualità nelle primissime pagine, è il core della ricerca in Google, e forse questo è alla base del raffreddamento di Google nei confronti del web semantico, a favore del wiki, ad esempio.

Del resto una delle poche parvenze del web semantico non viene rilevata solo nel recente Google Squared?

Per concludere.
Per ciò che mi riguarda (ma credo che altri siano o saranno presto nella mia condizione), attraverso un uso sistematico di ToolBar, Analytics, Adsense, Adwords, Gmail, WikiSearch e Google Reader, oggi Google mi conosce così bene per darmi risultati inerenti anche senza il web semantico. Google mi conosce meglio di mia mamma, semantica o no.

Condividi: Queste icone linkano i siti di social bookmarking sui quali i lettori possono condividere e trovare nuove pagine web.
  • bodytext
  • del.icio.us
  • Facebook
  • Google
  • Segnalo
  • Technorati
  • TwitThis
  • Wikio

Francesco ha scritto questo post il 23rd luglio, 2009 | File Under SEO, Usabilità | -