… poi Google decise che si poteva fare di meglio.

Premetto che: deciso a superare l’incombenza dell’overflow information, ho pensato di fissare su mappe concettuali alcune conoscenze a zonzo nella mia testa. Dallo schema “how search engine works” condivido qualche passaggio, che spesso diamo per scontato ma che, sono sicuro, sarà utile a chi è più giovane in questo mestiere.

Precision & Recall

Quando compiamo una ricerca su un qualsiasi motore di ricerca, fondamentalmente rientriamo in una di queste tre categorie: Informational (documenti o informazioni desumibili anche in SERP, notoriamente l’80% delle ricerche ricadono in questa voce), Navigational (navigazione siti web), Transictional (ricerca di servizi web). Google a seconda del tipo di ricerca, propone determinate SERP, non interpretando la volontà di chi interroga, ma desumendola dal tipo di query.

Qualsiasi motore di ricerca, anche quello interno a un sito - so che è difficile non pensare a Google, ma fate uno sforzo, esistono anche altri motori - fornisce dei risultati valutabili per precision & recall.
Precision è il grado di pertinenza della lista dei risultati proposti con la query effettuata dall’utente. La pertinenza può andare dal “pattern matching”, caso in cui lo spider trova delle pagine che contengono una corrispondenza precisa con la query, a risultati che sfiornao soltanto l’argomento.

Precision= il rapporto fra il numero dei documenti rilevanti recuperati e il totale dei documenti rilevanti della raccolta.
Recall= il rapporto fra il numero dei documenti rilevanti recuperati e il totale dei documenti della raccolta.

Stemming

Chi ha nel proprio sito web un motore di ricerca interno, sa che dovrà scegliere quale bilanciamento fra Recall e Precision adottare. Semplificando molto è possibile affermare che quando il motore adotta un sistema di automatic stemming, se questo è debole, i risultati avranno una minore recall e una maggiore precision.

Lo stemming espande la query individuando documenti che non solo contengono la key digitata dall’utente ma anche parole derivate, con la stessa radice o semanticamente affini. Lo stemming è la capacità dell’algoritmo di formulare diversi termini partendo da una data radice (stem). Definizione non enciclopedica, ma che rende l’idea di questo concetto applicato al nostro settore.

Lo stemming viene utilizzato durante il processo di parsing delle pagine web, quando il crawler separa il testo dal codice, e i termini vengono riconosciuti per la loro radice. In questa fase cartone, cartoncino e cartonato vengono associati al concetto di carta.

In assenza di stemming probabilmente i risultati restituiti saranno solo quelli contenenti pattern matching con la key di ricerca.

Google inizialmente non implementò lo stemming, proprio per la sua peculiarità di basare il ranking non tanto sui contenuti on-page ma piuttosto sui link in entrata, ricordate l’Hyper Search di Massimo Marchiori?
Dal 2003 Google ha scelto la via dell’automatic stemming, per aumentare significativamente il numero dei risultati potenzialmente interessanti, possiamo dire che questo processo fu idealmente ultimato con l’implementazione del Phrase Rank nel 2006.

Algoritmi

I motori di ricerca possono adottare diversi algoritmi per ordinare i risultati richiesti dall’utente. Due dei più semplici ad esempio sono le classifiche per Meta Dati, o per Thesauri - il nome che si usa per indicare una collezione di termini priva di definizioni che hanno in comune fra loro degli aspetti onomasiologici cit. Wikipedia -.

Ovviamente l’algoritmo più efficente è  senz’altro quello di Google, ma non ho certo la presunzione di potervi spiegare le variabili che incidono sull’algoritmo Google.

Nel Web Semantico

Il web semantico potrà migliorare e forse superare il concetto di precision & recall. Ma del resto a chi potrebbero interessare i risultati oltre la decima pagina? Gli addetti ai lavori, e io sarò uno di quelli, potranno certo rallegrarsi che anche dopo la 20° pagina i risultati mostrano un’alta pertinenza, ma a chi altri potrà interessare? La user experience e la percezione della qualità nelle primissime pagine, è il core della ricerca in Google, e forse questo è alla base del raffreddamento di Google nei confronti del web semantico, a favore del wiki, ad esempio.

Del resto una delle poche parvenze del web semantico non viene rilevata solo nel recente Google Squared?

Per concludere.
Per ciò che mi riguarda (ma credo che altri siano o saranno presto nella mia condizione), attraverso un uso sistematico di ToolBar, Analytics, Adsense, Adwords, Gmail, WikiSearch e Google Reader, oggi Google mi conosce così bene per darmi risultati inerenti anche senza il web semantico. Google mi conosce meglio di mia mamma, semantica o no.

Francesco ha scritto questo post il 23rd luglio, 2009 | File Under SEO, Usabilità | 3 Comments -

Lettore Web

Nel 1985 Italo Calvino avrebbe dovuto tenere alcune lezioni sulla scrittura ad Harvard. Proprio così, un’italiano che insegnava agli americani come comunicare. Poteva farlo solo Calvino.
Purtroppo Calvino morì prima di poter esporre oralmente le sue lezioni, che fortunatamente aveva organizzato in un libro: Lezioni Americane.

La cosa sorprendente di quello che Calvino scrisse è che nel giro di 15 anni, tutti i suoi consigli, divennero i capisaldi della comunicazione online. Calvino parlò di leggerezza, rapidità, esattezza, visibilità e molteplicità. In pratica stava parlando di internet senza saperlo e prima che il world wide web fosse inventato.

C’era una cosa che Calvino non poteva sapere, che nel futuro di cui scriveva non sarebbe cambiato solo il modo di scrivere ma anche quello di leggere. Calvino ci ha insegnato (il suo libro dovrebbe stare anche sulla tua scrivania se ti occupi di web) come comunicare in questo presente, ma non aveva previsto come si sarebbe evoluta la lettura.

La lettura a video è stata compresa appieno, invece, da JaKob Nielsen. L’information foraging, più o meno “foraggiare l’informazione”, è la metafora con cui Nielsen indica gli utenti portati a spostarsi come mandrie nei punti in cui ci sono informazioni migliori. Quest’abitudine incoraggiata da internet ha contribuito a demolire la nostra capicità di concentrazione. Abbiamo perso la capacità di soffermarci sulle pagine di carta, rapiti da divagazioni verso link inesistenti sulle pagine dei libri. Eppure Carr ci aveva avvertito: “Google ci sta rendendo stupidi?”.

In pratica la grande duttilità di cui il nostro cervello è capace ci ha permesso, nel corso di una decade, di passare da un’apprendimento riflessivo ad uno reticolare. Il modo di leggere incoraggiato da internet, veloce e superficiale, alla ricerca del grassetto, ha portato all’affermarsi di una lettura distratta, in luogo della lettura in profondità che risulta essere sempre più (troppo?) impegnativa.

Non stupirti se dico questo, il nostro cervello è capace di mutare i propri schemi conoscitivi in modo ben più repentino.
L’esempio ci viene da un giochino molto celebre in rete ultimamente. Prova a leggere le prime righe di questo paragrafo, il resto del testo riuscirai a leggerlo senza problemi:

UN 837 610RN0 D’357473 3R0 1N 5P146614 0553RV4ND0 DU3 81M83 610C4R3 N3774 548814, 574V4N0 74V0R4ND0 M0770 C057RU3ND0 UN C4573770 D1 548814 C0N 70RR1, P4554661 536R371 3 P0N71. QU4ND0 574V4N0 F1N3ND0 V3NN3 UN’0ND4 CH3 D157RU553 7U770 R1DUC3ND0 17 C4573770 4D UN MUCCH10 D1 548814 3 5CH1UM4… P3N541 CH3 D0P0 74N71 5F0RZ1 73 84M81N3 51 54R3883R0 M3553 4 P14N63R3, P3R0 1NV3C3 D1 QU3570 C0R53R0 P3R 74 5P146614 3 C0M1NC14R0N0 4 C057RU1R3 UN 477R0 C4573770; C4P11 CH3 4V3V0 1MP4R470 UN4 6R4N 73Z10N3; 1MP136H14M0 M0770 73MP0 D3774 N057R4 V174 C057RU3ND0 QU47CH3 C054 P3R0 QU4ND0 P1U 74RD1 UN’0ND4 4RR1V4 4 D157RU663R3 7U770, R3574N0 5070 7′4M1C1Z14, 7′4M0R3, 7′4FF3770 3 73 M4N1 D1 C070R0 CH3 50N0 C4P4C1 D1 F4RC1 50RR1D3R3.

Sì parla tanto del degrado dell’italiano scritto, cercando streghe e stregoni negli sms, nelle chat, nell’im, nei saggi brevi che propone la scuola… etc etc E se il problema fosse ancora una volta che leggiamo poco e male?
E ancora: se le wiki-search portano ai wiki-content, possiamo dire di saperli scrivere i tanto osannati “contenuti scritti dagli utenti” se non sappiamo nemmeno leggere?

Se ti interessa l’italiano, a Natale regaliti un libro.

Francesco ha scritto questo post il 4th dicembre, 2008 | File Under Usabilità, Web Writing | 8 Comments -

Scegliere il font, durante la fase di progettazione di un sito web, non è certo una cosa da sottovalutare. Come ricorda Luisa Carrada nel suo Mestiere di Scrivere, il font di un sito è come il vestito della persona che ti sta davanti, con un’occhiata riesci per lo meno a capire se sta andando in ufficio o a fare sport. Sappiamo benissimo che l’abito non fa il monaco, ma intanto la prima impressione è sempre quella che conta.

Il font non riguarda solo l’aspetto grafico di un sito, gioca anche un ruolo determinante nella user experince dei tuoi utenti. Esistono font più o meno leggibili, più o meno austeri, più o meno giovanili, più o meno fluidi e così via. Ancora una volta la decisione deve essere presa in base ad uno studio del target a cui fai riferimento. Non esiste il font migliore, solo quello più adatto. Ricorda, chiunque sia il tuo lettore, devi metterlo nelle condizioni migliori per la lettura, è il primo requisito per il successo del tuo sito.

Leggere sul web o leggere sulla carta non è esattamente la stessa cosa, te ne sarai accorto. Leggere sul web è più faticoso e comporta abitudini completamente diverse.

Puoi aiutare i tuoi lettori compiendo alcune scelte azzeccate. La dimensione del carattere è decisamente importante, ad esempio scegliere un carattere piccolo per stipare più testo, può distogliere dalla lettura. La risoluzione dello schermo è una variabile da tenere in considerazione, le più usate attualmente sono 800 x 600 e 1024 x 768, scegli un font che sia chiaramente leggibile con queste risoluzioni. L’uso di più colori può aiutare ad enfatizzare titoli, alcune parti di testo o i link, ma è bene non utilizzare troppe variazioni cromatiche.

I font per il web si suddividono in graziati (con grazie o serif) e lineari, cioè senza grazie (sans serif). I graziati hanno degli abbellimenti alle estremità di alcuni caratteri e vengono utilizzati soprattutto sulla carta, sullo schermo i font con grazie non hanno la stessa resa. Studi di usabilità dimostrano che un font lineare aiuta la lettura. Tuttavia questa separazione non è più così netta, un blog che utilizza il Georgia come quello di Luca Conti, ha un aspetto professionale e risulta anche essere molto leggibile. Ultimamente è molto utilizzata anche la combo titolo in graziato e testo in lineare o viceversa.

Chi deve scegliere il font più adatto?
Se hai uno spiccato senso estetico, è una decisione che puoi prendere anche da solo. Per quella che è la mia esperienza, in fase di preventivo, ti consiglio di chiedere alla web agency o allo studio grafico che lavoreranno al layout del tuo sito, se hanno questo genere di competenze. L’aspetto grafico del tuo sito dovrà avere una comunicazione coordinata fra logotipo, pay-off (e il font del pay-off), layout, colori e font.

Ecco alcune notazioni che Nielsen Jakob ha recentemente pubblicato sul suo Web Usability 2.0.

  • utilizzare font comuni ad una dimensione uguale o maggiore a 10pt
  • evitare sfondi affollati
  • utilizzare testo nero su sfondo bianco
  • tenere al minimo testo maiuscolo o incluso in file d’immagine
  • nel dubbio utilizzare Verdana
Francesco ha scritto questo post il 18th agosto, 2008 | File Under Usabilità, Web Writing | No Comments -