Intervista ad Alessio Signorini, Director of Search Technology di OneRiot

Friday, November 06 2009

Oggi Alessio Signorini, Director of Search Technology di OneRiot ci parla di real-time search.

M: Nell’ultimo mese abbiamo assistito ad un vero e proprio exploit della real-time search. Mi riferisco agli accordi di Google e Bing con Twitter e le voci (che spero confermerà) di un accordo tra Yahoo e OneRiot. Come spiega questo crescente interesse verso il real-time?

Alessio: Io credo sia merito di Twitter, di Facebook, della diffusione di Internet sui cellulari, e di come questi abbiano cambiato la vita delle persone in così pochi anni.

Facebook è iniziato 5 o 6 anni fa tra le università americane. Io ero ad Iowa City a fare il mio PhD e ricordo di essere stato uno dei primi a registrarmi. Ancora non c’era quasi nessuno su Facebook, ma l’idea di avere un modo per rimanere in contatto con tutti i tuoi amici (anche se si trasferiscono, cambiano email o numero di telefono) era interessante.

Oggi su Facebook le persone scambiano links, video, foto e fanno giochi. Chi lo avrebbe mai detto qualche anno fa?

Twitter è nato nel 2004 se non sbaglio. Nei primi mesi sono cresciuti un po’, ma poi la crescita si è subito arrestata. Pensa che all’inizio di quest’anno avevano “solo” 2.6 milioni di tweets al giorno. Ora ne hanno 26 milioni! E mentre all’inizio l’idea era di creare un micro-blog, oggi Twitter viene usato per tantissimi altri scopi. C’è chi riceve l’oroscopo ogni mattina, chi lo usa come RSS reader, chi condivide foto scattate con il cellulare. Ma la statistica che più mi affascina è che oggi il 23% dei tweets (~6M al giorno) contengono un URL!!!

E’ facile capire come questo sia diventato interessante per i grandi search engines. Mentre appena qualche anno fa (Antonio Gulli ed io abbiamo scritto un paper al riguardo) c’erano “solo” 11.5 miliardi di pagine al mondo, oggi ce ne sono almeno 50 volte tante. Tutti i search engines, Google incluso, non ce la fanno più a star dietro alle pagine create e ricrawlare quelle vecchie.

Ecco quindi il nascere di Google Chrome (che riporta ai server di Google ogni pagina visitata dagli utenti in realtime) e quello di tantissime toolbars (ogni search engine ne ha una) o addons. Simile è anche il motivo per cui Gmail è passata da www.gmail.com a www.google.com/mail, in questo modo Google può seguirti su ogni sito in cui ha un ADs (e sono tanti) grazie ai cookies (usando iframes vengono tutti da www.google.com). Ed infine, ecco perchè quei 6 milioni di URLs scambiati al giorno diventano una miniera d’oro.

Gli utenti visitano i siti comunque: perchè è il loro sito preferito, perchè un amico glielo ha raccomandato, o perchè l’hanno visto in TV. E comunque condivideranno in qualche modo (es, bookmarks, email, tweet, facebook, IM, …) i siti che sembrano loro più interessanti.

Perchè allora non usare questa informazione, in real-time, per aggiornare l’indice, essere “primi” sulle news, e migliorare la freshness dell’intero database?

M: Ha fatto molto discutere in Italia il cosiddetto PulseRank. Io trovo il vostro approccio davvero innovativo rispetto ai classici sistemi di ranking. In particolare come fate a valutare l’autorità di un utente?

Le chiedo questo anche per fare un confronto con Google che di recente ha brevettato un sistema per perfezionare il ranking tenendo conto del trust degli utenti che condividono una risorsa.

Alessio: L’autorità di un utente è basata su quello che l’utente fa, cosa condivide, quando, e chi altro condivide quello stesso URL direttamente (e.g., un retweet) o indirettamente (e.g., perchè ha casualmente condiviso lo stesso link). Se Mario tutte le mattine condivide 3 links appena si sveglia, e questi ogni giorno diventano popolarissimi sul web, è un buon segno, no? :)

Chiaramente, ora che Twitter diventa sempre più popolare, è necessario armarsi anche di una grande serie di algoritmi anti-spam. Molte applicazioni, infatti, semplicemente mandano un tweet (o un messaggio sulla bacheca di Facebook) usando l’account dell’utente appena installate, rendendo popolari URLs/domini e persone che non lo meritano.

In quanto alla recente patent di Google, non è una novità. Tutti i search engines lo fanno da anni. Ad Ask.com abbiamo anche una patent simile a quella di Google e sono sicuro che i miei amici li la faranno valere appena gli torna comodo. :)

M: Lei ha anche lavorato come Director of Technology per Ask.com, un motore di ricerca molto più “tradizionale” rispetto a OneRiot. Quali sono le differenze più significative tra i motori classici e quelli real-time a livello di utenza? In altre parole: chi utilizza i motori real-time e perchè lo fa?

Alessio: Questa è facile: Vuoi il trovare il sito di Britney Spears? Vai su Google. Vuoi sapere dove è in vacanza, cosa sta facendo, o qual è l’ultimo scoop su di lei? Usa OneRiot.

I motori di ricerca tradizionali sono ottimi per trovare informazioni “statiche” sul web, come in una enciclopedia. Questo è dovuto a come “scoprono” le pagine (tramite crawling) e come le indicizzano (grossi batch process che aggiornano l’indice una volta ogni N giorni/settimane).

Per “simulare” la freshness, ricorrono a tanti tanti tricks: ad esempio, visitano la pagina di CNN.com molto più frequentemente di qualsiasi altro sito al mondo perchè sanno che le news passano di lì, e gli danno un rank alto (anche se il pagerank di quelle pagine è chiaramente 0 all’inizio) solo perchè viene da CNN.

Chi utilizza i motori di ricerca real-time sa benissimo che non troverà la pagina di Wikipedia sulla torre Eiffel o il sito ufficiale del Genoa Calcio. Chi usa i motori di ricerca real-time vuole sapere cosa succede in Iran, chi ha vinto ieri sera ad American Idol, o come stanno andando le elezioni statali in New Jersey o l’incendio in LA.

E siamo bravi su questo. :)

M: Il real-time ha giocato un ruolo fondamentale nelle elezioni statunitensi e in Iran. Questa importanza sempre maggiore dello user generated content potrebbe porre secondo lei dei problemi di attendibilità delle informazioni?

Alessio: Certamente, soprattutto in nazioni ancora non abituate a questo tipo di contenuti. Per esempio, io rido spesso quando, tornando a casa in Italia per le vacanze, qualcuno mi cita (o va a controllare su) Wikipedia.it.

L’assunzione è ancora che “se è su Internet, è vero” perchè la gente percepisce ancora “Internet” come una cosa complicata su cui solo universitari/ricercatori o gente importante può pubblicare.

Guardando però ai lati positivi della cosa, con tutti i camera/internet-enable phones che ci sono adesso, è quasi praticamente garantito che ovunque succeda qualcosa di rilevante ci sia qualcuno pronto a documentarlo in real-time online.

Il giornalismo, quello vero, è tutta un’altra cosa e va mantenuto, ma quando un aeroplano atterra nell’Hudson, il primo a riportare la notizia e fare qualche foto sarà il pescatore che pulisce la propria barca o la coppietta che passeggiava nel meat-pack district.

M: I motori real-time sono in sostanza dei motori di ricerca sociali, in cui sono gli utenti a dare peso alle risorse. Come mai l’altro grande esempio di motore sociale, Wikia Search non ha avuto successo?

Alessio: Wikia è un esperimento diverso. E’ stato creato nel momento in cui le “wiki” stavano diventando popolarissime. C’era una wiki per ogni cosa, da come cucinare cibo turco a come costruire bombe. Era difficile districarsi tra tutte le wiki esistenti. Wikia, ha cercato di organizzarle tutte assieme, permettendoti di trovare la Wiki su Star Trek e di iniziare da subito a contribuire.

Quando i motori di ricerca real-time diventeranno veramente “sociali”, te ne accorgerai. Facebook ci sta lavorando, ma anche Microsoft e OneRiot lo stanno facendo. Immagina se i risultati delle tue ricerche fossero influenzati da quello che i tuoi “amici” condividono e cliccano, da quello che le persone vicino a te (geograficamente) condividono e cliccano e da quello che le persone come te (per interessi) condividono e cliccano.

E’ una search totalmente personalizzata. Ti permetterebbe di scoprire che stasera al bar dietro l’angolo c’è musica dal vivo, che a MediaWorld vendono un televisore piatto come lo stai cercando per soli 50 euro, e che il miglior sito per gli appassionati dei pesci scalari (pesce d’acquario tropicale d’acqua dolce) è questo qui. Carina l’idea, no? :)

M: Lei è attualmente PhD presso la University of Iowa. Un’altro “cervello in fuga”, potremmo dire. Cosa l’ha spinta a lasciare il nostro Paese e secondo lei perchè l’Italia non riesce a competere a livello internazionale nello sviluppo di algoritmi e software?

Alessio: Io ho avuto fortuna. Ho pubblicato qualche ricerca interessante e così mi sono arrivate offerte dalle università americane.

Devo un bel po’ alle persone stimolanti che ho incontrato durante la mia carriera universitaria come Antonio Gulli (ora direttore della search nel centro di Londra di Microsoft), Bruno Codenotti (ex direttore del CNR di Pisa) ed Alberto Segre (direttore dei graduate studies nel dipartimento di Computer Science ad Iowa).

Loro mi hanno spinto verso la ricerca, ed è lì che ho scoperto un nuovo mondo. Purtroppo, non sono i cervelli che mancano alle università Italiane, ma lo spirito con cui si affronta l’università. In Italia, uno si iscrive all’università ed il suo unico scopo è seguire le lezioni, passare “i compitini”, e fare gli esami. Si inizia alle 9 del mattino e si finisce nel primo pomeriggio. Punto.

E’ sbagliatissimo!!!

Incoraggiamo gli studenti a fare ricerca, ad avere idee, e svilupparle!

Si può fare tantissimo anche con solo una paio di computers e qualche notte insonne. Alla UIOWA facciamo protein-folding (cerchiamo la struttura moleculare ottimale di alcune proteine in modo che le medicine che le contengano siano efficaci) con 5 computer di 10 anni fa e la maggior parte delle mie ricerche sono state fatte sul mio laptop che ormai a 7 anni di età.

Io ho iniziato così, ed il mio laptop ogni notte continua a fare calcoli per me. Ne butto via tanti, ma almeno 2 o 3 volte all’anno ho una buona idea, e pubblico qualche papers.

M: Da studente universitario non posso che essere d’accordo. :) In Italia non è possibile brevettare algoritmi e metodi matematici (a meno di ricorrere al brevetto europeo). Mentre chi si occupa di SEO è abituato agli innumerevoli brevetti di Google che – in sostanza – riguardano metodi e tecniche di ranking. Qual è il suo punto di vista sulla brevettabilità? Il fatto di garantire dei maggiori diritti agli sviluppatori è un incentivo o un freno al progresso tecnologico?

Alessio: Nell’industria, in realtà, spesso le software patents sono più a favore degli inventori che della compagnia. Se sei a Google, non puoi di certo pubblicare un paper su come fai il ranking, e quindi pubblichi una patent, così il tuo nome viene associato all’invenzione, e la compagnia acquisisce più valore negli occhi degli investitori.

L’altra possibilità è che tu abbia un’idea, magari non completa, magari neanche sperimentata, ma che tu pensi abbia delle potenzialità. Ecco quindi che ci fai sopra una patent, perchè così, per $6000, se un domani qualcuno crea qualcosa di simile gli puoi fare causa, e se questa è una grossa compagnia, spesso preferisce fare un settlement monetario (es. cosa sono $100,000 per Google?) piuttosto che tirare avanti una causa per mesi.

Ad Ask.com abbiamo scritto una patent sui popups. Non credo qualcuno mai si metterà a fare causa a tutti i siti che li usano. :)

M: La ringrazio per l’attenzione e le auguro buon lavoro. Fa sempre piacere vedere un connazionale che ricopre ruoli di rilievo a livello internazionale. :)