Edison: uno sguardo dentro al nuovo algoritmo di Ask

ask Sembrerebbe che Ask.com sia pronto a lanciarsi sul mercato con un algoritmo innovativo, parzialmente anticipato all'intervento Social Search Panel del Search Engine Strategies di New York.

A dire il vero, lo sviluppo di questo nuovo algoritmo non è più un'indiscrezione poiché

  • Jim Lanzone, CEO di ASk.com
  • Apostolos Gerasoulis
  • Rahul Lahiri, Vice President of Product Management and Search Technology

ne hanno confermato l'esistenza.

Il nuovo algoritmo di Ask: Edison

Il nuovo algoritmo si chiama Edison ed è il risultato di una fusione tra due differenti tecnologie di ricerca proprietà di Ask: Teoma e Direct Hit.
Al momento non circolano troppi dettagli su questa nuova tecnologia nonostante i punti chiave appaiono collegati a

  • utilizzo di nuovi criteri di ranking, alcuni dei quali basati sul comportamento degli utenti
  • maggiore attenzione alle community ed agli utenti
  • 3 nuovi brevetti presentati da Ask nei giorni scorsi

Search Engine Roundtable riassume le caratteristiche di Edison in 3 punti

  1. Direct Hit e Teoma sono i primi motori di ricerca "sociali", ora proprietà di Ask.com.
    Direct Hit, acquistato nel 1999, utilizzava i click degli utenti per determinare il ranking di una risorsa: più click = risorsa maggiormente interessante.
    Teoma era conosciuto anche per la caratteristica di utilizzare hub e siti autoritari per determinare la rilevanza dei risultati, qualcosa tipo l'attuale TrustRank definito da Google.
  2. Apostolos, nel suo speech al Search Engine Strategies, ha confermato che Ask fonderà queste due tecnologie in un unico motore di ricerca.
  3. Apostolos ha documentato, nota molto interessante aggiungo io, come per ben più di 3 anni tutte le query sono state "taggate".
    Questo significa che, se l'utente ha eseguito una ricerca per il termine "auto" e selezionato un risultato, allora quel risultato sarà contrassegnato anche con il tag "auto".

Con ogni probabilità, conclude Search Engine Roundtable, il nuovo Ask sarà composto da questi 3 elementi essenziali.

Quando sarà operativo Edison

Continuando nella lettura dei post sull'argomento arrivo su Search Engine Land dove Barry Schwartz riporta una citazione da Rahul Lahiri.

Edison is still in development, so we can't say too much at this juncture. I can tell you that it's a next generation algorithm that, among many other things, synthesizes modernized versions of Teoma and DirectHit technologies, as AG said this morning. It's much more complicated than saying we're just counting clicks, in the case of DirectHit. The technologies we have, and the patents we hold, go way beyond that. We're also taking a deeper look at communities and calculating the authorities in those communities. We were really inspired by looking into the universe of user behavior, and what that could tell us, and the social fabric of the Web itself, and what that tells us. We're also rolling out an upgraded search infrastructure over the course of 2007 and building a new datacenter along the Columbia River in eastern Washington, which will help our speed, freshness and data quality. It's safe to say that Edison itself will roll out over the course of the year, as we improve it and tweak parameters.

Da quanto riportato si comprende che

  • Edison è tutt'ora in fase di sviluppo
  • Edison sarà, come già anticipato, un mix di più tecnologie di ricerca con un'occhio particolare agli utenti
  • Edison sarà operativo nel corso del 2007, con un aggiornamento dei database di Ask in concomitanza all'intruduzione di un nuovo datacenter per accelerare i tempi di risposta e la qualità dei risultati
  • Edison non è definitivo, nel corso del 2007 subirà senz'altro aggiornamenti e modifiche

I 3 brevetti correlati

Secondo Bill Slawski di SEO by the SEA, alla base di questa nuova tecnologia sono da menzionare 3 brevetti recentemente presentati da Ask.
Il nome stesso, Edison, farebbe riferimento al fatto che 2 degli autori dell'ultimo brevetto sono di Edison, New Jersey.

Ma quali sono i brevetti in ballo?

  1. System and method for responding to a user query
  2. System and method for responding to a user reference query
  3. Similarity detection and clustering of images

Da questi tre documenti emergono interessanti informazioni.
Ad esempio, analizzando il primo ed il terzo si legge come è possibile identificare una risposta basandosi su una collezione di dati ben più ampia delle classiche informazioni contenuti nelle pagine.

This invention provides a system and method for responding to a user query. An identifier identifies an answer to a user query based on data in one or more structured data collections. A search engine in communication with the identifier searches, based on the answer, a systematically-generated, automatically-updated index of files to identify a file associated with the answer. A ranker in communication with the search engine ranks the identified files. A generator in communication with the search engine generates a response to the query based on a result of the searching. In one application, the system is used to provide an answer portal.

Tra gli elementi che si possono tenere in considerazione figurano

  1. il numero e la qualità dei click ad una risposta
  2. le recensioni degli utenti
  3. la data di ultima modifica
  4. la data di creazione del file
  5. un profilo utente utilizzabile per dare un voto a questo file

Cambiando totalmente argomento il terzo brevetto fa riferimento alla gestione delle immagini.
Da sottolineare come tra gli autori compaiano ben 4 italiani

  • Gulli; Antonino; (Pisa, IT)
  • Savona; Antonio; (Sora (FR), IT)
  • Tanganelli; Filippo; (Castigilioncello (Livorno), IT)
  • Carnevale; Luigi; (Pisa, IT)

A differenza degli altri due, quest'ultimo brevetto analizza metodi per individuare immagini simili in un determinato contesto, creando una sorta di hashing dell'immagine stessa e confrontandola con i valori generati per le altre immagini.

Un'applicazione pratica, vado a spanne, potrebbe essere quella di filtrare i risultati di una ricerca immagini per una determinata keyword al fine di non mostrare più volte la stessa immagine o suoi derivati applicando una sorta di filtro sui contenuti duplicati ad un contesto diverso alle classiche pagine web.

In conclusione

E' probabile che questi 3 brevetti saranno parte del nuovo algoritmo Edison alla base di Ask nel prossimo futuro.
E' altrettanto possibile che nuovi brevetti verranno pubblicati al fine di descrivere meglio le caratteristiche di Edison.

Quello che pare certo è che Edison darà molta importanza agli utenti ed al loro comportamento, affiancando questi dati agli algoritmi tradizionali.
In poche parole, non sarà più sufficiente un'attività tradizionale SEO sulla struttura del sito ma sarà fondamentale che il sito sia in grado di attirare utenti e conquistarne il loro interesse.