Quanti dati indicizza Google?

Sono sempre rimasto affascinato nell'immaginare l'enorme quantità di dati gestita ed immagazzinata da Google: GMail offre oltre 2Gb di spazio gratuito a chiunque, Google Analytics succhia log e visite a tutto andare, Google Base non vede l'ora di fagocitare nuovi contenuti ed i crawler di Google non vanno in ferie neppure a ferragosto... ma quanto tiene tutto questo spazio?

A maggio Eric Schmidt comunicò che Google era in crisi... troppi dati! Ma quantificandolo, cosa significa troppi?

Sebbene non sono mai stati pubblicati documenti ufficiali sullo spazio occupato dai server di Google, Google Operating System ha pubblicato alcune informazioni che veramente fanno immaginare quanto sia ridicolo il mio nuovo hard disk appena comprato da 400Gb! I dati sono estratti da una pubblicazione intitolata Bigtable: A Distributed Storage System for Structured Data, pubblicata su Google Labs, con argomento la trattazione di un nuovo sistema di gestione distribuita dei dati che permette il salvataggio di enormi quantità di Gb di informazioni.

Tornando a Google, si scopre così che i crawler di Google ad oggi utilizzano circa 850 TB di dati (TB = Terabyte, ovvero 1024 GB) per immagazzinare i dati grezzi delle scansioni. Google Analytics utilizza 220 TB di dati suddividi in due gruppi: 200 TB per i log grezzi e 20 TB per i dati aggregati. Google Heart utilizza 70,5 TB suddivisi in 70 TB di immagini e cartine e 500 GB di indici.
Più discreto l'indice di Google Personalized Search che occupa "solamente" 4 TB, il doppio rispetto ai 2 TB di Google base e 9 TB per Orkut.

Ah, per completare il quadretto c'è da considerare che a tutti i dati salvati è applicato un fattore di compressione (11% per i dati di Google Search) e che tutti questi dati sono disponibili in numerose copie in mirroring sui vari datacenter.

Sconvolgente ed affascinante!