Leggendo i log ho scoperto... #10 - PDF Search Engine

... PDFind.com, un motore di ricerca che non conoscevo specifico per l'indicizzazione di file PDF.

Il motore di ricerca dispone di un proprio crawler, chiamato PDFBot ed identificato dalla user agent PDFBot (crawler@pdfind.com).

83.233.122.64 - - [15/Aug/2008:02:27:53 -0700] "GET /robots.txt HTTP/1.0" 200 405 "-" "PDFBot (crawler@pdfind.com)"

Il crawler individua e scarica file pdf. Il motore di ricerca analizza i file, mantiene una copia cache ed indicizza i documenti nel proprio archivio. E' possibile visualizzare un'anteprima del PDF direttamente online.

Simone Carletti 's Blog

Related Posts