Leggendo i log ho scoperto... #8 - iearthworm

... che Yahoo sembrerebbe avere una collezione di crawler non documentati particolarmente ricca. Dopo il Yahoo-MMCrawler ed il bot travestito da utente, è la volta di iearthworm, un'altro misteriosa creatura di Yahoo! in versione sol levante.

Di iearthworm non se ne parla molto in giro, giusto qualche post neppure troppo recente.
Secondo approfondimenti, questo crawler sembra prediligere elementi come immagini ed icone.

Anche l'analisi recente dei miei log lo conferma.

$ zgrep 'iearthworm' access.log*
[17/Sep/2008:10:21:11 -0700] "HEAD /uploads/2008/04/ce-posta-per-te/mailwasher-on-action.png HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[16/Sep/2008:18:57:27 -0700] "HEAD /uploads/2008/05/benvenuto-ruby-html/guida_thumb_975ccb77f298cabc.gif HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[17/Aug/2008:09:09:11 -0700] "HEAD /uploads/2008/05/benvenuto-ruby-html/guida_thumb_975ccb77f298cabc.gif HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[18/Aug/2008:01:59:30 -0700] "HEAD /uploads/2008/04/ce-posta-per-te/mailwasher-on-action.png HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[21/Aug/2008:09:59:42 -0700] "HEAD /uploads/2008/05/benvenuto-ruby-html/guida_thumb_975ccb77f298cabc.gif HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[22/Aug/2008:03:08:28 -0700] "HEAD /uploads/2008/04/ce-posta-per-te/mailwasher-on-action.png HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[25/Aug/2008:07:22:58 -0700] "HEAD /uploads/2008/05/benvenuto-ruby-html/guida_thumb_975ccb77f298cabc.gif HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[25/Aug/2008:23:56:43 -0700] "HEAD /uploads/2008/04/ce-posta-per-te/mailwasher-on-action.png HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"
[29/Aug/2008:06:28:52 -0700] "HEAD /uploads/2008/05/benvenuto-ruby-html/guida_thumb_975ccb77f298cabc.gif HTTP/1.1" 200 361 "-" "iearthworm/1.0, mailto:iearthworm@yahoo.com.cn"

Il fatto curioso è che l'accesso, almeno sul sito analizzato, avviene essenzialmente ad un paio di risorse ben precise. Inoltre, il crawler sembra aver cambiato nel tempo anche funzione o comportamento, essendo passato dall'uso del metodo HTTP GET a HEAD.

L'uso del metodo HEAD è comune nel caso in cui sia sufficiente analizzare gli header HTTP di una risorsa, in genere per validarne la presenza sul server. Azzardando qualche ipotesi, si direbbe che il compito di questo crawler sia di verificare la presenza sul server di una risorsa, ad esempio, per mantenerla nell'indice di ricerca.

La conferma che si tratta di un crawler di Yahoo! e non di un falso arriva, ancora una volta, da un reverse dns.

$ nslookup 203.209.240.151
Server:         85.37.17.16
Address:        85.37.17.16#53

Non-authoritative answer:
151.240.209.203.in-addr.arpa    name = dlk06.image.cn3.yahoo.com.

Authoritative answers can be found from: