Webbot e Spider è un libro pubblicato recentemente dalla Apogeo, come traduzione italiana di Webbots, Spiders and Screen Scrapers di Michael Schrenk.
Il libro è, nel suo piccolo, estremamente originale poiché si tratta di una delle uniche pubblicazioni che abbia trovato fino ad oggi ad analizzare in crawler dal lato di chi li deve sviluppare e non da quello del fornitore di dati, come normalmente avviene per un webmaster che desidera rendere il proprio sito ottimizzato per i motori di ricerca.
Webbot e spider è fortemente orientato a lettori con un discreto background tecnico, meglio ancora se con competenze di PHP. Fin dalle prime pagine infatti il libro scende subito nel pratico fornendo esempi e codice di webbot completamente funzionanti. Tutti i crawler pubblicati come esempio sono sviluppati in PHP 4 sfruttando le funzioni del linguaggio ed un set di librerie personalizzate messe a disposizione dall’autore e scaricabili liberamente.
Il libro è suddiviso in 4 parti e quasi 30 capitoli.
Ogni capitolo è, di norma, orientato a descrivere un tipo di webbot analizzando un esempio reale e funzionante.
Concetti e tecniche fondamentali
Concetti e tecniche fondamentali è il primo capitolo ed include la consueta introduzione al libro.
Già dal secondo capitolo si entra nel vivo con alcune idee per sviluppare webbot in casa mentre dal terzo ci si tuffa completamente in codici ed esempi PHP per scaricare pagine da siti internet e gestire header, cookie ed elementi correlati. Questa prima parte prosegue poi con un capitolo dedicato alle tecniche di parsing, all’invio ed emulazione dei form ed alla gestione dei dati scaricati.
Applicazioni
La seconda parte, Applicazioni, fornisce 11 esempi reali e funzionanti di webbot.
Nell’ordine, l’autore presenta ed analizza un webbot per monitorare i prezzi, per catturare immagini, verificare i link, navigare anonimamente sul web, valutare il rank delle proprie pagine sui motori di ricerca, aggregare contenuti, scambiare dati via FTP e NNTP, leggere ed inviare email. Per darvi un’idea della qualità, ogni webbot è disponibile al download ed è accompagnato da librerie personalizzate messe a disposizione dei lettori.
Considerazioni tecniche avanzate
Considerazioni tecniche avanzate è il capitolo ideale per chi non ne ha ancora avuto abbastanza.
Fornisce indicazioni più dettagliate sul funzionamento degli spider, sui procurament webbot, crittografia ed autenticazione, gestione dei cookie e pianificazione automatica dell’avvio dei crawler.
Considerazioni più ampie
L’ultimo capitolo, chiamato Considerazioni più ampie, è quello che personalmente ho trovato più interessante.
Non che gli altri non lo fossero, ma programmo in PHP da tempo ed ho avuto il piacere di sviluppare diversi webbot. Molte delle informazioni presenti negli altri capitoli erano un ripasso per me, quanto pubblicato in questa era invece come un piacevole scambio di opinioni. Michael include in quest’area alcune considerazioni su come scrivere webbot affidabili senza dare nell’occhio, come bloccare gli spider ed evitare che vengano bloccati ed infine alcune curiosità SEO. Curioso vero? In questo libro meno del 5% è SEO, per il 95% avrete la sensazione di trovarvi per una volta dall’altra parte della barricata!
L’autore conclude il libro con un capitolo interamente dedicato a consigli legali e comportamentali per prevenire un uso non corretto dei vostri webbot.
In conclusione
Per quanto mi riguarda, Webbot e Spider è stata una piacevolissima lettura.
Personalmente lo consiglio a quanti desiderano comprendere meglio il comportamento dei crawler analizzandone lo sviluppo e le caratteristiche tecniche. Difficilmente troverete informazioni per sviluppare un nuovo crawler superdeluxe, tuttavia Webbot e Spider è un complemento ideale per fornire le basi ideali sul funzionamento dei bot a quanti lavorano nel campo dei motori di ricerca.
I programmatori, soprattutto PHP, non avranno particolari difficoltà a leggere i codici d’esempio che, seppur volutamente semplificati, sono sufficienti a fornire la giusta direzione per consentirvi di scrivere autonomamente processi per automatizzare operazioni frequenti.
Ottimo acquisto!