Dopo la curiosità di Google Web Server, ho appena scoperto un’altra chicca veramente interessante: il portale Italia.it non si definisce italiano ma inglese!
Premesso che mi sono sempre astenuto dal pubblicare giudizi relativi al progetto in questione, anche quando qualche mese fa è andato online il portale. La mia segnalazione attuale vale per Italia.it come per un qualsiasi altro progetto… solo che in questo caso è particolarmente curioso.
Se voi analizzate gli header restituiti dalla homepage di Italia.it noterete che alla voce Content-language
restituisce en
Content-language: en
Nulla di particolarmente strano considerando che quella welcome page è in realtà un punto di accesso per diverse lingue. Ma se io analizzo gli header della pagina italiana, perché continuo a vedere
Content-language: en
e non
Content-language: it
Insomma, il portale Italia.it non si sente così italiano. In realtà, la struttura del sito contiene il valore corretto nel codice HTML delle pagine. Analizzando il codice è possibile identificare sia la specifica al codice HTML
<html lang="it">
sia il corrispettivo meta tag a valore header HTTP.
<meta name="Content-Language" content="it">
Ma allora perché il tool ha fornito questo valore?
Semplicemente perché nel mio caso, come in quello di diversi altri, le richieste inviate sono di tipo HEAD e non GET dunque il contenuto della pagina viene ignorato e solo gli header sono analizzati.
Poiché i settaggi che sovrascrivono il valore predefinito si trovano solo nel contenuto della pagina, ecco che il valore restituito dal webserver trae in inganno il crawler.
Formalismi a parte, in genere fornire un header linguistico non corretto non è un errore da poco.
Non tutti i motori di ricerca sono così evoluti da eseguire un’identificazione completa basata sul contenuto del sito ed un header errato può comportare problemi per la corretta gestione delle informazioni da parte dei crawler.