
|
|
|
FILE ROBOTS.txt
L’uso del tag Robots a volte potrebbe risultare scomodo in quanto il suo funzionamento agisce solamente sulla singola pagina web, non permettendo agli spider di indicizzare gruppi di pagine. Inoltre, allo scopo di impedire la lettura delle pagine a tutti i motori di ricerca, e quindi di renderle visibili solo ad alcuni spider, è stato introdotto il Robots Exclusion Standard, che consente ai webmaster di avere un totale controllo su quante e quali pagine far prelevare allo spider. Per escludere i robot, il suddetto standard si serve dell’utilizzo di un normale file di testo che è possibile creare con qualsiasi editor testuale. Tale file deve chiamarsi robots.txt e contiene delle istruzioni che consentono di poter gestire il prelievo di alcune o tutte le pagine del sito. Dopo aver creato il file è necessario pubblicarlo on line nella DIRECTORY PRINCIPALE del sito. ESEMPIO: Se l’indirizzo del sito è http:// www.ilmiosito.xx il file dovrà essere disponibile all’ indirizzo http://www.ilmiosito.xx/robots.txt. In questo modo, gli spider che aderiscono a tale standard (quasi tutti), andranno a cercare nella directory principale il su citato file e, laddove ne rilevassero la presenza, seguiranno le direttive contenute al suo interno. Ricapitolando è necessario aver chiaro il concetto che i file robots.txt servono esclusivamente per non far prelevare agli spider determinate pagine. Ricapitolando è necessario aver chiaro il concetto che i file robots.txt servono esclusivamente per non far prelevare agli spider determinate pagine. Il file robots.txt contiene dei record comprensivi di due campi: il campo “User-agent” ed uno o più campi “Disallow”. “User-agent”: indica a quale spider sono rivolte le direttive. La sintassi è : User-agent <duepunti> <spazio> <nome_dello_spider> “Disallow”: indica a quale drectory o file non può accedere lo spider indicato nel campo User Agent. La sintassi è: Disallow <duepunti> <spazio> <nome_del_file_o_dyrectory> Esempio di un record: User-agent: googlebot Disallow: /foto.html Disallow: /mp3/ Il record segnala a Google ("googlebot" è il nome dello spider di Google) che non gli è permesso prelevare il file foto.html nè accedere alla directory mp3 e ai suoi contenuti, sottodirectory comprese. Come si può notare il nome del file è preceduto da un carattere "/" (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere "/" anche in coda. Il campo User-agent può contenere un asterisco "*", sinonimo di "qualunque spider". Per cui il seguente esempio dice a tutti gli spider di non prelevare il file temporaneo.html: User-agent: * Disallow: /temporaneo.html Il campo Disallow può contenere un carattere "/" ad indicare "qualunque file e directory". L'esempio che segue impedisce a googlebot di prelevare qualunque cosa: User-agent: googlebot Disallow: / Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito: User-agent: * Disallow: Elenco di spider di motori di ricerca Spider googlebot scooter mercator fast slurp teoma_agent Ask Jeeve sia_archiver Motore di ricerca Altavista Altavista Fast - Alltheweb Inktomi - Yahoo Teoma Ask Jeeves Alexa Internet Archive |
|
||
|
Fmline.com © 2000-2005 FMline.com Tutti i diritti riservati |
|||