Eppure in google ci sono ancora molti link che portano su quelle pagine, con il risultato che ogni volta che qualcuno ci clicca ottiene una pagina di errore.
Se il sito è stato rifatto ma tratta ancora del medesimo argomento, sarebbe utile riuscire a mantenere le pagine indicizzate in google e magari ridirigere il traffico che raggiunge pagine non più esistenti sule pagine nuove.
Questo si può ottenere inserendo le pagine mancanti e al loro interno mettere un redirect alle nuove pagine, oppure se si stà usando apache con modulo mod rewrite e si ha accesso a questo file, apportare le giuste modifiche al file .htaccess.
Tuttavia in alcuni casi è necessario che le pagine indicizzate debbano essere rimosse dall'indice di google, e alora come si procede?
Web master tool per la rimozione dei link
La procedura da seguire per rimuovere link a pagine ormai non più presenti sul nostro sito dall'indice di google prevede l'utilizzo di webmaster tool di google.
Prima di tutto è necessario che la pagina che si intende rimuovere dall'indice di google non sia effettivamente più raggiungibile (dagli spider di google), e questo accade nel caso in cui sia stata rimossa dal sito, ma può succedere che si voglia rimuovere dagli indici di google una pagina che è ancora presente sul nostro sito. Per impedire al crowler di google di reindicizzare la pagina bisogna prendere delle precauzioni.
Impedire ai Crowler di accedere ai dai da rimuovere dall'indice con i Meta tag
Nelle pagine da rimuovere dall'indice scrivete il seguente metatag:
<meta name="robots" content="noindex">
Questo meta tag impedisce a tutti i motori di ricerca di indicizzare la pagina in cui è contenuto.
Se invece vogliamo che solo google venga respinto dalla pagina inseriamo:
<meta name="googlebot" content="noindex">
Impedire ai Crowler di accedere ai dai da rimuovere dall'indice con Il file robots.txt
Un altro sistema per bloccare i crowler dei motori di ricerca è quello di usare un file robots.txt da inserire nella root del sito.
La sintassi di questo file non è complessa e praticamente consente di scegliere quali cartelle o file non devono essere scansite dai cowler dei motori.
Un esempio di questo file può essere il seguente:
User-Agent: *
Disallow: /file_personali/
Praticamente in questo caso il crowler indicizzerà tutti i file e cartelle tranne il contenuto della cartella file_personali.
Eseguire la richiesta di rimozione
Una volta assicurati che i file da eliminare non sono più ispezionabili dai motori di ricerca possiamo rimuoverli andando nel webmaster tool di google cliccando su:
Configurazione sito -> Accesso Crawler -> Rimuovi url
poi sul pulsante "+ nuova richiesta rimozione" ci verrà chiesto se vogliamo rimuovere solo un file, una cartella o l'intero sito. per rimuovere l'intero sito, il file robots.txt dovrà contenere le seguenti righe:
User-Agent: *
Disallow: /
Ora inoltrate la richiesta e nel giro di 2-3 giorni le pagine saranno rimosse dall'indice di google a patto che vengano rispettate le condizioni sopra citate. nel caso in cui la rimozione venga negata saranno esposti i motivi.
poi sul pulsante "+ nuova richiesta rimozione" ci verrà chiesto se vogliamo rimuovere solo un file, una cartella o l'intero sito. per rimuovere l'intero sito, il file robots.txt dovrà contenere le seguenti righe:
User-Agent: *
Disallow: /
Ora inoltrate la richiesta e nel giro di 2-3 giorni le pagine saranno rimosse dall'indice di google a patto che vengano rispettate le condizioni sopra citate. nel caso in cui la rimozione venga negata saranno esposti i motivi.