Jump to content

30.000 pagine col site:... ma se ho meno di 1.000 articoli ! ! !


Recommended Posts

Ciao a tutti,

Quanti di voi non si sono trovati con un sito di e-commerce da ottimizzare o semplicemente da gestire di un numero limitato di articoli, che però ha indicizzato in Google un numero incalcolabile di pagine?

Mille contro trentamila, cioè moltiplico per trenta volte quello che inserisco.

Qualcuno grida al miracolo (ho un sito con ben trentamila pagine!!!) ma un SEO avveduto si rende conto che c'è qualcosa che non va. E sì, si tratta di un processo di generazione di pagine fantasma da parte del bot di Google quando vaga per il nostro CMS.

Ho fatto una ricerca e ho trovato diverse voci da dover tagliare tramite il robots.txt, come ad esempio:

Disallow: /addresses.php
Disallow: /address.php
Disallow: /authentication.php
Disallow: /cart.php
Disallow: /discount.php...

Solo per citarne alcune. Ma c'è un punto in cui non so come agire.

Quando il bot di Google si imbatte nel fatidico menù a tendina "Ordina per: Prezzo dal più basso, Prezzo dal più alto ecc." va in tilt e si trasforma in un vero e proprio generatore di pagine fantasma per il nostro CMS Prestashop.

Prendiamo l'installazione base solo in italiano coi dati di partenza precaricati. Perché dovrei vedere indicizzata la pagina

miosito . it /2_shure-incorporated?orderby=price&orderway=asc
miosito . it /2_shure-incorporated?orderby=price&orderway=desc
miosito . it /2_shure-incorporated?orderby=name&orderway=asc
miosito . it /2_shure-incorporated?orderby=name&orderway=desc
miosito . it /2_shure-incorporated?orderby=quantity&orderway=asc
miosito . it /2_shure-incorporated?orderby=quantity&orderway=desc

SI RIFERISCONO TUTTE AD UN'UNICA PAGINA, solo che vengono create pagine false come Giuda e quindi inutili e quindi DANNOSE per Google.

C'è qualcuno più esperto di me nella gestione del robots.txt che riesce a tagliar via tutto quello che viene dopo ?orderby PER TUTTE LE PAGINE?

Avete un'idea di come risolvere e di come migliorare la nostra attivitò di SEO?

Grazie a tutti.

Link to comment
Share on other sites

Dopo ulteriori ricerche e consultazioni sto provando le seguenti istruzioni nel robots.txt:


Disallow: /*orderby*
Disallow: /*orderway*

In pratica dovrebbero bloccare tutte le URL che al loro interno contengono queste variabili.
Non ho ancora la certezza che funzioni.

Se qualcuno di voi ha qualcosa da aggiungere è benvenuto.

Link to comment
Share on other sites

Noi abbiamo fatto così:

User-agent: *
# Directories
Disallow: /classes/
Disallow: /config/
Disallow: /download/
Disallow: /mails/
Disallow: /modules/
Disallow: /translations/
Disallow: /tools/
Disallow: /lang-it/
# Files
Disallow: /addresses.php
Disallow: /address.php
Disallow: /authentication.php
Disallow: /cart.php
Disallow: /discount.php
Disallow: /footer.php
Disallow: /get-file.php
Disallow: /header.php
Disallow: /history.php
Disallow: /identity.php
Disallow: /images.inc.php
Disallow: /init.php
Disallow: /my-account.php
Disallow: /order.php
Disallow: /order-opc.php
Disallow: /order-slip.php
Disallow: /order-detail.php
Disallow: /order-follow.php
Disallow: /order-return.php
Disallow: /order-confirmation.php
Disallow: /pagination.php
Disallow: /password.php
Disallow: /pdf-invoice.php
Disallow: /pdf-order-return.php
Disallow: /pdf-order-slip.php
Disallow: /product-sort.php
Disallow: /search.php
Disallow: /statistics.php
Disallow: /attachment.php
Disallow: /guest-tracking
Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*id_lang=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=
Disallow: /*token*
Disallow: /*token*
Disallow: /cart.php*
Disallow: /carrello*
Disallow: /my-account.php*
Disallow: /order-opc.php*
Disallow: /authentication.php
Disallow: /history.php
Disallow: /guest-tracking.php
Disallow: /address.php

Link to comment
Share on other sites

  • 2 weeks later...

Ciao Gipielle,

 

Avevo visto la tua risposta, per la quale ti ringrazio, e avevo messo in pratica quanto da te suggerito, integrandolo con quanto stavo facendo io. Ho creato una nuova installazione e ho aspettato che Google indicizzasse le pagine. Adesso mi faccio vivo con quanto sto rilevando.

 

Dopo circa due settimane dal lancio erano indicizzate solo le pagine giuste, cioè quelle che non avevo bloccato col robots.txt, ma in seguito Google ha iniziato a indicizzare anche diverse pagine fantasma, del tipo:

 

www . sito . com /ordine?ipa=6

 

Questo nonostante avessi inserito nel robots.txt le seguenti istruzioni:

 

Disallow: /ordine

Disallow: /ordine*

Disallow: /*ipa=*

 

C'è qualcosa di sbagliato in questo codice?

 

Oppure siamo in un periodo in cui Google sta infischiandosene del robots.txt e indicizza quello che vuole?

 

Anzi, c'è di più: se leggo la URL nella SERP, il link che vedo è:

 

www . sito . com/carrello?qty=1&id_product=6... mentre la pagina si apre su

 

www . sito . com /ordine?ipa=6

 

Anche in questo caso avevo bloccato con:

 

Disallow: /carrello

Disallow: /*qty=*

Disallow: /*id_product*

Disallow: /*id_product=*

 

Grazie a tutti.

Link to comment
Share on other sites

L'azione di ripulitura continua. Con i Webmaster Tools ho cercato di cancellare le URL fantasma, del tipo:

 

www . sito . com /carrello?qty=1&id_product=6... [troncata dal browser]

 

Come dicevo questa URL in serp apre questa pagina:

 

www . sito . com /com/ordine?ipa=6

 

Dato che la URL in SERP è troncata posso cancellare solo la pagina che viene aperta, e in effetti i webmaster tools la rimuovono.

 

Però la URL iniziale (www . sito . com /carrello?qty=1&id_product=6...) non se ne vuole andare dalla SERP, almeno per ora.

 

Nessuna idea?

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...