servizi

Crawl budget: tutto quello che devi sapere!

Il budget di scansione di un sito web è un concetto che spesso viene trascurato. Nella realtà questo può influire notevolmente sulla visibilità organica e sull’indicizzazione delle pagine: ecco perché merita la giusta attenzione.

Che cosa s’intende per crawling?

Il crawling è l’operazione attraverso la quale i motori di ricerca scansionano le pagine web, alla ricerca di nuove risorse da indicizzare.

A causa della crescita esponenziale dei contenuti sul web, accelerata anche dall’avvento dell’intelligenza artificiale, è ormai impossibile per i motori di ricerca scansionare tutte le risorse disponibili.

Per questo motivo, l’ottimizzazione del crawl budget è diventata un fattore sempre più rilevante, soprattutto per i siti di grandi dimensioni.

Cos’è il Crawl budget di Google?

Il Crawl Budget è la frequenza con cui i crawler dei motori di ricerca effettuano la scansione delle pagine di un sito web. In sostanza indica quante volte il motore di ricerca “fa visita a un sito”: supponiamo di avere 2 scansioni al giorno, mensilmente avrò 60/62 scansioni. Questo valore assume maggiore importanza in riferimento a siti di una certa dimensione, che pubblicano costantemente nuovi articoli e/o prodotti. Più frequente è la scansione, maggiore è la probabilità di posizionarsi in tempi rapidi. Secondo Google, il crawl budget è determinato da due fattori principali:
  • il “crawl rate limit”
  • la “crawl demand”
Il “crawl rate limit” rappresenta il numero massimo di richieste che Googlebot può fare al tuo sito senza sovraccaricarlo. La “crawl demand” indica quanto è richiesta la scansione delle tue pagine in base alla loro popolarità e all’obsolescenza dei contenuti.

Perché Google ha definito un budget?

Come anticipato in procedenza, nel web ci sono miliardi di siti, qualcuno possiede anche migliaia di pagine. Effettuare la scansione sistematica di tutte le risorse richiederebbe notevoli risorse in termini di tempo e di hardware. Inoltre, Google cerca di essere efficiente nell’utilizzo delle risorse per ridurre l’impatto ambientale dei suoi data center. Ottimizzando il crawl budget, Google può ridurre il consumo energetico associato alla scansione del web.

Da qui è nata la decisione “obbligata” di limitare le risorse e il tempo dedicate ad ogni sito e di dedicare più budget a un sito rispetto ad un altro.

Perché questo fattore viene sottovalutato?

Il crawl budget non è un fattore di classificazione diretto, perciò in molti equiparano questo fatto a una scarsa valenza. Questo però è un errore, soprattutto per i siti più grandi, come ha chiarito Gary Illyes di Google. Negli ultimi aggiornamenti, Google ha sottolineato che il crawl budget è principalmente una preoccupazione per i siti con più di un milione di pagine. Per i siti più piccoli, l’ottimizzazione del crawl budget potrebbe non avere un impatto significativo.

Basti considerare che ricevere visite frequenti del bot è una conferma che abbiamo fatto un buon lavoro. Se lo spider passa spesso ci permette di presentare agli utenti i nuovi contenuti, non appena li pubblichiamo.

Quali fattori influenzano il Crawl budget?

Se Google ci assegna un buon valore di budget, significa che ritiene il nostro sito e i nostri contenuti utili e di qualità.

I fattori che influenzano questa allocazione sono:

  • velocità del sito e facilità di raggiungere le risorse interne senza intoppi;
  • qualità dei contenuti: Google vuole fornire ai suoi utenti contenuti di valore e tende perciò ad “eliminare” quelli di poco valore e non aggiornati.

Oltre ai fattori già menzionati, altri elementi che influenzano il crawl budget includono la struttura del sito, la presenza di errori server (5xx) e l’uso di URL dinamici o parametri che generano contenuti duplicati.

Con quali strumenti possiamo verificare il crawl budget?

Lo strumento principe che ci consente di monitorare questo valore è la Search Console. Possiamo accedere a queste informazioni al percorso:

Strumenti e rapporti precedenti > Statistiche di scansione

Qui è disponibile il “Rapporto sulle Statistiche di Scansione” che offre dettagli approfonditi sulle attività di crawling di Googlebot sul tuo sito, inclusi i tipi di file scansionati, la risposta del server e le finalità della scansione.

Attraverso la Search Console, abbiamo in sostanza la possibilità di monitorare quanti file, pagine e immagini vengono scaricati e analizzati quotidianamente da Google.

I due indicatori chiave da tenere d’occhio sono:

  • Pagine scansionate al giorno: l’obiettivo ideale è che il numero di pagine scansionate sia pari o superiore al totale delle pagine presenti sul sito. Anche un equilibrio tra questi valori è un segnale positivo, indicando che Googlebot sta coprendo efficacemente il nostro contenuto.
  • Tempo impiegato per il download: questo dato riflette quanto tempo serve a Googlebot per scansionare le nostre pagine. Un valore più basso è preferibile, poiché indica che le pagine si caricano rapidamente, facilitando il lavoro del crawler. Migliorare la velocità del sito contribuisce a ridurre questo tempo, influenzando positivamente anche la quantità di dati scaricati durante le scansioni.

Google gestisce il crawl budget cercando un equilibrio tra le necessità degli utenti e l’efficienza dei server che ospitano i siti web. In pratica, considera sia la quantità (crawl demand) che la qualità (crawl rate). Da un lato, si assicura che Googlebot visiti il sito con sufficiente frequenza per mantenere aggiornati i suoi indici, dall’altro, monitora il carico sul server per evitare sovraccarichi inutili.

È possibile cambiare la frequenza di scansione di Googlebot?

Riceviamo la risposta a questa domanda direttamente dalla Search Console: “Non puoi cambiare la frequenza con cui Google esegue la scansione del tuo sito. Se però vuoi che Google esegua la scansione dei contenuti nuovi o aggiornati del tuo sito, puoi richiedere una nuova scansione”.

Anche se non puoi cambiare direttamente la frequenza di scansione, puoi influenzarla migliorando la salute del tuo sito, aggiornando regolarmente i contenuti e risolvendo gli errori di scansione.

Perché è importante ottimizzare il Crawl Budget

Il ruolo chiave di un consulente SEO è assicurarsi che Google individui e comprenda il maggior numero possibile di pagine indicizzabili del tuo sito, e che lo faccia nel modo più rapido ed efficiente. Quando aggiungi nuove pagine o aggiorni contenuti esistenti, è essenziale che i crawler le scoprano al più presto, poiché una rapida indicizzazione porta a una maggiore visibilità nelle SERP. Se il crawl budget viene utilizzato in modo inefficiente, i motori di ricerca potrebbero non scansionare il tuo sito in maniera ottimale. Questo significa che potrebbero spendere tempo su sezioni meno importanti, mentre le pagine più rilevanti rischiano di non essere scansionate né indicizzate.

Come ottimizzare il crawl budget

Si possono compiere diverse azioni per ottenere maggiore attenzione da parte di Google.
  • Aggiornare i contenuti obsoleti in modo sostanziale, eliminando notizie non più valide ed integrando nuovi paragrafi;
  • Produrre con costanza contenuti di qualità rispondenti al search intent dell’utente;
  • Eliminare i contenuti duplicati sul sito;
  • Aumentare la propria autorevolezza con una campagna di link building;
  • Migliorare le prestazioni del sito, ponendo particolare attenzione alla velocità di caricamento delle pagine e iniziando ad agire sui core web vitals;
  • Migliorare la struttura del sito, in modo che sia facilmente scansionabile da parte del bot di Google;
  • Migliorare la rete di internal links, evitando di lasciare “pagine orfane”;
  • Eliminare i link rotti, che potrebbero impedire la scansione di contenuti di valore agendo da veri e propri “vicoli ciechi”;
  • Eliminare gli errori di scansione rilevabili attraverso la Search Console;
  • Mantenere aggiornata la sitemap.xml, escludendo risorse inutili (es. gli archivi autore);
  • Evitare le catene di reindirizzamento attraverso il redirect 301. Per esempio è utile sostituire la sequenza pag A red 301 → pag B red 301 → pag C con un redirect diretto dalla pagina A alla pagina C.
  • Inoltre, implementare il protocollo HTTP/2 può migliorare l’efficienza del crawling da parte di Googlebot, poiché supporta connessioni più veloci e simultanee. Utilizzare il file robots.txt per bloccare le risorse non essenziali può aiutare a indirizzare il crawl budget verso le pagine più importanti.

In conclusione...

Il Crawl Budget non rappresenta un fattore di ranking diretto, ma certamente fornisce indicazioni che non possiamo trascurare sul giudizio di valore che Google ha nei confronti del nostro sito.

Inoltre, in un’epoca in cui l’efficienza e la sostenibilità sono fondamentali, ottimizzare il crawl budget aiuta il tuo sito a essere scansionato e indicizzato più efficacemente, e contribuisce anche a un web più sostenibile.

Se hai bisogno di chiarimenti o desideri una consulenza dedicata, non esitare a contattarmi.

Rettangolo mobile home
Background sezione

Contattami

TrustPilot

Google

Upwork