Hostwinds Blog

Cerca risultati per:


429 Errore: come i robot e gli strumenti interni possono sovraccaricare il tuo sito Immagine in primo piano

429 Errore: come i robot e gli strumenti interni possono sovraccaricare il tuo sito

di: Hostwinds Team  /  luglio 16, 2025


L'errore 429— "Troppe richieste"—Pila quando qualcosa colpisce il tuo sito troppo frequentemente in breve tempo. All'inizio, potrebbe sembrare un piccolo problema o solo il tuo server che cerca di gestire il traffico.

Ma in molti casi, non è una corsa di visitatori reali che causano il problema: i robot.Alcuni sono utili, come Googlebot.Altri, come raschiatori o strumenti aggressivi, possono sovraccaricare il tuo sito senza significato.E a volte, il colpevole non è affatto esterno: è il tuo software o sistemi di monitoraggio che attivano l'errore.

Cosa sta effettivamente causando l'errore 429?

Un errore 429 è il modo di dire il tuo server:

"Stai inviando troppe richieste troppo in fretta.Indietro per un po '."

Questa risposta è generalmente legata alla limitazione della tariffa, un metodo siti Web e le API utilizzano quante richieste un singolo client (come un browser, un crawler o uno script) può inviare per un periodo di tempo.

Mentre è possibile che un improvviso afflusso di traffico possa provenire da un aumento degli utenti reali, è più spesso il risultato di attività automatizzate.Questi robot e strumenti non sono necessariamente dannosi, poiché gran parte di Internet dipende da loro per gestire compiti ripetitivi senza input umani.Ma quando inviano troppe richieste troppo velocemente, possono innescare inconsapevolmente un errore 429.

Chi sta inviando troppe richieste?

È facile supporre che il picco provenga da un'ondata di traffico o persino un'attività dannosa.Ma in molti casi, la causa rientra in uno di questi gruppi:

  • Crawler del motore di ricerca: Bot come Googlebot, Bingbot e altri scansionano il tuo sito Web per mantenere aggiornati i loro indici di ricerca, di solito è una buona cosa.Detto questo, possono comunque sovraccaricare un server se il sito viene aggiornato frequentemente o ha molte pagine interconnesse.
  • Strumenti SEO: Strumenti come Screaming Frog, Ahrefs e Semrush simulano il comportamento del bot per controllare il tuo sito Web.Possono inviare centinaia o migliaia di richieste in breve tempo per controllare ogni pagina, link e tag.Senza impostazioni dell'acceleratore adeguate, questi strumenti possono sopraffare un server Web.
  • Raschiatori del sito: Questi di solito non sono benvenuti.Gli raschiatori vengono spesso utilizzati per estrarre dati come prezzi, recensioni o Descrizioni del prodotto.Molti non seguono comportamenti educati e possono colpire ripetutamente determinate pagine o tentare di scaricare l'intero sito.
  • Monitor e script di uptime: Se questi sono impostati per funzionare troppo frequentemente o senza intervalli intelligenti, possono comportarsi involontariamente come il traffico di spam.
  • Servizi interni: La tua infrastruttura - come Cron Jobs, API o Integrations - può accidentalmente sopraffare il tuo sito, soprattutto se non sono progettate per rispettare i limiti.

La linea di fondo: queste non sono persone che sfogliano il tuo sito: sono processi automatizzati.Alcuni sono utili, altri non lo sono, ma in entrambi i casi, possono sovraccaricare la tua infrastruttura, soprattutto se il tuo server non è creato per gestire picchi improvvisi come quelli che accadono durante Attacchi DDoS.

Come rintracciare la fonte dell'errore 429

Prima di apportare modifiche ai limiti di tariffa del tuo sito o alle impostazioni del firewall, aiuta a sapere esattamente cosa sta causando il problema.

Inizia con i registri:

  • Registri del server: Questi sono il primo posto da controllare.Stai cercando indirizzi IP, agenti utente o percorsi che appaiono ripetutamente per un breve periodo di tempo.I file di registro comuni includono Access.log per Apache o Access.log/Error.log per Nginx.Cerca richieste che restituiscono un codice di stato 429.
  • Valuta i registri dei limiti (se li hai): Alcuni servizi (come gateway API, proxy o reti di consegna dei contenuti) forniscono registri dedicati per la limitazione delle tariffe.Questi possono individuare quali richieste hanno superato la soglia, da quale IP proveniva e a quale endpoint si accedeva.
  • Modelli: Guarda evidenti segni di automazione.Richiede che:
    • Non trasportare cookie o intestazioni di sessione tipiche di un browser
    • Usa agenti utente generici o sospetti come richieste di pitone, riccioli o raschiatori personalizzati
    • Provengono da fornitori di hosting noti o data center (AWS, Azure, Hetzner, ecc.)

Una volta che emerge uno schema, puoi decidere se il traffico è buono (ad es. Googlebot) o deve essere bloccato o rallentato.

La tua tariffa è impostata giusta?

La limitazione della tariffa aiuta a impedire al tuo sito di sovraccaricare, ma se è troppo aggressivo, potrebbe anche bloccare il traffico utile, a livello di problemi come 504 errori di timeout gateway.La giusta configurazione può impedire l'abuso senza bloccare il traffico legittimo.

Cose a cui pensare:

  • Metodo di limitazione: Stai monitorando le richieste per indirizzo IP, token API, sessione utente o qualcos'altro?La limitazione basata su IP è comune, ma potrebbe non essere efficace se più utenti condividono lo stesso IP.
  • Tipo limite:
    • Finestra fissa: limita le richieste in intervalli fissi (ad es. 100 richieste al minuto).Facile da implementare, ma può essere GAMED.
    • Finestra scorrevole: più flessibile, diffonde richieste nel tempo.
    • Secchio di token o secchio che perde: consente gli esplosioni occasionali ma controlla il tasso complessivo.
  • Intesta e risposte: Assicurati di restituire intestazioni come un tentativo dopo bot e strumenti sappiano quando mettere in pausa e riprovare.Ciò migliora la compatibilità con i crawler ben educati.
  • Soglie personalizzate: Non trattare tutto il traffico allo stesso modo.È possibile consentire più richieste per utenti accessi, bot di ricerca o strumenti interni mantenendo un guinzaglio più stretto su visitatori sconosciuti o non autenticati.

Alla fine della giornata, è un atto di bilanciamento: se i limiti di tariffa sono troppo stretti, puoi bloccare i robot legittimi o impedire agli utenti di accedere al tuo sito.Se sono troppo sciolti, i robot cattivi possono mangiare risorse o peggio.

Lascia passare i buoni robot

I motori di ricerca e gli strumenti SEO di fiducia sono essenziali per la visibilità e le prestazioni.Vuoi consentire loro di entrare, ma in modo controllato.

Ecco cosa aiuta:

  • Robots.txt e crawl-delay: Puoi usare la direttiva di crawl-delay per dire ai robot per rallentare.Questo non è onorato da tutti i crawler, ma alcuni, specialmente quelli carini, lo rispettano.
  • Robot di fidati di whitelisting: Rivedi le stringhe degli agenti utente nei tuoi registri per identificare Googlebot, Bingbot e altri.Confermali con controlli DNS inversi per evitare impostori.
  • Regola i limiti di velocità per gli strumenti noti: Impostare limiti di velocità o eccezioni in base a agenti utente noti o gamme IP verificate.Ad esempio, consentire a Googlebot un limite di richiesta più elevato o timeout di sessione più lungo rispetto a un crawler sconosciuto.
  • Limiti di tasso separati: Se stai eseguendo una API o un sito pesante di contenuti, usa regole distinte per i visitatori umani rispetto agli strumenti automatizzati.

In questo modo, i robot di ricerca possono fare il loro lavoro senza schiacciare la tua infrastruttura.

Come gestire robot cattivi e crawler

Alcuni robot sono chiaramente abusivi.Non sono interessati a indicizzare i tuoi contenuti: stanno cercando di raschiarlo, copiarlo o cercare vulnerabilità.Questi devono essere bloccati o gestiti in modo più aggressivo.

Modi per affrontarli:

  • Blocco da agente utente: Se vedi ripetuti trasgressori che utilizzano agenti utente specifici, bloccali .htaccess, configurazione del tuo server, o WAF (Web Application Firewall).
  • Blocco per IP o ASN: Utilizzare le regole del firewall per bloccare il traffico da IPS specifici o anche interi reti di hosting se l'abuso proviene da data center.
  • Usa un WAF: Un firewall dell'applicazione Web può rilevare e bloccare automaticamente i modelli abusivi, come troppe richieste per accedere a pagine o endpoint di ricerca.
  • Aggiungi attrito leggero: Su pagine sensibili (come gli endpoint di ricerca o prezzi), aggiungi sfide JavaScript o captcha di base.Questo interrompe la maggior parte degli strumenti non browser senza danneggiare l'esperienza dell'utente.
  • Traccia l'abuso nel tempo: Crea una blocklist che si aggiorna automaticamente quando un bot innesca più violazioni del limite di tasso.

Non dimenticare i tuoi strumenti

È facile concentrarsi sul traffico esterno quando si tratta di 429 errori, ma alcuni dei peggiori trasgressori potrebbero essere strumenti che tu o il tuo team hanno creato.Script interni, audit SEO, monitor di uptime o dashboard possono inondare il tuo sito con le richieste altrettanto facilmente dei robot di terze parti.

La differenza?Hai il pieno controllo su questi.

Fonti interne comuni di sovraccarico

Anche gli strumenti progettati per aiutare possono causare problemi quando non configurati errati:

Crawlers SEO (come Urlo Frog, Semrush e Ahrefs)
Questi strumenti strisciano l'intero sito per controllare metadati, collegamenti e salute tecnica.

Se impostato su una concorrenza elevata (ad es. 10+ thread) e nessun ritardo di scansione, possono sopraffare il tuo server, in particolare su ambienti condivisi o bassi.

Script personalizzati o robot interni
Potresti avere script che interrogano i propri endpoint API per scopi di analisi dei dati, test o staging.

Se non includono limiti, ritardi o memorizzazione nella cache, possono martellare la tua applicazione involontariamente, a volte in esecuzione ogni minuto tramite Cron.

Strumenti di monitoraggio del sito
Gli strumenti che controllano i tempi di attività, i tempi di risposta o le prestazioni della pagina possono essere rumorosi se sono impostati per controllare troppo frequentemente.

Controllare la tua homepage ogni 15 secondi potrebbe sembrare innocuo, ma moltiplicalo per più regioni o servizi e si somma rapidamente.

Come tenere sotto controllo gli strumenti interni

La buona notizia è che il traffico interno è il più semplice da risolvere, perché controlli il comportamento.

Velocità di scansione più bassa e concorrenza
In strumenti come la rana urlante:

  • Ridurre il numero di thread o connessioni simultanee.
  • Aggiungi un ritardo di scansione di alcuni secondi tra le richieste.
  • Se stai audit a più siti, sfaldati i gattini in modo che non corrano tutti in una volta.

Anche scendere da 10 thread a 2 può ridurre drasticamente la deformazione del server senza perdere funzionalità.

Usa la memorizzazione nella cache ove possibile

  • Risposte API Cache per dashboard o strumenti interni che non richiedono dati in tempo reale.
  • Controlli della homepage della cache o snapshot del sito negli strumenti di monitoraggio per intervalli in cui è probabile che nulla cambi.

Ciò riduce la necessità di colpire ripetutamente la tua applicazione per gli stessi risultati.

Esegui audit e scansioni durante le ore a basso traffico

  • Pianifica la scansione e gli script interni da eseguire durante le ore durante la notte o nelle prime ore del mattino (nel fuso orario del server).
  • Ciò evita di sovrapporsi con periodi in cui clienti o visitatori utilizzano il tuo sito.

Se il tuo sito è globale, prendi in considerazione la divisione degli audit tra regioni o finestre temporali.

Costruisci la logica di riproduzione negli script

  • Non lasciare che gli script martellano il server se ricevono una risposta 429.
  • Aggiungi la logica per attendere o arretrare quando viene visualizzato tale stato, rispettando idealmente eventuali intestazioni di tentativi, se presenti.
  • Un breve ritardo o un approccio di backoff esponenziale (in attesa più a lungo dopo ogni tentativo) può impedire un circuito di feedback di tentativi che peggiorano il problema

Documenta e rivedi i tuoi lavori

  • Tieni un record condiviso di quali script o strumenti chiamano il tuo sito Web, quanto spesso e quando.
  • Se appare un nuovo problema 429, avrai un posto chiaro per iniziare a guardare prima di presumere che sia una fonte esterna.

Cosa puoi fare a lungo termine

Dopo aver rintracciato e fermato ciò che sta causando i 429 errori, è intelligente pensare in anticipo.La risoluzione del problema attuale è solo una parte del lavoro: ora è il momento di impedire che lo stesso problema si presentasse di nuovo.

Ecco alcuni passaggi pratici per aiutare a mantenere le cose stabili nel lungo raggio:

Utilizzare l'intestazione di pensionati

Se il tuo server sta restituendo un 429, è una buona idea includere un'intestazione di riproduzione nella risposta.Questo dice a robot e strumenti automatizzati quanto tempo aspettare prima di riprovare.

  • Ad esempio, ritentare: 120 dice al cliente di aspettare 120 secondi.
  • La maggior parte dei robot ben educati, inclusi Googlebot, onorerà questo e rallenterà la loro scansione.

Non fermerà raschiatori o strumenti abusivi che ignorano le intestazioni, ma dà ai servizi legittimi un modo per ritirarsi automaticamente senza causare ulteriori problemi.

Dove applicarlo:

  • Web Server Config (Apache, Nginx).
  • Risposte a livello di applicazione (per API o app Web che utilizzano framework come Express, Flask, ecc.)

Monitorare regolarmente il traffico di bot

Non aspettare che le cose si rompano.Un po 'di visibilità fa molta strada.

  • Imposta recensioni di registro, dashboard o report che tracciano l'attività di Crawlers noti.
  • Guarda le modifiche al comportamento, come un crawler che colpisce nuove sezioni del tuo sito o invia richieste più frequenti del solito.
  • Tieni d'occhio nuovi agenti utente o blocchi IP imprevisti.Questi possono essere primi segni di raschiatura o abuso.

Strumenti che puoi usare:

  • I registri di accesso (analizzati con qualcosa come Goaccess o Awstats).
  • Strumenti di analisi del server (come NetData, Grafana o Prometheus).
  • Funzionalità di gestione dei bot in CloudFlare o il tuo WAF.

Regola i limiti della velocità man mano che cresci

I limiti di tasso non sono "impostalo e dimenticarlo".All'aumentare del traffico, il contenuto cambia o l'infrastruttura si evolve, le soglie che imposti in precedenza potrebbero diventare troppo aggressive o troppo rilassate.

Rivedi regolarmente le tue politiche di limitazione della velocità:

  • Stai usando il metodo giusto (basato su IP, basato sull'utente, ecc.)?
  • I tuoi endpoint ad alto traffico sono protetti?
  • Gli strumenti legittimi vengono ancora bloccati accidentalmente?

Potrebbe essere necessario aumentare il limite di alcuni percorsi o ridurlo su altri.Puoi anche sperimentare l'uso di un algoritmo di finestra scorrevole invece di una finestra fissa per evitare tagli improvvisi.

Suggerimento per le squadre: Documenta i tuoi limiti di tariffa e chi influenzano.Ciò semplifica il debug di questioni quando vengono visualizzate in seguito.

Utilizzare un CDN con funzionalità di gestione dei bot

Un bene Rete di consegna dei contenuti Fa molto di più del semplice contenuto della cache: può anche aiutare a filtrare o accelerare il traffico indesiderato prima ancora che raggiunga il tuo server.

La maggior parte dei principali CDN (come CloudFlare, Fastly o Akamai) offrono strumenti utili come:

  • Richiedi limiti di tasso tramite IP o percorso
  • Punteggio di bot o impronte digitali (per dire la differenza tra esseri umani e robot)
  • Regole che bloccano o sfidano automaticamente il cattivo comportamento
  • Sfide javascript o sfide gestite per rallentare i clienti non browser

Scaricare questo traffico prima che colpisca il server di origine aiuta a ridurre il carico, ridurre i costi della larghezza di banda e impedire che si verifichino problemi come 429.

Se stai già usando una CDN, prenditi del tempo per esplorare le sue impostazioni di sicurezza o protezione dei bot: potresti già avere gli strumenti di cui hai bisogno e devi solo accenderli.

Suggerimento bonus: aggiungi il contesto alle pagine di errore

Se stai restituendo un errore 429, non servire una schermata vuota.Aggiungi una breve spiegazione e un messaggio amichevole.Per esempio:

"Stiamo ricevendo più richieste del previsto. Se stai utilizzando uno strumento automatizzato, riprova in pochi minuti."

Questo aiuta gli sviluppatori e i team SEO a capire cosa è successo e ad adattarsi di conseguenza.Puoi anche includere un link alla documentazione o robot.txt del tuo sito se si applica.

Incartare

Un errore 429 non significa sempre che il tuo sito sia sovraccarico, spesso significa che qualcuno o qualcosa è troppo invadente.

Imparare a monitorare, identificare e gestire queste richieste, puoi ridurre i problemi, proteggere le tue risorse e assicurarti che il tuo sito rimanga disponibile per le persone - e i robot - in realtà vuoi servire.

Scritto da Hostwinds Team  /  luglio 16, 2025