Punti chiave
- ✓ Tre vie per estrarre recensioni Amazon nel 2026: Python DIY (economico, fragile), scraper no-code (avvio rapido), consegna gestita (risultato più rapido).
- ✓ Amazon limita le pagine di recensioni pubbliche a circa 100 per prodotto (~1.000 recensioni). Oltre serve l'API del venditore o reverse engineering degli endpoint dell'app mobile.
- ✓ Il vero nemico non è il parsing HTML, ma l'anti-bot: gli IP datacenter ricevono captcha in 30 richieste, i proxy residenziali costano 5-15 € per GB.
- ✓ Costi per 10.000 recensioni: DIY 15-40 € proxy, ScraperAPI ~80 €, Apify ~8 €, gestito 150-300 €.
- ✓ Meno di 1.000 recensioni una tantum: estensione Chrome. 10.000-100.000 ricorrenti: Apify. Pipeline settimanali senza manutenzione: comprare l'output.
Uno scraper di recensioni Amazon estrae dati strutturati (voto, autore, data, corpo, flag acquisto verificato) dalle pagine recensioni prodotto in CSV o JSON. Nel 2026 l'ecosistema si è diviso in tre categorie distinte, e la scelta dipende quasi solo dal caso d'uso.
Questa guida copre i tre metodi, la realtà anti-bot di Amazon, il costo reale per 10.000 recensioni, considerazioni legali e quattro casi d'uso concreti con verdetto.
Cosa si può e non si può estrarre
Estraibile
- ✓ Voto a stelle (1-5)
- ✓ Titolo e corpo recensione
- ✓ Nome visualizzato e URL profilo
- ✓ Data e badge acquisto verificato
- ✓ Voti utili
- ✓ Attributi variante (taglia, colore)
- ✓ URL di immagini e video
- ✓ Highlight "positivo" e "critico"
Non estraibile
- ✗ Email o telefono
- ✗ Recensioni oltre pagina 100 (~1.000 per ASIN)
- ✗ Recensioni Vine pre-lancio
- ✗ Risposte del venditore (dipende dal marketplace)
- ✗ Metadati reso / rimborso
- ✗ Storico cross-ASIN del recensore
- ✗ Recensioni cancellate o moderate
- ✗ Reclami garanzia A a Z
Dettaglio chiave: Amazon serve recensioni diverse per marketplace (amazon.it, amazon.com, amazon.co.uk, amazon.de). Recensioni amazon.it e amazon.com non si sovrappongono. Per una visione globale, ogni marketplace va scrapato separatamente.
Metodo 1 — Python + Requests (DIY)
import requests
from bs4 import BeautifulSoup
import time, random
HEADERS = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Safari/605.1.15",
"Accept-Language": "it-IT,it;q=0.9,en;q=0.8",
}
def fetch_reviews(asin: str, max_pages: int = 10) -> list[dict]:
reviews = []
for page in range(1, max_pages + 1):
url = f"https://www.amazon.it/product-reviews/{asin}?pageNumber={page}"
r = requests.get(url, headers=HEADERS, timeout=15)
if r.status_code != 200:
break
soup = BeautifulSoup(r.text, "html.parser")
for b in soup.select('div[data-hook="review"]'):
reviews.append({
"voto": b.select_one('i[data-hook="review-star-rating"]').text.split()[0],
"titolo": b.select_one('a[data-hook="review-title"]').text.strip(),
"autore": b.select_one('span.a-profile-name').text.strip(),
"data": b.select_one('span[data-hook="review-date"]').text.strip(),
"verificata": bool(b.select_one('span[data-hook="avp-badge"]')),
"corpo": b.select_one('span[data-hook="review-body"]').text.strip(),
})
time.sleep(random.uniform(1.5, 3.5))
return reviews
Realtà anti-bot
Da un singolo IP datacenter (AWS, GCP, OVH), Amazon mostra captcha in 10-30 richieste. Da un singolo IP residenziale, 200-500. Con rotazione residenziale, 5-15% di richieste fallite anche con proxy premium.
Per superare il muro captcha servono proxy residenziali rotanti (Bright Data, Oxylabs, Smartproxy, Soax), header realistici, spoofing fingerprint TLS (curl_cffi) e logica di backoff. Il "semplice script" diventa 400 righe di Python con coda di retry.
DIY ha senso: estrazione una tantum sotto 1.000 recensioni, dev Python in team, nessun aggiornamento ricorrente.
DIY si rompe: qualsiasi flusso in produzione con esigenza di freschezza e qualcuno che deve fixare i selettori ogni 8-12 settimane.
Metodo 2 — Scraper no-code
Estensioni Chrome
Amazon Review Exporter, Helium 10. Click, attesa, download. Buono per un ASIN, inutile in batch. Gratis a 29 €/mese.
Apify — Amazon Reviews Scraper
L'actor Apify è l'opzione no-code più collaudata per volume. Incolli ASIN, definisci pagine per prodotto, esegui. Output JSON, CSV o Excel. Prezzo circa 0,80 € per 1.000 recensioni con proxy inclusi. Per 10.000 recensioni: 8-12 €.
Outscraper
Outscraper offre un endpoint batch simile con tier gratuito (500 recensioni) e piani attorno a 30 € per 10.000. Meno flessibile di Apify, più facile per non tecnici.
ScraperAPI / Zyte / Oxylabs
API-first: invii un URL, restituiscono l'HTML (proxy e captcha risolti). Parsi l'HTML tu. Senso se hai già il parser ma non vuoi mantenere infra proxy. Circa 49 €/mese per 100.000 chiamate.
| Strumento | Prezzo / 10k | Ideale per | Punto debole |
|---|---|---|---|
| Estensione Chrome | ~0-10 € | Un prodotto, manuale | No batch né API |
| Apify Actor | ~8-12 € | Ricorrente | Richiede setup |
| Outscraper | ~30 € | Non tecnici | Schema fisso |
| ScraperAPI | ~15-30 € | Parser proprio | Parsi HTML tu |
| DIY Python + proxy | ~15-40 € | Una tantum, piccolo | Rompe ogni 2 mesi |
Metodo 3 — Consegna gestita (done-for-you)
La terza via aggira la domanda sullo strumento. Briefi il target (ASIN, marketplace, numero recensioni, freschezza), un team esegue l'estrazione, ricevi il CSV. Nessun proxy da comprare, nessun selettore da debuggare, nessuna quota da gestire.
Questo metodo vince in tre scenari: caso one-shot (analisi concorrenziale, due diligence, ingresso mercato), nessuno sviluppatore che voglia possedere l'infra, o budget dati inferiore al costo ingegneristico di costruzione.
Perde quando serve tempo reale (freschezza sotto un'ora), quando esegui decine di estrazioni a settimana (gli sconti volume delle piattaforme vincono), o quando l'infra c'è già.
Dati Amazon chiavi in mano
Ottieni le recensioni, salta i proxy
Briefa ASIN e marketplace. Ricevi un CSV pulito in 48-72 ore con voto, autore, data, corpo, badge verificato e voti utili. Nessun account, nessuna infrastruttura.
Richiedi preventivo →
Anti-bot: cosa blocca davvero
Amazon gestisce uno degli stack anti-bot più sofisticati dell'e-commerce.
Reputazione IP. IP datacenter (AWS, GCP, OVH, Hetzner) bloccati aggressivamente. IP residenziali da ISP consumer passano. Mobili (4G/5G) più puliti ma costosi.
Rate limiting. Oltre ~2 richieste/secondo per sessione: throttle. Oltre 200 richieste senza reset cookie: blocchi recensione vuoti.
Captcha. Dopo il flag: captcha proprio di Amazon con distorsione immagine. Solver come 2Captcha e CapSolver lo risolvono a 0,001-0,003 € ciascuno.
Fingerprinting TLS. Python requests ha firma riconoscibile. curl_cffi (stack TLS di Chrome) la elude.
Challenge JavaScript. Su alcuni marketplace (specie amazon.co.jp), JS si esegue prima del rendering. requests da solo non basta. Playwright o fetch gestito.
Fingerprinting browser. Playwright/Puppeteer con default: rilevati via navigator.webdriver, mancanza di chrome.runtime, anomalie canvas. Plugin stealth coprono il grosso.
Legale e termini di servizio
Le recensioni Amazon pubbliche sono dati pubblici. Farne scraping è legale negli USA sotto la giurisprudenza hiQ v. LinkedIn (9th Circuit, 2022).
Tuttavia, viola le Condizioni d'uso Amazon, che vietano "qualsiasi strumento di raccolta ed estrazione dati". Materia civile, non penale. Via di Amazon: bloccare IP, chiudere account venditore o acquirente se collegato, causa civile in caso di danno (raro per dati recensione).
Per operazioni UE, il GDPR si applica perché i nomi recensori sono dati personali. Sotto Art. 6(1)(f) GDPR, serve base di interesse legittimo, e il recensore mantiene diritto alla cancellazione. La maggior parte anonimizza i nomi all'ingestion e conserva solo testo e voto.
Per uso commerciale (rivendita, ripubblicazione, training LLM), si applica il diritto d'autore al testo individuale. Aggregazione e analisi rientrano in fair use; ripubblicazione diretta no.
4 casi d'uso con verdetto
Caso 1 — Due diligence concorrenziale (una tantum, 500 recensioni × 10 concorrenti)
5.000 recensioni totali. Verdetto: consegna gestita o run Apify unico. DIY sovradimensionato. Estensione Chrome troppo lenta. Apify a ~5 €, gestito a 150-250 € più rapido.
Caso 2 — Venditore Amazon che monitora i propri listing (quotidiano, 50 ASIN, ~200 recensioni/settimana)
~10.000 recensioni/settimana. Verdetto: actor Apify schedulato + webhook al warehouse. ~40 €/mese. Finestre di freschezza evitano re-scraping.
Caso 3 — Ricerca accademica sentiment (una tantum, 100.000 recensioni, 50 ASIN)
Grande volume, estrazione singola. Verdetto: ScraperAPI + parser custom o Apify bulk. Costo atteso 80-150 €. Gestito eccessivo.
Caso 4 — Studio ingresso in nuova categoria (ricorrente, 500 ASIN, snapshot mensile)
~50.000 recensioni/mese. Verdetto: gestito con contratto mensile o data engineering interno con ScraperAPI. Soglia buy-vs-build ~500 €/mese.
FAQ
È legale fare scraping delle recensioni Amazon? Dati pubblici legali da scrapare negli USA (hiQ). Viola i termini, con conseguenze a livello account, non penali.
Qual è il miglior scraper Amazon? Nessuno strumento è "il migliore". Apify vince su volume ricorrente, estensioni Chrome su piccole una tantum, gestiti su team non tecnici.
Quante recensioni per prodotto? Amazon limita accesso pubblico a ~1.000 per ASIN. Più profondo richiede API venditore.
Servono proxy? Sì, oltre ~30 richieste da un IP. Proxy residenziali (5-15 € per GB) minimo per volume.
Quanto spesso Amazon cambia l'HTML? Cambi maggiori di selettori ogni 8-12 settimane. A/B test settimanali.
Recensioni in altre lingue oltre l'inglese? Sì. Amazon serve recensioni nella lingua primaria del marketplace. Per amazon.it sono in italiano.
