Puntos clave
- ✓ Tres caminos para extraer reseñas Amazon en 2026: Python DIY (barato, frágil), scrapers no-code (arranque rápido), entrega gestionada (resultado más rápido).
- ✓ Amazon limita páginas de reseñas públicas a ~100 por producto (~1.000 reseñas). Más allá requiere la API del vendedor o ingeniería inversa de los endpoints de la app móvil.
- ✓ El verdadero enemigo no es el parsing HTML, sino el anti-bot: las IP datacenter reciben captcha en 30 peticiones, los proxies residenciales cuestan 5 a 15 € por GB.
- ✓ Coste para 10.000 reseñas: DIY 15-40 € proxies, ScraperAPI ~80 €, Apify ~8 €, gestionado 150-300 €.
- ✓ Menos de 1.000 reseñas puntuales: extensión Chrome. 10.000 a 100.000 recurrentes: Apify. Pipelines semanales sin mantenimiento: comprar la salida.
Un scraper de reseñas Amazon extrae datos estructurados (puntuación, autor, fecha, cuerpo, compra verificada) desde páginas de reseñas de producto a CSV o JSON. En 2026 el ecosistema se ha dividido en tres categorías distintas, y la elección depende casi por completo del caso de uso.
Esta guía cubre los tres métodos, la realidad anti-bot de Amazon, el coste real por 10.000 reseñas, consideraciones legales y cuatro casos de uso concretos con veredicto.
Qué se puede extraer y qué no
Extraíble
- ✓ Puntuación en estrellas (1 a 5)
- ✓ Título y cuerpo de la reseña
- ✓ Nombre mostrado y URL de perfil
- ✓ Fecha y compra verificada
- ✓ Votos útiles
- ✓ Atributos de variante (talla, color)
- ✓ URLs de imágenes y vídeos
- ✓ Destacados "positivo" y "crítico"
No extraíble
- ✗ Email o teléfono
- ✗ Reseñas más allá de la página 100 (~1.000 por ASIN)
- ✗ Reseñas Vine privadas
- ✗ Respuestas del vendedor (según marketplace)
- ✗ Metadatos de devolución / reembolso
- ✗ Historial cross-ASIN del reseñador
- ✗ Reseñas borradas o moderadas
- ✗ Reclamaciones de la Garantía A a la Z
Detalle clave: Amazon sirve reseñas diferentes por marketplace (amazon.es, amazon.com, amazon.co.uk, amazon.de). Las reseñas en amazon.es y amazon.com no se solapan. Para una vista global, cada marketplace se scrapea por separado.
Método 1 — Python + Requests (DIY)
import requests
from bs4 import BeautifulSoup
import time, random
HEADERS = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Safari/605.1.15",
"Accept-Language": "es-ES,es;q=0.9,en;q=0.8",
}
def fetch_reviews(asin: str, max_pages: int = 10) -> list[dict]:
reviews = []
for page in range(1, max_pages + 1):
url = f"https://www.amazon.es/product-reviews/{asin}?pageNumber={page}"
r = requests.get(url, headers=HEADERS, timeout=15)
if r.status_code != 200:
break
soup = BeautifulSoup(r.text, "html.parser")
for b in soup.select('div[data-hook="review"]'):
reviews.append({
"puntuacion": b.select_one('i[data-hook="review-star-rating"]').text.split()[0],
"titulo": b.select_one('a[data-hook="review-title"]').text.strip(),
"autor": b.select_one('span.a-profile-name').text.strip(),
"fecha": b.select_one('span[data-hook="review-date"]').text.strip(),
"verificada": bool(b.select_one('span[data-hook="avp-badge"]')),
"cuerpo": b.select_one('span[data-hook="review-body"]').text.strip(),
})
time.sleep(random.uniform(1.5, 3.5))
return reviews
Realidad anti-bot
Desde una IP datacenter única (AWS, GCP, OVH), Amazon muestra captcha en 10 a 30 peticiones. Desde una IP residencial única, 200 a 500. Con rotación residencial, 5 a 15% de peticiones fallidas incluso con proxies premium.
Superar el muro de captcha requiere proxies residenciales rotatorios (Bright Data, Oxylabs, Smartproxy, Soax), headers realistas, spoofing de fingerprint TLS (curl_cffi) y lógica de backoff. El "script simple" se convierte en 400 líneas de Python con cola de reintentos.
DIY tiene sentido: extracción puntual bajo 1.000 reseñas, dev Python en el equipo, sin actualizaciones recurrentes.
DIY falla: cualquier flujo en producción con exigencia de frescura y alguien que tenga que reparar selectores cada 8 a 12 semanas.
Método 2 — Scrapers no-code
Extensiones Chrome
Amazon Review Exporter, Helium 10 Chrome extension. Click, espera, descarga. Bueno para un ASIN, inútil en batch. Gratis a 29 €/mes.
Apify — Amazon Reviews Scraper
El actor de Apify es la opción no-code más probada para volumen. Pegas ASINs, defines páginas por producto, corres. Salida JSON, CSV o Excel. Precio ~0,80 € por 1.000 reseñas con proxies incluidos. Para 10.000 reseñas: 8 a 12 €.
Outscraper
Outscraper ofrece un endpoint batch similar con tier gratuito (500 reseñas) y tarifas alrededor de 30 € por 10.000. Menos flexible que Apify en configuración, más fácil para no técnicos.
ScraperAPI / Zyte / Oxylabs
API-first: envías una URL, devuelven el HTML (proxy y captcha resueltos). Tú parseas el HTML. Sentido si ya tienes el parser pero no quieres mantener infra proxy. Unos 49 €/mes por 100.000 llamadas.
| Herramienta | Precio / 10k | Ideal para | Punto débil |
|---|---|---|---|
| Extensión Chrome | ~0 a 10 € | Un producto, manual | Sin batch ni API |
| Apify Actor | ~8 a 12 € | Recurrente | Requiere setup |
| Outscraper | ~30 € | No técnicos | Esquema fijo |
| ScraperAPI | ~15 a 30 € | Parser propio | Parseas HTML |
| DIY Python + proxies | ~15 a 40 € | Puntual, pequeño | Rompe cada 2 meses |
Método 3 — Entrega gestionada (done-for-you)
El tercer camino esquiva la pregunta de la herramienta. Briefeas el objetivo (ASINs, marketplaces, número de reseñas, frescura), un equipo ejecuta la extracción, recibes el CSV. Sin proxies que comprar, sin selectores que depurar, sin cuotas de actor que gestionar.
Este método gana en tres escenarios: caso one-shot (análisis competitivo, due diligence, entrada en mercado), no hay dev que quiera poseer la infra, o el presupuesto de datos es menor que el coste de ingeniería para construirla.
Pierde cuando hace falta tiempo real (frescura sub-horaria), cuando corres decenas de extracciones por semana (los descuentos por volumen de las plataformas ganan), o cuando la infra ya existe.
Datos Amazon llave en mano
Quédate con las reseñas, olvida los proxies
Brief ASINs y marketplaces. Recibe un CSV limpio en 48 a 72 horas con puntuación, autor, fecha, cuerpo, compra verificada y votos útiles. Sin cuentas, sin infra.
Solicitar presupuesto →
Anti-bot: lo que realmente bloquea
Amazon opera uno de los stacks anti-bot más sofisticados del e-commerce.
Reputación IP. IPs datacenter (AWS, GCP, OVH, Hetzner) bloqueadas agresivamente. IPs residenciales de ISP pasan. Móviles (4G/5G) son las más limpias pero caras.
Rate limiting. Más de ~2 peticiones/segundo por sesión: throttle. Más de 200 peticiones sin reset de cookies: bloques de reseñas vacíos.
Captcha. Tras ser flagueado: captcha propio de Amazon con distorsión de imagen. Solvers como 2Captcha y CapSolver lo resuelven a 0,001-0,003 € por resolución.
Fingerprinting TLS. Python requests tiene firma reconocible. curl_cffi (stack TLS de Chrome) la burla.
Challenges JavaScript. En algunos marketplaces (especialmente amazon.co.jp), JS se ejecuta antes del render. requests solo no puede. Playwright o fetch gestionado.
Fingerprinting navegador. Playwright/Puppeteer con defaults: detectados vía navigator.webdriver, falta de chrome.runtime, anomalías de canvas. Plugins stealth cubren lo esencial.
Legal y términos de servicio
Las reseñas públicas de Amazon son datos públicos. Scrapearlas es legal en EE.UU. bajo la jurisprudencia hiQ v. LinkedIn (9th Circuit, 2022).
Sin embargo, viola las Condiciones de uso de Amazon, que prohíben "cualquier herramienta de recolección y extracción de datos". Es materia civil, no penal. Camino de Amazon: bloquear tu IP, cerrar tu cuenta vendedor o comprador si está vinculada, demanda civil si hay daños (raro para datos de reseñas).
Para operaciones en la UE, el RGPD aplica porque los nombres son datos personales. Bajo Art. 6(1)(f) RGPD, necesitas base legítima de interés, y el reseñador mantiene el derecho a supresión. La mayoría anonimiza nombres al ingestar y guarda solo texto y puntuación.
Para uso comercial (reventa, republicación, entrenamiento LLM), aplica derecho de autor al texto individual. Agregación y análisis caen bajo fair use; republicación directa no.
4 casos de uso con veredicto
Caso 1 — Due diligence competitiva (puntual, 500 reseñas × 10 competidores)
5.000 reseñas totales. Veredicto: entrega gestionada o run Apify único. DIY sobredimensionado. Extensión Chrome demasiado lenta. Apify a ~5 €, gestionado a 150-250 € más rápido.
Caso 2 — Vendedor Amazon monitorizando sus fichas (diario, 50 ASINs, ~200 reseñas/semana)
~10.000 reseñas/semana. Veredicto: actor Apify programado + webhook al warehouse. ~40 €/mes. Ventanas de frescura evitan re-scraping.
Caso 3 — Investigación académica de sentimiento (puntual, 100.000 reseñas, 50 ASINs)
Gran volumen, una sola extracción. Veredicto: ScraperAPI + parser propio o Apify bulk. Coste esperado 80 a 150 €. Gestionado excesivo.
Caso 4 — Estudio de entrada en categoría nueva (recurrente, 500 ASINs, snapshot mensual)
~50.000 reseñas/mes. Veredicto: gestionado con contrato mensual o data engineering interno con ScraperAPI. Umbral buy-vs-build ~500 €/mes.
FAQ
¿Es legal scrapear reseñas Amazon? Datos públicos son legales de scrapear en EE.UU. (hiQ). Viola CGU, con consecuencias a nivel cuenta, no penales.
¿Cuál es el mejor scraper Amazon? Ninguna herramienta es "la mejor". Apify gana en volumen recurrente, extensiones Chrome en puntual, gestionados en equipos no técnicos.
¿Cuántas reseñas por producto? Amazon limita acceso público a ~1.000 por ASIN. Más profundo requiere API del vendedor.
¿Necesito proxies? Sí, más allá de ~30 peticiones desde una IP. Proxies residenciales (5 a 15 € por GB) son mínimo para volumen.
¿Con qué frecuencia cambia Amazon el HTML? Cambios mayores de selectores cada 8 a 12 semanas. A/B tests semanales.
¿Reseñas en otros idiomas? Sí. Amazon sirve reseñas en el idioma primario del marketplace. Para amazon.es están en español.
