¿Es legal scrapear reseñas de Amazon?

Extraer reseñas públicas de Amazon es legal en EE.UU. (jurisprudencia hiQ v. LinkedIn). Viola las condiciones de Amazon, lo que es un asunto civil. Amazon puede bloquear IPs y suspender cuentas, pero no iniciar procesos penales por acceder a datos públicos.

¿Cuál es el mejor scraper de reseñas Amazon en 2026?

Para extracciones puntuales de menos de 1.000 reseñas, los endpoints gestionados de Oxylabs o ScraperAPI son los más rápidos. Para pipelines recurrentes, el actor Amazon Reviews Scraper de Apify es el más barato a escala. Para equipos sin código, un servicio gestionado es la vía más rápida.

¿Cuántas reseñas se pueden scrapear al día?

Amazon muestra hasta 100 páginas por producto (unas 1.000 reseñas). Con proxies residenciales y 2 peticiones por segundo, una cuenta puede extraer 50.000 a 100.000 reseñas diarias antes de toparse con captchas.

¿Se puede scrapear sin programar?

Sí. Extensiones Chrome como Amazon Review Exporter manejan un producto a la vez. Para batch, plataformas no-code como Apify y Outscraper permiten pegar una lista y descargar un CSV. Para necesidades recurrentes sin configuración, un servicio gestionado gestiona todo el pipeline.

¿Qué datos se pueden extraer?

Nombre del reseñador, puntuación, título y cuerpo, insignia de compra verificada, votos útiles, fecha, URL de perfil, variante (talla/color) y a veces ubicación. Imágenes y vídeos requieren procesamiento aparte.

¿Cuánto cuesta scrapear 10.000 reseñas de Amazon?

DIY con proxies residenciales: 15 a 40 € (solo banda). Endpoints gestionados como ScraperAPI: 50 a 100 €. Apify Reviews Scraper: unos 0,80 € por 1.000, es decir 8 € por 10.000. Servicios done-for-you desde 150 a 300 €.

Scraper de reseñas Amazon 2026: 3 métodos y cuál elegir

Puntos clave

✓ Tres caminos para extraer reseñas Amazon en 2026: Python DIY (barato, frágil), scrapers no-code (arranque rápido), entrega gestionada (resultado más rápido).
✓ Amazon limita páginas de reseñas públicas a ~100 por producto (~1.000 reseñas). Más allá requiere la API del vendedor o ingeniería inversa de los endpoints de la app móvil.
✓ El verdadero enemigo no es el parsing HTML, sino el anti-bot: las IP datacenter reciben captcha en 30 peticiones, los proxies residenciales cuestan 5 a 15 € por GB.
✓ Coste para 10.000 reseñas: DIY 15-40 € proxies, ScraperAPI ~80 €, Apify ~8 €, gestionado 150-300 €.
✓ Menos de 1.000 reseñas puntuales: extensión Chrome. 10.000 a 100.000 recurrentes: Apify. Pipelines semanales sin mantenimiento: comprar la salida.

Un scraper de reseñas Amazon extrae datos estructurados (puntuación, autor, fecha, cuerpo, compra verificada) desde páginas de reseñas de producto a CSV o JSON. En 2026 el ecosistema se ha dividido en tres categorías distintas, y la elección depende casi por completo del caso de uso.

Esta guía cubre los tres métodos, la realidad anti-bot de Amazon, el coste real por 10.000 reseñas, consideraciones legales y cuatro casos de uso concretos con veredicto.

Qué se puede extraer y qué no

Extraíble

✓ Puntuación en estrellas (1 a 5)
✓ Título y cuerpo de la reseña
✓ Nombre mostrado y URL de perfil
✓ Fecha y compra verificada
✓ Votos útiles
✓ Atributos de variante (talla, color)
✓ URLs de imágenes y vídeos
✓ Destacados "positivo" y "crítico"

No extraíble

✗ Email o teléfono
✗ Reseñas más allá de la página 100 (~1.000 por ASIN)
✗ Reseñas Vine privadas
✗ Respuestas del vendedor (según marketplace)
✗ Metadatos de devolución / reembolso
✗ Historial cross-ASIN del reseñador
✗ Reseñas borradas o moderadas
✗ Reclamaciones de la Garantía A a la Z

Detalle clave: Amazon sirve reseñas diferentes por marketplace (amazon.es, amazon.com, amazon.co.uk, amazon.de). Las reseñas en amazon.es y amazon.com no se solapan. Para una vista global, cada marketplace se scrapea por separado.

Método 1 — Python + Requests (DIY)

import requests
from bs4 import BeautifulSoup
import time, random

HEADERS = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Safari/605.1.15",
    "Accept-Language": "es-ES,es;q=0.9,en;q=0.8",
}

def fetch_reviews(asin: str, max_pages: int = 10) -> list[dict]:
    reviews = []
    for page in range(1, max_pages + 1):
        url = f"https://www.amazon.es/product-reviews/{asin}?pageNumber={page}"
        r = requests.get(url, headers=HEADERS, timeout=15)
        if r.status_code != 200:
            break
        soup = BeautifulSoup(r.text, "html.parser")
        for b in soup.select('div[data-hook="review"]'):
            reviews.append({
                "puntuacion": b.select_one('i[data-hook="review-star-rating"]').text.split()[0],
                "titulo": b.select_one('a[data-hook="review-title"]').text.strip(),
                "autor": b.select_one('span.a-profile-name').text.strip(),
                "fecha": b.select_one('span[data-hook="review-date"]').text.strip(),
                "verificada": bool(b.select_one('span[data-hook="avp-badge"]')),
                "cuerpo": b.select_one('span[data-hook="review-body"]').text.strip(),
            })
        time.sleep(random.uniform(1.5, 3.5))
    return reviews

Realidad anti-bot

Desde una IP datacenter única (AWS, GCP, OVH), Amazon muestra captcha en 10 a 30 peticiones. Desde una IP residencial única, 200 a 500. Con rotación residencial, 5 a 15% de peticiones fallidas incluso con proxies premium.

Superar el muro de captcha requiere proxies residenciales rotatorios (Bright Data, Oxylabs, Smartproxy, Soax), headers realistas, spoofing de fingerprint TLS (curl_cffi) y lógica de backoff. El "script simple" se convierte en 400 líneas de Python con cola de reintentos.

DIY tiene sentido: extracción puntual bajo 1.000 reseñas, dev Python en el equipo, sin actualizaciones recurrentes.

DIY falla: cualquier flujo en producción con exigencia de frescura y alguien que tenga que reparar selectores cada 8 a 12 semanas.

Método 2 — Scrapers no-code

Extensiones Chrome

Amazon Review Exporter, Helium 10 Chrome extension. Click, espera, descarga. Bueno para un ASIN, inútil en batch. Gratis a 29 €/mes.

Apify — Amazon Reviews Scraper

El actor de Apify es la opción no-code más probada para volumen. Pegas ASINs, defines páginas por producto, corres. Salida JSON, CSV o Excel. Precio ~0,80 € por 1.000 reseñas con proxies incluidos. Para 10.000 reseñas: 8 a 12 €.

Outscraper

Outscraper ofrece un endpoint batch similar con tier gratuito (500 reseñas) y tarifas alrededor de 30 € por 10.000. Menos flexible que Apify en configuración, más fácil para no técnicos.

ScraperAPI / Zyte / Oxylabs

API-first: envías una URL, devuelven el HTML (proxy y captcha resueltos). Tú parseas el HTML. Sentido si ya tienes el parser pero no quieres mantener infra proxy. Unos 49 €/mes por 100.000 llamadas.

Herramienta	Precio / 10k	Ideal para	Punto débil
Extensión Chrome	~0 a 10 €	Un producto, manual	Sin batch ni API
Apify Actor	~8 a 12 €	Recurrente	Requiere setup
Outscraper	~30 €	No técnicos	Esquema fijo
ScraperAPI	~15 a 30 €	Parser propio	Parseas HTML
DIY Python + proxies	~15 a 40 €	Puntual, pequeño	Rompe cada 2 meses

Método 3 — Entrega gestionada (done-for-you)

El tercer camino esquiva la pregunta de la herramienta. Briefeas el objetivo (ASINs, marketplaces, número de reseñas, frescura), un equipo ejecuta la extracción, recibes el CSV. Sin proxies que comprar, sin selectores que depurar, sin cuotas de actor que gestionar.

Este método gana en tres escenarios: caso one-shot (análisis competitivo, due diligence, entrada en mercado), no hay dev que quiera poseer la infra, o el presupuesto de datos es menor que el coste de ingeniería para construirla.

Pierde cuando hace falta tiempo real (frescura sub-horaria), cuando corres decenas de extracciones por semana (los descuentos por volumen de las plataformas ganan), o cuando la infra ya existe.

Datos Amazon llave en mano

Quédate con las reseñas, olvida los proxies

Brief ASINs y marketplaces. Recibe un CSV limpio en 48 a 72 horas con puntuación, autor, fecha, cuerpo, compra verificada y votos útiles. Sin cuentas, sin infra.

Solicitar presupuesto

Anti-bot: lo que realmente bloquea

Amazon opera uno de los stacks anti-bot más sofisticados del e-commerce.

Reputación IP. IPs datacenter (AWS, GCP, OVH, Hetzner) bloqueadas agresivamente. IPs residenciales de ISP pasan. Móviles (4G/5G) son las más limpias pero caras.

Rate limiting. Más de ~2 peticiones/segundo por sesión: throttle. Más de 200 peticiones sin reset de cookies: bloques de reseñas vacíos.

Captcha. Tras ser flagueado: captcha propio de Amazon con distorsión de imagen. Solvers como 2Captcha y CapSolver lo resuelven a 0,001-0,003 € por resolución.

Fingerprinting TLS. Python requests tiene firma reconocible. curl_cffi (stack TLS de Chrome) la burla.

Challenges JavaScript. En algunos marketplaces (especialmente amazon.co.jp), JS se ejecuta antes del render. requests solo no puede. Playwright o fetch gestionado.

Fingerprinting navegador. Playwright/Puppeteer con defaults: detectados vía navigator.webdriver, falta de chrome.runtime, anomalías de canvas. Plugins stealth cubren lo esencial.

Legal y términos de servicio

Las reseñas públicas de Amazon son datos públicos. Scrapearlas es legal en EE.UU. bajo la jurisprudencia hiQ v. LinkedIn (9th Circuit, 2022).

Sin embargo, viola las Condiciones de uso de Amazon, que prohíben "cualquier herramienta de recolección y extracción de datos". Es materia civil, no penal. Camino de Amazon: bloquear tu IP, cerrar tu cuenta vendedor o comprador si está vinculada, demanda civil si hay daños (raro para datos de reseñas).

Para operaciones en la UE, el RGPD aplica porque los nombres son datos personales. Bajo Art. 6(1)(f) RGPD, necesitas base legítima de interés, y el reseñador mantiene el derecho a supresión. La mayoría anonimiza nombres al ingestar y guarda solo texto y puntuación.

Para uso comercial (reventa, republicación, entrenamiento LLM), aplica derecho de autor al texto individual. Agregación y análisis caen bajo fair use; republicación directa no.

4 casos de uso con veredicto

Caso 1 — Due diligence competitiva (puntual, 500 reseñas × 10 competidores)

5.000 reseñas totales. Veredicto: entrega gestionada o run Apify único. DIY sobredimensionado. Extensión Chrome demasiado lenta. Apify a ~5 €, gestionado a 150-250 € más rápido.

Caso 2 — Vendedor Amazon monitorizando sus fichas (diario, 50 ASINs, ~200 reseñas/semana)

~10.000 reseñas/semana. Veredicto: actor Apify programado + webhook al warehouse. ~40 €/mes. Ventanas de frescura evitan re-scraping.

Caso 3 — Investigación académica de sentimiento (puntual, 100.000 reseñas, 50 ASINs)

Gran volumen, una sola extracción. Veredicto: ScraperAPI + parser propio o Apify bulk. Coste esperado 80 a 150 €. Gestionado excesivo.

Caso 4 — Estudio de entrada en categoría nueva (recurrente, 500 ASINs, snapshot mensual)

~50.000 reseñas/mes. Veredicto: gestionado con contrato mensual o data engineering interno con ScraperAPI. Umbral buy-vs-build ~500 €/mes.

FAQ

¿Es legal scrapear reseñas Amazon? Datos públicos son legales de scrapear en EE.UU. (hiQ). Viola CGU, con consecuencias a nivel cuenta, no penales.

¿Cuál es el mejor scraper Amazon? Ninguna herramienta es "la mejor". Apify gana en volumen recurrente, extensiones Chrome en puntual, gestionados en equipos no técnicos.

¿Cuántas reseñas por producto? Amazon limita acceso público a ~1.000 por ASIN. Más profundo requiere API del vendedor.

¿Necesito proxies? Sí, más allá de ~30 peticiones desde una IP. Proxies residenciales (5 a 15 € por GB) son mínimo para volumen.

¿Con qué frecuencia cambia Amazon el HTML? Cambios mayores de selectores cada 8 a 12 semanas. A/B tests semanales.

¿Reseñas en otros idiomas? Sí. Amazon sirve reseñas en el idioma primario del marketplace. Para amazon.es están en español.