Points clés à retenir
- ✓ Trois voies existent pour extraire les avis Amazon en 2026 : Python DIY (le moins cher, le plus fragile), scrapers no-code (le plus rapide à démarrer), livraison managée (le plus rapide au résultat). La plupart des tutos ne couvrent que la première.
- ✓ Amazon plafonne les pages d'avis publics à environ 100 par produit (~1 000 avis). Au-delà, il faut l'API côté vendeur (réservée aux propriétaires de fiches) ou le reverse-engineering des endpoints de l'app mobile.
- ✓ Le vrai ennemi n'est pas le parsing HTML, c'est l'anti-bot : les IP datacenter se font captcher en 30 requêtes, les proxies résidentiels coûtent 5 à 15 € par Go, et les navigateurs headless déclenchent des checks de fingerprint.
- ✓ Benchmark coûts pour 10 000 avis : DIY 15 à 40 € de proxies, ScraperAPI ~80 €, actor Apify ~8 €, service managé 150 à 300 €.
- ✓ Pour une extraction ponctuelle de moins de 1 000 avis : extension Chrome. Pour 10 000 à 100 000 en récurrent : Apify. Pour des pipelines hebdomadaires sans maintenance : acheter la sortie.
Un scraper d'avis Amazon extrait des données structurées (note, auteur, date, corps, badge achat vérifié) depuis les pages de reviews produit vers un CSV ou un flux JSON. En 2026, l'outillage s'est divisé en trois catégories distinctes, et le choix dépend quasi-uniquement de votre use case, pas des outils eux-mêmes.
Ce guide couvre les trois méthodes, la réalité anti-bot qu'Amazon impose, le coût réel pour 10 000 avis, le cadre légal (oui, c'est légal), et quatre use cases concrets avec un verdict pour chacun.
Ce qu'on peut et ne peut pas extraire en 2026
Les pages d'avis produit Amazon exposent plus qu'on ne le croit, mais moins qu'avant. Voici ce qui est public et ce qui est bloqué.
Ce qu'on peut scraper
- ✓ Note en étoiles (1 à 5)
- ✓ Titre et corps de l'avis
- ✓ Nom affiché et URL du profil
- ✓ Date et badge achat vérifié
- ✓ Nombre de votes utiles
- ✓ Attributs de variante (taille, couleur)
- ✓ URLs des images et vidéos
- ✓ Highlights "top positif" et "top critique"
Ce qu'on ne peut pas
- ✗ Email ou téléphone du reviewer
- ✗ Avis historiques au-delà de la page 100 (~1 000 par ASIN)
- ✗ Avis Vine privés (pré-lancement)
- ✗ Réponses du vendeur (variable selon marketplace)
- ✗ Métadonnées retour / remboursement
- ✗ Historique cross-ASIN sauf profil public
- ✗ Avis supprimés ou modérés
- ✗ Réclamations garantie A à Z
Un détail que la plupart des guides sautent : Amazon sert des avis différents selon le marketplace (amazon.com, amazon.fr, amazon.co.uk, amazon.de). Les avis sur la fiche US et la fiche française ne se recouvrent pas. Pour une vue globale d'un produit, chaque marketplace doit être scrapé séparément.
Méthode 1 — Python + Requests (DIY)
La voie DIY fonctionne pour de petits volumes et des scripts éphémères. Elle casse vite en production parce que l'anti-bot d'Amazon se durcit chaque trimestre.
Scraper minimum viable avec requests et BeautifulSoup :
import requests
from bs4 import BeautifulSoup
import time, random, json
HEADERS = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Safari/605.1.15",
"Accept-Language": "fr-FR,fr;q=0.9,en;q=0.8",
}
def fetch_reviews(asin: str, max_pages: int = 10) -> list[dict]:
reviews = []
for page in range(1, max_pages + 1):
url = (
f"https://www.amazon.fr/product-reviews/{asin}"
f"/ref=cm_cr_arp_d_paging_btm_next_{page}"
f"?pageNumber={page}&reviewerType=all_reviews"
)
r = requests.get(url, headers=HEADERS, timeout=15)
if r.status_code != 200:
print(f"page {page} -> {r.status_code}, arrêt")
break
soup = BeautifulSoup(r.text, "html.parser")
blocks = soup.select('div[data-hook="review"]')
if not blocks:
break
for b in blocks:
reviews.append({
"note": b.select_one('i[data-hook="review-star-rating"]').text.split()[0],
"titre": b.select_one('a[data-hook="review-title"]').text.strip(),
"auteur": b.select_one('span.a-profile-name').text.strip(),
"date": b.select_one('span[data-hook="review-date"]').text.strip(),
"verifie": bool(b.select_one('span[data-hook="avp-badge"]')),
"corps": b.select_one('span[data-hook="review-body"]').text.strip(),
})
time.sleep(random.uniform(1.5, 3.5))
return reviews
if __name__ == "__main__":
data = fetch_reviews("B08N5WRWNW", max_pages=5)
print(json.dumps(data, indent=2, ensure_ascii=False))
print(f"{len(data)} avis")
Ce script fonctionne sur les 20 à 40 premières requêtes depuis une IP résidentielle propre. Après, Amazon sert une des trois réponses suivantes : la page captcha (Veuillez saisir les caractères...), un 503, ou une fiche allégée sans avis. Aucune n'est parseable.
Ce qui casse en production
Réalité anti-bot
Depuis une IP datacenter unique (AWS, GCP, OVH), Amazon captche en 10 à 30 requêtes. Depuis une IP résidentielle unique, 200 à 500 requêtes avant rate limiting. En rotation résidentielle, le débit dépend de la qualité du pool de votre provider. Comptez 5 à 15% de requêtes échouées même avec des proxies premium.
Pour pousser au-delà du mur captcha il faut des proxies résidentiels rotatifs (Bright Data, Oxylabs, Smartproxy, Soax), un set de headers réalistes (pas juste un UA), parfois du spoofing de fingerprint TLS (curl_cffi au lieu de requests), et du backoff logic. À ce stade, le "script simple" fait 400 lignes de Python avec une queue de retry.
Quand le DIY a du sens : extraction ponctuelle sous 1 000 avis, un dev Python dans l'équipe, pas besoin de mises à jour récurrentes.
Quand ça casse : tout workflow de production où la fraîcheur compte et où quelqu'un doit fixer le script quand Amazon change ses sélecteurs (toutes les 8 à 12 semaines).
Méthode 2 — Scrapers no-code
Les outils no-code font le travail proxies + parsing pour vous. Vous collez des ASINs, vous récupérez un CSV. Les arbitrages portent sur le coût par avis et la flexibilité sur les edge cases.
Extensions Chrome (ASIN unique)
Des outils comme Amazon Review Exporter ou l'extension Chrome Helium 10 fonctionnent sur la page produit ouverte. Clic, attente, téléchargement. Bien pour un ASIN à la fois, inutile en batch. Tarifs : gratuit (avec limites) à 29 €/mois pour exports illimités.
Apify — Amazon Reviews Scraper
L'actor Amazon Reviews Scraper d'Apify est l'option no-code la plus solide pour du volume. Vous collez une liste d'ASINs ou d'URLs, vous définissez le nombre de pages par produit, et vous lancez. Sortie en JSON, CSV ou Excel. Prix autour de 0,80 € pour 1 000 avis, proxies inclus. Pour 10 000 avis, comptez 8 à 12 €. Apify gère le captcha, la rotation proxy et les mises à jour de sélecteurs. Quand Amazon change ses pages, l'équipe Apify patche l'actor en quelques jours.
Outscraper
Outscraper propose un endpoint batch similaire avec un tier gratuit (500 avis) et des paliers payants autour de 30 € pour 10 000. Moins flexible qu'Apify sur la configuration, plus simple pour les utilisateurs non techniques. Le schéma CSV est figé.
ScraperAPI / Zyte / Oxylabs
Ceux-là sont API-first : vous envoyez une URL, ils renvoient le HTML (avec proxy et résolution captcha gérés). Vous parsez le HTML vous-même. Logique si vous avez déjà le parser mais ne voulez pas maintenir l'infra proxy. Coût autour de 49 €/mois pour 100 000 appels, soit environ 100 000 à 300 000 avis selon la pagination.
| Outil | Prix / 10k avis | Idéal pour | Point faible |
|---|---|---|---|
| Extension Chrome | ~0 à 10 € | Un produit, manuel | Pas de batch, pas d'API |
| Apify Reviews actor | ~8 à 12 € | Pipelines récurrents | Setup requis |
| Outscraper | ~30 € | Non-techniques | Schéma figé |
| ScraperAPI | ~15 à 30 € | Parser déjà en place | Vous parsez le HTML |
| DIY Python + proxies | ~15 à 40 € | Ponctuel, petit volume | Casse tous les 2 mois |
Méthode 3 — Livraison managée (done-for-you)
La troisième voie contourne la question de l'outil. Vous briefez la cible (ASINs, marketplaces, nombre d'avis, fraîcheur), une équipe exécute l'extraction, vous recevez le CSV. Pas de proxies à acheter, pas de sélecteurs à debugger, pas de quotas d'actor à gérer.
Cette méthode gagne sur trois scénarios : use case one-shot (veille concurrentielle, due diligence produit, étude d'entrée marché), pas de développeur qui souhaite posséder l'infra scraping, ou budget data inférieur au coût ingénierie d'un build interne.
Elle perd quand il faut du temps réel (fraîcheur sub-heure), quand vous tournez des dizaines d'extractions par semaine (les remises volume des plateformes deviennent intéressantes), ou quand l'infra scraping existe déjà.
Data Amazon livrée, clé en main
Récupérez les avis, oubliez les proxies
Briefez les ASINs et marketplaces. Recevez un CSV propre sous 48 à 72 heures avec note, auteur, date, corps, badge achat vérifié et votes utiles. Aucun compte à créer, aucune infra à louer.
Demander un devis →
Anti-bot : ce qui vous bloque vraiment sur Amazon
Amazon fait tourner une des stacks anti-bot les plus sophistiquées du e-commerce. Voici les défenses qui piègent les scrapers naïfs, classées par agressivité.
Réputation IP. Les IP datacenter (AWS, GCP, Azure, OVH, Hetzner) sont blocklistées agressivement. Les IP résidentielles de FAI grand public passent par défaut. Les IP mobiles (4G/5G) sont les plus propres mais la bande passante coûte cher.
Rate limiting. Même des IP résidentielles propres se font throttle au-delà de ~2 requêtes/seconde par session. Passé 200 requêtes sans reset de cookies, Amazon flag la session et commence à renvoyer des blocs d'avis vides.
Captcha. Une fois flaggé, vous tombez sur la page "Veuillez saisir les caractères ci-dessous". Ce n'est pas reCAPTCHA — c'est le captcha maison d'Amazon avec distorsion d'image, et les solvers publics (2Captcha, CapSolver) le résolvent à environ 0,001 à 0,003 € par résolution.
Fingerprinting TLS. Amazon inspecte le handshake TLS. La lib Python requests a un fingerprint reconnaissable qu'Amazon flag aux visites répétées. curl_cffi (qui imite la stack TLS de Chrome) contourne ça.
Challenges JavaScript. Sur certains marketplaces (notamment amazon.co.jp), Amazon sert un challenge JS qui s'exécute avant le rendu. Plain requests ne peut pas résoudre — il faut un navigateur headless (Playwright) ou un service de fetch managé.
Fingerprinting navigateur. Si vous utilisez Playwright ou Puppeteer avec les paramètres par défaut, Amazon détecte le mode headless via navigator.webdriver, l'absence de chrome.runtime, et les anomalies de canvas fingerprint. Les plugins stealth (playwright-stealth, puppeteer-extra) couvrent l'essentiel mais pas tout.
Légal et CGU
Les avis Amazon publics sont des données publiques. Les scraper est légal aux États-Unis sous la jurisprudence hiQ v. LinkedIn (9th Circuit, 2022), qui a confirmé qu'accéder à des données publiquement visibles sans authentification ne viole pas le Computer Fraud and Abuse Act.
Cela dit, le scraping viole les Conditions générales d'Amazon, qui interdisent "tout outil de collecte ou d'extraction de données". C'est une matière civile, pas pénale. Le levier d'Amazon est de bloquer vos IP, de fermer votre compte vendeur ou acheteur s'il est lié, ou d'intenter une action civile si le scraping cause un préjudice (rare pour les avis).
Pour les opérations dans l'UE, le RGPD s'applique parce que le nom du reviewer est une donnée personnelle. Sous l'Article 6(1)(f), il faut une base légale d'intérêt légitime, et le reviewer garde un droit à l'effacement. La plupart des équipes gèrent ça en anonymisant les noms à l'ingestion et en ne gardant que le texte et la note pour l'analyse.
Pour un usage commercial des données extraites (revente, republication, entraînement LLM), le droit d'auteur s'applique au texte individuel. L'agrégation et l'analyse relèvent de l'usage loyal ; la republication directe non.
4 use cases concrets avec verdict
Le choix de la bonne méthode dépend de la forme du problème. Voici quatre scénarios réels avec le verdict.
Use case 1 — Due diligence produit concurrentielle (ponctuel, 500 avis / concurrent × 10 concurrents)
5 000 avis total. One-shot. Verdict : livraison managée ou run Apify unique. Le DIY Python est surdimensionné pour un projet d'une semaine. L'extension Chrome est trop lente pour 10 produits. L'actor Apify à ~5 € est le moins cher si vous savez configurer la liste d'entrée ; la livraison managée à 150-250 € est plus rapide sinon.
Use case 2 — Vendeur Amazon surveillant ses fiches (quotidien, 50 ASINs, ~200 avis/semaine)
~10 000 avis par semaine. Verdict : actor Apify avec run scheduled + webhook vers votre entrepôt. Coût ~40 €/mois. Les fenêtres de fraîcheur intégrées évitent de re-scraper ce qui existe déjà. Le DIY est possible mais la charge de maintenance dépasse les 40 €.
Use case 3 — Recherche académique sur le sentiment produit (ponctuel, 100 000 avis sur 50 ASINs)
Gros volume, extraction unique. Verdict : ScraperAPI + parser maison, ou run bulk Apify. Coût attendu 80 à 150 €. La livraison managée est overkill à ce volume sauf deadline serrée. Le DIY est possible avec 2 semaines de runway et un chercheur qui code en Python.
Use case 4 — Étude d'entrée marché sur une nouvelle catégorie (récurrent, 500 ASINs, snapshot mensuel)
~50 000 avis/mois. Verdict : livraison managée sous contrat mensuel, ou setup data engineering interne avec ScraperAPI. Le point de bascule buy vs build se situe autour de 500 €/mois — en dessous, le managé gagne sur la maintenance ; au-dessus, l'interne gagne sur les unit economics.
FAQ
Est-ce légal de scraper les avis Amazon ? Les données d'avis publiques sont légales à scraper aux US (jurisprudence hiQ). Cela viole les CGU d'Amazon, avec des conséquences au niveau compte, pas au pénal.
Quel est le meilleur scraper d'avis Amazon ? Aucun outil n'est "le meilleur". Apify gagne sur le volume récurrent, les extensions Chrome sur le ponctuel, les services managés sur les équipes non techniques.
Combien d'avis peut-on tirer par produit ? Amazon plafonne l'accès public à ~1 000 avis par ASIN (100 pages × 10 avis). Plus profond nécessite l'API côté vendeur (propriétaire de fiche uniquement).
Ai-je besoin de proxies ? Oui, au-delà de ~30 requêtes depuis une IP unique. Les proxies résidentiels (5 à 15 € par Go) sont le minimum pour du volume sérieux.
À quelle fréquence Amazon change son HTML ? Changements de sélecteurs majeurs environ toutes les 8 à 12 semaines sur le marketplace principal. Les A/B tests mineurs arrivent chaque semaine et peuvent casser les sélecteurs CSS étroits si vous n'êtes pas défensif.
Peut-on scraper les avis dans d'autres langues que l'anglais ? Oui. Amazon sert les avis dans la langue principale du marketplace. Pour un produit vendu sur amazon.fr, les avis sont en français. Chaque marketplace se scrape séparément.
Pour aller plus loin
Prochaines lectures si vous évaluez la stack scraping plus large :
- Scraping LinkedIn 2026 : guide complet — mêmes concepts anti-bot sur une cible plus dure.
