← Retour au catalogue Crawl4AI · managé par DINAO

Le web transformé en données pour vos IA, en France

Crawl4AI explore les sites web et les convertit en Markdown propre, structuré et prêt pour vos LLM. Le moteur idéal pour alimenter un RAG. Installé et maintenu par DINAO, sur nos serveurs français.

Hébergé en FranceCrawling orienté LLMMarkdown propreConforme RGPDImage éditeur officielle
Présentation

Qu'est-ce que Crawl4AI ?

Crawl4AI est un crawler et scraper web open source taillé spécifiquement pour l'intelligence artificielle. Là où les outils classiques produisent du HTML brut difficile à exploiter, Crawl4AI nettoie les pages, retire le bruit et génère un Markdown propre et structuré, directement digeste par les grands modèles de langage et les pipelines RAG.

Le moteur s'appuie sur un navigateur headless capable d'exécuter le JavaScript, de gérer des sessions, des hooks et des interactions, ce qui lui permet de crawler des sites dynamiques entiers de façon fiable et parallélisée, avec gestion des proxies. Pour l'extraction structurée, il propose des stratégies par sélecteurs CSS, XPath ou schéma piloté par LLM, restituées au format JSON.

Exposé via une API REST et un client Python, Crawl4AI s'intègre naturellement aux chaînes de traitement IA pour constituer des bases de connaissances ou alimenter des agents. Hébergé par DINAO en France, il vous donne une matière première web propre tout en gardant cibles et données extraites sur le territoire.

Offres compatibles

Hébergez Crawl4AI chez DINAO

Paliers de ressources compatibles avec les pré-requis de Crawl4AI (2 vCPU / 2 Go / 5 Go minimum). Hébergé en France, infogéré.

Standard
2 vCPU · 4 Go · 40 Go
19,90 € /mois HT
  • 2 vCPU dédiés
  • 4 Go de RAM
  • 40 Go NVMe
  • Sauvegardes quotidiennes
  • Infogéré & supervisé par DINAO
Commander
Dédié
8 vCPU · 16 Go · 160 Go
79,90 € /mois HT
  • 8 vCPU dédiés
  • 16 Go de RAM
  • 160 Go NVMe
  • Sauvegardes quotidiennes
  • Infogéré & supervisé par DINAO
Commander

1 palier(s) masqué(s) (ressources insuffisantes pour cette app) : Découverte

🧠

Cette application utilise l'IA

Le conteneur n'embarque pas de calcul IA : les étapes IA s'appuient sur une puissance externe au conteneur, fournie via un service complémentaire AI (Mistral, OpenAI, Anthropic…) branché avec votre propre clé. Prenez un pack de tokens pour démarrer (abonnements fournisseurs non inclus).

Pack IA Découverte
5 M tokens IN · 1 M tokens OUT
9,00 €
Ajouter
Pack IA Starter
25 M tokens IN · 6 M tokens OUT
39,00 €
Ajouter
Pack IA Pro
100 M tokens IN · 25 M tokens OUT
129,00 €
Ajouter
Sous le capot

Détails techniques

vCPU
2 vCPU
idéal : 4 vCPU
Mémoire
2 Go
idéal : 4 Go
Disque
5 Go
idéal : 10 Go
Image : unclecode/crawl4ai:latest Registre : docker.io Services : crawl4ai Ports : 11235
Questions fréquentes

Vous vous demandez…

À quoi sert Crawl4AI ?

Crawl4AI explore des sites web et les transforme en Markdown propre et structuré, directement exploitable par des LLM. C'est le moteur idéal pour constituer la base de connaissances d'un système RAG ou alimenter un agent IA.

Gère-t-il les sites dynamiques en JavaScript ?

Oui. Crawl4AI utilise un navigateur headless qui exécute le JavaScript, gère les sessions et les interactions, ce qui lui permet de crawler des pages dynamiques que les scrapers classiques ne voient pas.

Comment extraire des champs précis ?

Vous définissez une stratégie d'extraction par sélecteurs CSS, XPath, ou par un schéma piloté par LLM. Crawl4AI renvoie alors les données structurées au format JSON.

Mes données extraites restent-elles en France ?

Oui. Le moteur s'exécute sur l'infrastructure DINAO en France et les contenus extraits sont stockés sur le territoire. Voir la note de souveraineté ci-dessous concernant l'usage d'API LLM externes.

Faut-il un LLM pour utiliser Crawl4AI ?

Non pour le crawl et l'extraction par CSS/XPath, qui ne nécessitent aucun modèle. Un LLM n'intervient que si vous choisissez l'extraction par schéma piloté par IA ; il peut alors être local (souverain) ou externe.