Le web transformé en données pour vos IA, en France
Crawl4AI explore les sites web et les convertit en Markdown propre, structuré et prêt pour vos LLM. Le moteur idéal pour alimenter un RAG. Installé et maintenu par DINAO, sur nos serveurs français.
Qu'est-ce que Crawl4AI ?
Crawl4AI est un crawler et scraper web open source taillé spécifiquement pour l'intelligence artificielle. Là où les outils classiques produisent du HTML brut difficile à exploiter, Crawl4AI nettoie les pages, retire le bruit et génère un Markdown propre et structuré, directement digeste par les grands modèles de langage et les pipelines RAG.
Le moteur s'appuie sur un navigateur headless capable d'exécuter le JavaScript, de gérer des sessions, des hooks et des interactions, ce qui lui permet de crawler des sites dynamiques entiers de façon fiable et parallélisée, avec gestion des proxies. Pour l'extraction structurée, il propose des stratégies par sélecteurs CSS, XPath ou schéma piloté par LLM, restituées au format JSON.
Exposé via une API REST et un client Python, Crawl4AI s'intègre naturellement aux chaînes de traitement IA pour constituer des bases de connaissances ou alimenter des agents. Hébergé par DINAO en France, il vous donne une matière première web propre tout en gardant cibles et données extraites sur le territoire.
Hébergez Crawl4AI chez DINAO
Paliers de ressources compatibles avec les pré-requis de Crawl4AI (2 vCPU / 2 Go / 5 Go minimum). Hébergé en France, infogéré.
- 2 vCPU dédiés
- 4 Go de RAM
- 40 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 4 vCPU dédiés
- 8 Go de RAM
- 80 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 8 vCPU dédiés
- 16 Go de RAM
- 160 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
1 palier(s) masqué(s) (ressources insuffisantes pour cette app) : Découverte
Cette application utilise l'IA
Le conteneur n'embarque pas de calcul IA : les étapes IA s'appuient sur une puissance externe au conteneur, fournie via un service complémentaire AI (Mistral, OpenAI, Anthropic…) branché avec votre propre clé. Prenez un pack de tokens pour démarrer (abonnements fournisseurs non inclus).
Détails techniques
Vous vous demandez…
À quoi sert Crawl4AI ?
Crawl4AI explore des sites web et les transforme en Markdown propre et structuré, directement exploitable par des LLM. C'est le moteur idéal pour constituer la base de connaissances d'un système RAG ou alimenter un agent IA.
Gère-t-il les sites dynamiques en JavaScript ?
Oui. Crawl4AI utilise un navigateur headless qui exécute le JavaScript, gère les sessions et les interactions, ce qui lui permet de crawler des pages dynamiques que les scrapers classiques ne voient pas.
Comment extraire des champs précis ?
Vous définissez une stratégie d'extraction par sélecteurs CSS, XPath, ou par un schéma piloté par LLM. Crawl4AI renvoie alors les données structurées au format JSON.
Mes données extraites restent-elles en France ?
Oui. Le moteur s'exécute sur l'infrastructure DINAO en France et les contenus extraits sont stockés sur le territoire. Voir la note de souveraineté ci-dessous concernant l'usage d'API LLM externes.
Faut-il un LLM pour utiliser Crawl4AI ?
Non pour le crawl et l'extraction par CSS/XPath, qui ne nécessitent aucun modèle. Un LLM n'intervient que si vous choisissez l'extraction par schéma piloté par IA ; il peut alors être local (souverain) ou externe.