
Vos documents, prêts pour l'IA
Une plateforme de préparation de données propulsée par Unstructured, installée et maintenue par DINAO. Transformez vos PDF, Word, e-mails et images en données propres et structurées pour vos LLM et pipelines RAG — le tout hébergé en France.
Qu'est-ce que Unstructured ?
Unstructured est une boîte à outils open source de préparation de données pour l'IA. Sa mission : transformer des documents bruts et hétérogènes — PDF, Word, PowerPoint, HTML, e-mails, images scannées — en données propres, normalisées et structurées, directement consommables par les modèles de langage (LLM) et les pipelines de RAG (Retrieval Augmented Generation).
Concrètement, Unstructured ingère plus de vingt types de fichiers, détecte leur structure (titres, tableaux, listes, mise en page), applique l'OCR aux documents scannés et découpe le contenu en chunks cohérents. Or la qualité de ce découpage conditionne directement la pertinence d'un système RAG : mieux préparées, vos données produisent des réponses d'IA plus justes.
L'outil propose des connecteurs source et cible (stockage objet, drives, bases vectorielles) ainsi qu'une API pour bâtir des pipelines d'ingestion automatisés et reproductibles, du document d'origine jusqu'à l'index vectoriel. Managé par DINAO et hébergé en France, c'est le maillon idéal pour alimenter une IA souveraine sans exposer vos documents confidentiels à un service cloud étranger.
Hébergez Unstructured chez DINAO
Paliers de ressources compatibles avec les pré-requis de Unstructured (2 cœurs / 4 Go / 10 Go minimum). Hébergé en France, infogéré.
- 2 vCPU dédiés
- 4 Go de RAM
- 40 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 4 vCPU dédiés
- 8 Go de RAM
- 80 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 8 vCPU dédiés
- 16 Go de RAM
- 160 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
1 palier(s) masqué(s) (ressources insuffisantes pour cette app) : Découverte
Cette application utilise l'IA
Le conteneur n'embarque pas de calcul IA : les étapes IA s'appuient sur une puissance externe au conteneur, fournie via un service complémentaire AI (Mistral, OpenAI, Anthropic…) branché avec votre propre clé. Prenez un pack de tokens pour démarrer (abonnements fournisseurs non inclus).
Détails techniques
Vous vous demandez…
À quoi sert Unstructured ?
À transformer des documents bruts (PDF, Word, e-mails, images…) en données propres et structurées, directement exploitables par vos modèles de langage et vos pipelines de RAG.
Quels formats sont pris en charge ?
Plus de vingt types de fichiers : PDF, Word, PowerPoint, HTML, e-mails, ainsi que des images scannées grâce à l'OCR. Le contenu est normalisé en éléments structurés.
Pourquoi est-ce important pour mon projet IA ?
La qualité d'un système RAG dépend largement de la qualité du découpage des documents. Unstructured produit des chunks propres, ce qui améliore nettement la pertinence des réponses de votre IA.
Mes documents confidentiels restent-ils privés ?
Oui. Tout le traitement se fait sur votre instance dédiée hébergée en France. Vos documents ne sont pas envoyés à un service de préparation cloud tiers.
Puis-je automatiser l'ingestion ?
Oui. Grâce aux connecteurs source/cible et à l'API, vous bâtissez des pipelines d'ingestion automatisés et reproductibles, du stockage jusqu'à la base vectorielle.