L'indexation automatique de vos documents, en France
Attribuez automatiquement des mots-matières à vos documents avec Annif, installé et maintenu par DINAO. Vos corpus et vos modèles d'indexation restent sur nos serveurs français — jamais envoyés à un service d'IA tiers.
Qu'est-ce que Annif ?
Annif est un outil d'indexation automatique de sujets multi-algorithmes, conçu pour les bibliothèques, archives et musées. Développé par la Bibliothèque nationale de Finlande, il attribue automatiquement des mots-matières aux documents à partir d'un vocabulaire contrôlé, accélérant considérablement le travail de catalogage.
Annif combine plusieurs outils de traitement automatique du langage et d'apprentissage automatique — TensorFlow, Omikuji, fastText, spaCy — au travers de backends variés (TF-IDF, fastText, MLLM, ensembles de réseaux de neurones) qu'il est possible de mélanger pour obtenir les meilleurs résultats. Il est multilingue et prend en charge n'importe quel vocabulaire de sujets au format SKOS ou TSV.
L'outil fournit une interface en ligne de commande, une interface web simple et une API REST de type microservice, ce qui facilite son intégration dans des systèmes documentaires existants. Publié sous licence Apache 2.0, Annif exécute ses modèles localement : vos corpus et vos modèles restent entièrement sous votre contrôle.
Hébergez Annif chez DINAO
Paliers de ressources compatibles avec les pré-requis de Annif (1 vCPU / 2 Go / 5 Go minimum). Hébergé en France, infogéré.
- 1 vCPU dédiés
- 2 Go de RAM
- 20 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 2 vCPU dédiés
- 4 Go de RAM
- 40 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 4 vCPU dédiés
- 8 Go de RAM
- 80 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 8 vCPU dédiés
- 16 Go de RAM
- 160 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
Détails techniques
Vous vous demandez…
À quoi sert Annif concrètement ?
Annif attribue automatiquement des mots-matières (sujets) à vos documents à partir d'un vocabulaire contrôlé. Il est conçu pour les bibliothèques, archives et musées qui veulent indexer rapidement de grandes collections.
Annif envoie-t-il mes documents à un service d'IA ?
Non. Annif s'exécute entièrement sur votre instance DINAO en France. Les modèles sont entraînés et exécutés localement à partir de vos propres corpus — aucun corpus ni document n'est envoyé à un service d'IA tiers.
Où sont hébergées les données ?
Sur l'infrastructure DINAO en France, dans un des datacenters disponible. Vos corpus d'entraînement, vocabulaires et modèles ne quittent pas le territoire.
Faut-il des compétences techniques ?
Pour l'usage courant (indexer via l'API ou l'interface web), non. La préparation des vocabulaires et l'entraînement des modèles demandent en revanche un profil documentaire ou data ; DINAO gère l'hébergement, les dépendances et les mises à jour.
Annif fonctionne-t-il en français et avec mon vocabulaire ?
Oui. Annif est multilingue et accepte n'importe quel vocabulaire de sujets au format SKOS ou TSV, ce qui permet de l'adapter à votre thésaurus et à vos langues de travail.