Le Git de vos données, hébergé en France
Apportez le versioning façon Git à vos data lakes avec lakeFS, installé et maintenu par DINAO. Branches, commits et rollback sur votre stockage objet — sur une infrastructure souveraine.
Qu'est-ce que lakeFS ?
lakeFS est une plateforme open-source qui apporte le contrôle de version façon Git aux data lakes — d'où l'expression « Git for Data ». Elle transforme un stockage objet en dépôt versionné, permettant de créer des branches, de revenir en arrière (rollback) et de garantir la reproductibilité et l'atomicité des traitements.
Compatible avec l'API S3, lakeFS s'intègre directement aux moteurs analytiques modernes : Spark, Hive, Athena, DuckDB, Presto. Elle s'utilise pour isoler des environnements dev/test sans copier physiquement les données, fiabiliser les pipelines ETL et appliquer des contrôles qualité avant publication.
Publiée sous licence Apache 2.0 et entièrement auto-hébergeable, lakeFS prend en charge AWS S3, Azure Blob Storage et Google Cloud Storage, et propose des hooks de gouvernance pour des workflows de type write-audit-publish.
Hébergez lakeFS chez DINAO
Paliers de ressources compatibles avec les pré-requis de lakeFS (1 vCPU / 1 Go / 10 Go minimum). Hébergé en France, infogéré.
- 1 vCPU dédiés
- 2 Go de RAM
- 20 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 2 vCPU dédiés
- 4 Go de RAM
- 40 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 4 vCPU dédiés
- 8 Go de RAM
- 80 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 8 vCPU dédiés
- 16 Go de RAM
- 160 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
Détails techniques
Vous vous demandez…
Qu'est-ce que « Git pour les données » ?
lakeFS transpose les concepts de Git (branches, commits, merge, rollback) à votre data lake. Vous isolez des environnements, testez des transformations et publiez la donnée seulement une fois validée.
Dois-je migrer mes outils ?
Non. lakeFS expose une API compatible S3 : Spark, Hive, Athena, DuckDB ou Presto s'y connectent comme à un bucket S3 classique, sans réécrire vos pipelines.
Mes jeux de données restent-ils en France ?
Oui. Les métadonnées et le stockage objet sont hébergés sur l'infrastructure DINAO en France. Vos données ne quittent pas le territoire.
lakeFS embarque-t-il de l'IA ?
Non. lakeFS est un outil d'infrastructure data. Il est souvent utilisé en amont de projets de machine learning pour fiabiliser et reproduire les jeux de données, mais il ne contient lui-même aucune intelligence artificielle.
Puis-je changer de formule ou exporter mes données ?
Oui. Vous montez ou descendez de palier à tout moment, et vos données restent exportables — pas de verrouillage propriétaire.