Transcription & voix IA, hébergées en France
Un serveur speech-to-text et text-to-speech compatible OpenAI propulsé par Speaches, installé et maintenu par DINAO. Vos enregistrements et vos voix générées restent sur nos serveurs français — ils ne partent jamais chez OpenAI.
Qu'est-ce que Speaches ?
Speaches est un serveur compatible avec l'API OpenAI dédié à la transcription, à la traduction et à la génération de parole. La reconnaissance vocale (speech-to-text) est assurée par faster-whisper, tandis que la synthèse vocale (text-to-speech) s'appuie sur Piper et Kokoro. L'objectif du projet : être un « Ollama, mais pour les modèles TTS/STT ».
Parce que son API est compatible OpenAI, tous les outils et SDK conçus pour l'API audio d'OpenAI fonctionnent avec Speaches sans modification. La transcription est diffusée en streaming via SSE au fur et à mesure que l'audio est traité : inutile d'attendre la fin du fichier pour recevoir le texte.
Auto-hébergé, Speaches garantit une confidentialité totale des données, supprime les coûts à la minute et permet de traiter l'audio sans dépendre d'une API cloud. Plusieurs modèles peuvent coexister et être chargés à la demande, du plus léger en CPU aux grands modèles accélérés par GPU.
Hébergez Speaches chez DINAO
Paliers de ressources compatibles avec les pré-requis de Speaches (2 cœurs / 4 Go / 10 Go (cache des modèles Hugging Face) minimum). Hébergé en France, infogéré.
- 2 vCPU dédiés
- 4 Go de RAM
- 40 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 4 vCPU dédiés
- 8 Go de RAM
- 80 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
- 8 vCPU dédiés
- 16 Go de RAM
- 160 Go NVMe
- Sauvegardes quotidiennes
- Infogéré & supervisé par DINAO
1 palier(s) masqué(s) (ressources insuffisantes pour cette app) : Découverte
Cette application utilise l'IA
Le conteneur n'embarque pas de calcul IA : les étapes IA s'appuient sur une puissance externe au conteneur, fournie via un service complémentaire AI (Mistral, OpenAI, Anthropic…) branché avec votre propre clé. Prenez un pack de tokens pour démarrer (abonnements fournisseurs non inclus).
Détails techniques
Vous vous demandez…
Mes enregistrements partent-ils chez OpenAI ?
Non. En mode local, vos fichiers audio sont transcrits et synthétisés directement sur votre instance DINAO via Whisper, Piper et Kokoro. Aucun son ni texte n'est transmis à un fournisseur tiers.
Speaches est-il compatible avec les outils OpenAI ?
Oui. Speaches expose une API compatible OpenAI : les SDK et applications qui utilisent l'API audio d'OpenAI fonctionnent en pointant simplement vers votre instance.
Quels modèles sont disponibles ?
Pour la transcription, les modèles Whisper (faster-whisper) du plus léger au plus précis. Pour la synthèse vocale, Piper et Kokoro, avec plusieurs voix. Un GPU accélère fortement les grands modèles.
Où sont hébergées les données ?
Sur l'infrastructure DINAO en France, dans un des datacenters disponible. Vos audios et textes ne quittent pas le territoire.
Faut-il un GPU ?
Non pour les modèles légers, qui tournent en CPU. Pour la transcription en temps réel ou les grands modèles Whisper, un GPU en option améliore nettement la vitesse.