🤖 Veille IA/Tech — Vendredi 27 mars 2026


🔊 Mistral lance Voxtral TTS : open-weights, 3B paramètres

Mistral publie Voxtral TTS, un modèle text-to-speech à poids ouverts de 3 milliards de paramètres (~3 Go RAM). Caractéristiques clés :

  • Latence : 90ms time-to-first-audio
  • 9 langues supportĂ©es
  • Mistral revendique une supĂ©rioritĂ© sur ElevenLabs Flash v2.5 en tests de prĂ©fĂ©rence humaine
  • Une variante Voxtral-4B-TTS-2603 est dĂ©jĂ  disponible sur HuggingFace

À noter : la page officielle Mistral renvoie une 404 au moment de la publication, mais le modèle est actif.


🔍 Chroma Context-1 : agent de recherche 20B auto-éditant

ChromaDB publie Context-1, un modèle agentic de 20 milliards de paramètres entraîné pour la recherche itérative auto-correctrice. L’agent apprend à reformuler ses propres requêtes sans intervention humaine (self-editing search). Les poids sont disponibles via HuggingFace chromadb/context-1.

Approche intéressante pour les pipelines RAG avancés où la qualité de la requête conditionne le résultat final.


🎤 Cohere Transcribe : modèle ASR 2B, Apache 2.0, 14 langues

Cohere lance Cohere Transcribe, son premier modèle de transcription automatique de la parole :

  • 2B paramètres, licence Apache 2.0
  • 14 langues : EN, FR, DE, IT, ES, PT, EL, NL, PL, ZH, JA, KO, VI, AR
  • Se revendique SOTA parmi les modèles open-source de transcription

À mettre en perspective avec le benchmark médical communautaire de 31 modèles STT, où Microsoft VibeVoice-ASR 9B décroche la meilleure performance open-source (8.34% WER), proche de Gemini 2.5 Pro (8.15%), mais avec un coût compute élevé (9B params, ~18GB VRAM, 97s/fichier sur H100).


⚡ Qwen3.5-27B : 1,1 million de tokens/s sur 96× NVIDIA B200

Un benchmark vLLM communautaire documente 1 103 941 tok/s sur Qwen3.5-27B dense (