🤖 Veille IA & Tech — 25 mars 2026

Veille IA/Tech — 25 mars 2026

⚡ TurboQuant : Google repousse les limites de la compression de modèles

Google Research dévoile TurboQuant, une nouvelle approche de quantification extrême des LLMs. L’objectif est de réduire drastiquement l’empreinte mémoire et les coûts d’inférence sans dégradation majeure des performances. Particulièrement stratégique pour les déploiements edge et on-device où la bande passante mémoire est le goulot d’étranglement principal.

→ Google Research Blog

🔐 Attaque supply chain critique sur LiteLLM (95M dl/mois)

Le groupe TeamPCP a compromis le package PyPI LiteLLM, bibliothèque d’abstraction LLM parmi les plus populaires de l’écosystème Python avec 95 millions de téléchargements mensuels. Le vecteur : injection de malware de vol de credentials et tokens d’authentification. Des centaines de milliers de machines seraient potentiellement compromises.

Actions recommandées :

Auditer votre version installée immédiatement
Vérifier les tokens d’API exposés (OpenAI, Anthropic, etc.)
Mettre à jour vers une version saine vérifiée

→ BleepingComputer (détails techniques) → CyberInsider

📦 Quantization from the Ground Up — Référence technique 2026

ngrok publie un guide technique complet sur la quantification des modèles de deep learning, couvrant les fondements mathématiques (INT8, INT4, GPTQ, AWQ) jusqu’aux considérations d’implémentation pratique. Un complément solide aux annonces comme TurboQuant pour comprendre les arbitrages précision/performance.

→ ngrok Blog

🏠 Ensu : LLM local par Ente (privacy-first)

Ente, la startup connue pour son application photo chiffrée de bout en bout, lance Ensu, une application de LLM local. Positionnement souveraineté des données, inférence 100% on-device, sans télémétrie. S’inscrit dans la tendance forte des solutions LLM locales face aux dépendances aux APIs cloud et aux préoccupations RGPD.

→ Ente Blog

⚡ Infrastructure IA : les data centers basculent du AC vers le DC

Selon IEEE Spectrum, une transition majeure est en cours dans les data centers : passage de l’alimentation en courant alternatif (AC) au courant continu (DC). Les gains d’efficacité sont significatifs — chaque conversion AC/DC représente des pertes énergétiques cumulées. Pour les clusters GPU d’entraînement IA, l’impact sur le PUE (Power Usage Effectiveness) et les coûts opérationnels est direct.

→ IEEE Spectrum

📰 Le New York Times accusé de publier des articles générés par IA

Un article signé d’une journaliste du New York Times est pointé du doigt pour ses marqueurs stylistiques caractéristiques des LLMs : parallélismes rhétoriques (“not X, not X, but Y”), usage intensif de la règle de trois, formulations stéréotypées. L’affaire s’appuie notamment sur les guidelines de détection publiées par les éditeurs Wikipedia. Elle relance le débat sur les politiques éditoriales de transparence dans les grands médias et les limites des outils de détection de contenu IA.

→ Futurism