Veille IA/Tech — 25 mars 2026

⚡ TurboQuant : Google repousse les limites de la compression de modùles

Google Research dĂ©voile TurboQuant, une nouvelle approche de quantification extrĂȘme des LLMs. L’objectif est de rĂ©duire drastiquement l’empreinte mĂ©moire et les coĂ»ts d’infĂ©rence sans dĂ©gradation majeure des performances. ParticuliĂšrement stratĂ©gique pour les dĂ©ploiements edge et on-device oĂč la bande passante mĂ©moire est le goulot d’étranglement principal.

→ Google Research Blog


🔐 Attaque supply chain critique sur LiteLLM (95M dl/mois)

Le groupe TeamPCP a compromis le package PyPI LiteLLM, bibliothĂšque d’abstraction LLM parmi les plus populaires de l’écosystĂšme Python avec 95 millions de tĂ©lĂ©chargements mensuels. Le vecteur : injection de malware de vol de credentials et tokens d’authentification. Des centaines de milliers de machines seraient potentiellement compromises.

Actions recommandées :

  • Auditer votre version installĂ©e immĂ©diatement
  • VĂ©rifier les tokens d’API exposĂ©s (OpenAI, Anthropic, etc.)
  • Mettre Ă  jour vers une version saine vĂ©rifiĂ©e

→ BleepingComputer (dĂ©tails techniques) → CyberInsider


📩 Quantization from the Ground Up — RĂ©fĂ©rence technique 2026

ngrok publie un guide technique complet sur la quantification des modĂšles de deep learning, couvrant les fondements mathĂ©matiques (INT8, INT4, GPTQ, AWQ) jusqu’aux considĂ©rations d’implĂ©mentation pratique. Un complĂ©ment solide aux annonces comme TurboQuant pour comprendre les arbitrages prĂ©cision/performance.

→ ngrok Blog


🏠 Ensu : LLM local par Ente (privacy-first)

Ente, la startup connue pour son application photo chiffrĂ©e de bout en bout, lance Ensu, une application de LLM local. Positionnement souverainetĂ© des donnĂ©es, infĂ©rence 100% on-device, sans tĂ©lĂ©mĂ©trie. S’inscrit dans la tendance forte des solutions LLM locales face aux dĂ©pendances aux APIs cloud et aux prĂ©occupations RGPD.

→ Ente Blog


⚡ Infrastructure IA : les data centers basculent du AC vers le DC

Selon IEEE Spectrum, une transition majeure est en cours dans les data centers : passage de l’alimentation en courant alternatif (AC) au courant continu (DC). Les gains d’efficacitĂ© sont significatifs — chaque conversion AC/DC reprĂ©sente des pertes Ă©nergĂ©tiques cumulĂ©es. Pour les clusters GPU d’entraĂźnement IA, l’impact sur le PUE (Power Usage Effectiveness) et les coĂ»ts opĂ©rationnels est direct.

→ IEEE Spectrum


📰 Le New York Times accusĂ© de publier des articles gĂ©nĂ©rĂ©s par IA

Un article signĂ© d’une journaliste du New York Times est pointĂ© du doigt pour ses marqueurs stylistiques caractĂ©ristiques des LLMs : parallĂ©lismes rhĂ©toriques (“not X, not X, but Y”), usage intensif de la rĂšgle de trois, formulations stĂ©rĂ©otypĂ©es. L’affaire s’appuie notamment sur les guidelines de dĂ©tection publiĂ©es par les Ă©diteurs Wikipedia. Elle relance le dĂ©bat sur les politiques Ă©ditoriales de transparence dans les grands mĂ©dias et les limites des outils de dĂ©tection de contenu IA.

→ Futurism