đ€ Veille IA & Tech â 25 mars 2026
Veille IA/Tech â 25 mars 2026
⥠TurboQuant : Google repousse les limites de la compression de modÚles
Google Research dĂ©voile TurboQuant, une nouvelle approche de quantification extrĂȘme des LLMs. Lâobjectif est de rĂ©duire drastiquement lâempreinte mĂ©moire et les coĂ»ts dâinfĂ©rence sans dĂ©gradation majeure des performances. ParticuliĂšrement stratĂ©gique pour les dĂ©ploiements edge et on-device oĂč la bande passante mĂ©moire est le goulot dâĂ©tranglement principal.
đ Attaque supply chain critique sur LiteLLM (95M dl/mois)
Le groupe TeamPCP a compromis le package PyPI LiteLLM, bibliothĂšque dâabstraction LLM parmi les plus populaires de lâĂ©cosystĂšme Python avec 95 millions de tĂ©lĂ©chargements mensuels. Le vecteur : injection de malware de vol de credentials et tokens dâauthentification. Des centaines de milliers de machines seraient potentiellement compromises.
Actions recommandées :
- Auditer votre version installée immédiatement
- VĂ©rifier les tokens dâAPI exposĂ©s (OpenAI, Anthropic, etc.)
- Mettre à jour vers une version saine vérifiée
â BleepingComputer (dĂ©tails techniques) â CyberInsider
đŠ Quantization from the Ground Up â RĂ©fĂ©rence technique 2026
ngrok publie un guide technique complet sur la quantification des modĂšles de deep learning, couvrant les fondements mathĂ©matiques (INT8, INT4, GPTQ, AWQ) jusquâaux considĂ©rations dâimplĂ©mentation pratique. Un complĂ©ment solide aux annonces comme TurboQuant pour comprendre les arbitrages prĂ©cision/performance.
đ Ensu : LLM local par Ente (privacy-first)
Ente, la startup connue pour son application photo chiffrĂ©e de bout en bout, lance Ensu, une application de LLM local. Positionnement souverainetĂ© des donnĂ©es, infĂ©rence 100% on-device, sans tĂ©lĂ©mĂ©trie. Sâinscrit dans la tendance forte des solutions LLM locales face aux dĂ©pendances aux APIs cloud et aux prĂ©occupations RGPD.
⥠Infrastructure IA : les data centers basculent du AC vers le DC
Selon IEEE Spectrum, une transition majeure est en cours dans les data centers : passage de lâalimentation en courant alternatif (AC) au courant continu (DC). Les gains dâefficacitĂ© sont significatifs â chaque conversion AC/DC reprĂ©sente des pertes Ă©nergĂ©tiques cumulĂ©es. Pour les clusters GPU dâentraĂźnement IA, lâimpact sur le PUE (Power Usage Effectiveness) et les coĂ»ts opĂ©rationnels est direct.
đ° Le New York Times accusĂ© de publier des articles gĂ©nĂ©rĂ©s par IA
Un article signĂ© dâune journaliste du New York Times est pointĂ© du doigt pour ses marqueurs stylistiques caractĂ©ristiques des LLMs : parallĂ©lismes rhĂ©toriques (ânot X, not X, but Yâ), usage intensif de la rĂšgle de trois, formulations stĂ©rĂ©otypĂ©es. Lâaffaire sâappuie notamment sur les guidelines de dĂ©tection publiĂ©es par les Ă©diteurs Wikipedia. Elle relance le dĂ©bat sur les politiques Ă©ditoriales de transparence dans les grands mĂ©dias et les limites des outils de dĂ©tection de contenu IA.