đ€ Veille IA & Tech â 2 avril 2026
Digest IA/Tech â jeudi 2 avril 2026
đ„ Top du jour
LiteLLM rompt avec Delve aprĂšs incident malware
Score: 9/10 | Source: TechCrunch
LiteLLM a subi un vol de credentials via Delve, son prestataire de certifications SOC2/ISO. La startup a immédiatement rompu le contrat aprÚs découverte du malware. Alerte critique pour tout stack DevSecOps utilisant LiteLLM comme AI gateway : auditer les secrets exposés, rotation des clés API, revue des accÚs third-party compliance tooling.
attn-rot (TurboQuant-like KV cache) mergé dans llama.cpp
Score: 8/10 | Source: Reddit r/LocalLLaMA
La rotation dâactivations pour amĂ©liorer la quantization (PR #21038 par ggerganov lui-mĂȘme) est maintenant upstream dans llama.cpp. RĂ©sultat : 80% des bĂ©nĂ©fices de TurboQuant sans downsides, Q8 â F16 en qualitĂ© effective. Disponible immĂ©diatement pour tous les dĂ©ploiements llama.cpp, y compris via Ollama/LocalAI en container K8s.
APEX MoE : +33% inférence, TurboQuant +14% prompt processing
Score: 8/10 | Source: Reddit r/LocalLLaMA â Ă©quipe LocalAI
APEX (Adaptive Precision for EXpert Models) : nouvelle technique de quantization pour architectures MoE. 2x plus compact que Q8, perplexité proche de F16, compatible llama.cpp stock sans patches. Benchmarké sur Qwen3.5-35B-A3B. Pertinent pour optimiser les déploiements de modÚles MoE dans des pods K8s avec contraintes mémoire.
Ollama intĂšgre MLX dâApple pour Apple Silicon
Score: 8/10 | Source: MacRumors
Ollama tire dĂ©sormais parti du framework MLX dâApple sur les puces M-series, avec un boost de vitesse significatif. Si tu dĂ©veloppes localement avec Claude Code sur Mac, tes modĂšles locaux de fallback/test bĂ©nĂ©ficient directement de cette amĂ©lioration sans configuration supplĂ©mentaire.
Qwen3.5-27B distillĂ© depuis Claude 4.6 Opus â questions lĂ©gales
Score: 7/10 | Source: Reddit r/LocalLLaMA
Un modĂšle HuggingFace (Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled) semble avoir Ă©tĂ© distillĂ© depuis un modĂšle Anthropic commercial, en violation probable des ToS. Signal dâalerte pour les pratiques de distillation en entreprise : risque lĂ©gal rĂ©el, et soulĂšve des questions sur lâenforcement dâAnthropic.
HuggingFace TRL v1.0 : 75+ méthodes de post-training
Score: 7/10 | Source: Reddit r/LocalLLaMA
6 ans aprÚs le premier commit, TRL atteint la v1.0 avec 75+ méthodes : SFT, DPO, GRPO, async RL. Librairie de référence pour le post-training open-source. Utile pour fine-tuner des LLMs sur des domaines spécifiques (données de santé/fitness, security logs, etc.) dans un pipeline MLOps.
đĄ Signaux faibles
TurboQuant devient le nouveau standard de quantization
Convergence de plusieurs dĂ©veloppements cette semaine : attn-rot dans llama.cpp core, APEX MoE, TQ3_4S. La quantization de nouvelle gĂ©nĂ©ration sâunifie dans le mainstream. Ă anticiper pour les specs de dĂ©ploiement K8s : les modĂšles 27B+ deviennent viables sur des nodes standard.
1-bit LLMs + edge : vers des agents on-device
Les modĂšles Bonsai 1-bit (PrismML) combinĂ©s aux discussions sur smartphones et wearables dessinent un futur proche dâagents IA rĂ©ellement autonomes sur device. Signal fort pour fitness-tech : health data processing local = privacy by design sans cloud.
DeepSeek prépare son plus grand modÚle
Signaux de release imminente du prochain grand modÚle DeepSeek. à surveiller comme alternative open-source aux modÚles frontier propriétaires pour déploiements auto-hébergés.
Capability Discovery : gap dans les APIs LLM
Le manque de métadonnées capacités sur /v1/models force les frameworks (LiteLLM, LangChain) à maintenir des registres tiers fragiles. Un chantier de standardisation OpenAPI qui pourrait impacter tous les orchestrateurs LLM en prod.
Supply-chain attack via compliance tooling : nouveau vecteur
Lâincident LiteLLM/Delve est le premier cas documentĂ© de compromission dâun AI gateway via son prestataire de certification compliance. Nouveau pattern de menace Ă intĂ©grer dans les threat models DevSecOps pour lâĂ©cosystĂšme IA.
đĄ Autres
SmolLM2-360M sur Samsung Galaxy Watch 4 (380MB RAM)
Score: 6/10
Optimisation mmap/ggml permettant de réduire la RAM de 74% sur wearable. Hack technique intéressant pour le fitness-tech : LLM local sur smartwatch reste trÚs limité fonctionnellement mais le principe ouvre des perspectives pour le health monitoring autonome.
Arcee Trinity-Large-Thinking
Score: 5/10
Nouveau modĂšle âthinkingâ dâArcee AI. Peu de dĂ©tails disponibles mais Ă benchmarker contre Qwen3.5 pour les usages agents locaux, notamment si les modĂšles Qwen montrent des problĂšmes de fiabilitĂ© (voir thread sur les hallucinations de Qwen3.5).