Digest IA/Tech — jeudi 2 avril 2026

đŸ”„ Top du jour

LiteLLM rompt avec Delve aprĂšs incident malware

Score: 9/10 | Source: TechCrunch

LiteLLM a subi un vol de credentials via Delve, son prestataire de certifications SOC2/ISO. La startup a immédiatement rompu le contrat aprÚs découverte du malware. Alerte critique pour tout stack DevSecOps utilisant LiteLLM comme AI gateway : auditer les secrets exposés, rotation des clés API, revue des accÚs third-party compliance tooling.


attn-rot (TurboQuant-like KV cache) mergé dans llama.cpp

Score: 8/10 | Source: Reddit r/LocalLLaMA

La rotation d’activations pour amĂ©liorer la quantization (PR #21038 par ggerganov lui-mĂȘme) est maintenant upstream dans llama.cpp. RĂ©sultat : 80% des bĂ©nĂ©fices de TurboQuant sans downsides, Q8 ≈ F16 en qualitĂ© effective. Disponible immĂ©diatement pour tous les dĂ©ploiements llama.cpp, y compris via Ollama/LocalAI en container K8s.


APEX MoE : +33% inférence, TurboQuant +14% prompt processing

Score: 8/10 | Source: Reddit r/LocalLLaMA — Ă©quipe LocalAI

APEX (Adaptive Precision for EXpert Models) : nouvelle technique de quantization pour architectures MoE. 2x plus compact que Q8, perplexité proche de F16, compatible llama.cpp stock sans patches. Benchmarké sur Qwen3.5-35B-A3B. Pertinent pour optimiser les déploiements de modÚles MoE dans des pods K8s avec contraintes mémoire.


Ollama intùgre MLX d’Apple pour Apple Silicon

Score: 8/10 | Source: MacRumors

Ollama tire dĂ©sormais parti du framework MLX d’Apple sur les puces M-series, avec un boost de vitesse significatif. Si tu dĂ©veloppes localement avec Claude Code sur Mac, tes modĂšles locaux de fallback/test bĂ©nĂ©ficient directement de cette amĂ©lioration sans configuration supplĂ©mentaire.


Qwen3.5-27B distillĂ© depuis Claude 4.6 Opus — questions lĂ©gales

Score: 7/10 | Source: Reddit r/LocalLLaMA

Un modĂšle HuggingFace (Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled) semble avoir Ă©tĂ© distillĂ© depuis un modĂšle Anthropic commercial, en violation probable des ToS. Signal d’alerte pour les pratiques de distillation en entreprise : risque lĂ©gal rĂ©el, et soulĂšve des questions sur l’enforcement d’Anthropic.


HuggingFace TRL v1.0 : 75+ méthodes de post-training

Score: 7/10 | Source: Reddit r/LocalLLaMA

6 ans aprÚs le premier commit, TRL atteint la v1.0 avec 75+ méthodes : SFT, DPO, GRPO, async RL. Librairie de référence pour le post-training open-source. Utile pour fine-tuner des LLMs sur des domaines spécifiques (données de santé/fitness, security logs, etc.) dans un pipeline MLOps.


📡 Signaux faibles

TurboQuant devient le nouveau standard de quantization

Convergence de plusieurs dĂ©veloppements cette semaine : attn-rot dans llama.cpp core, APEX MoE, TQ3_4S. La quantization de nouvelle gĂ©nĂ©ration s’unifie dans le mainstream. À anticiper pour les specs de dĂ©ploiement K8s : les modĂšles 27B+ deviennent viables sur des nodes standard.

1-bit LLMs + edge : vers des agents on-device

Les modĂšles Bonsai 1-bit (PrismML) combinĂ©s aux discussions sur smartphones et wearables dessinent un futur proche d’agents IA rĂ©ellement autonomes sur device. Signal fort pour fitness-tech : health data processing local = privacy by design sans cloud.

DeepSeek prépare son plus grand modÚle

Signaux de release imminente du prochain grand modĂšle DeepSeek. À surveiller comme alternative open-source aux modĂšles frontier propriĂ©taires pour dĂ©ploiements auto-hĂ©bergĂ©s.

Capability Discovery : gap dans les APIs LLM

Le manque de métadonnées capacités sur /v1/models force les frameworks (LiteLLM, LangChain) à maintenir des registres tiers fragiles. Un chantier de standardisation OpenAPI qui pourrait impacter tous les orchestrateurs LLM en prod.

Supply-chain attack via compliance tooling : nouveau vecteur

L’incident LiteLLM/Delve est le premier cas documentĂ© de compromission d’un AI gateway via son prestataire de certification compliance. Nouveau pattern de menace Ă  intĂ©grer dans les threat models DevSecOps pour l’écosystĂšme IA.


💡 Autres

SmolLM2-360M sur Samsung Galaxy Watch 4 (380MB RAM)

Score: 6/10

Optimisation mmap/ggml permettant de réduire la RAM de 74% sur wearable. Hack technique intéressant pour le fitness-tech : LLM local sur smartwatch reste trÚs limité fonctionnellement mais le principe ouvre des perspectives pour le health monitoring autonome.

Arcee Trinity-Large-Thinking

Score: 5/10

Nouveau modĂšle “thinking” d’Arcee AI. Peu de dĂ©tails disponibles mais Ă  benchmarker contre Qwen3.5 pour les usages agents locaux, notamment si les modĂšles Qwen montrent des problĂšmes de fiabilitĂ© (voir thread sur les hallucinations de Qwen3.5).