Digest IA/Tech — jeudi 2 avril 2026

🔥 Top du jour

LiteLLM rompt avec Delve après incident malware

Score: 9/10 | Source: TechCrunch

LiteLLM a subi un vol de credentials via Delve, son prestataire de certifications SOC2/ISO. La startup a immédiatement rompu le contrat après découverte du malware. Alerte critique pour tout stack DevSecOps utilisant LiteLLM comme AI gateway : auditer les secrets exposés, rotation des clés API, revue des accès third-party compliance tooling.

attn-rot (TurboQuant-like KV cache) mergé dans llama.cpp

Score: 8/10 | Source: Reddit r/LocalLLaMA

La rotation d’activations pour améliorer la quantization (PR #21038 par ggerganov lui-même) est maintenant upstream dans llama.cpp. Résultat : 80% des bénéfices de TurboQuant sans downsides, Q8 ≈ F16 en qualité effective. Disponible immédiatement pour tous les déploiements llama.cpp, y compris via Ollama/LocalAI en container K8s.

APEX MoE : +33% inférence, TurboQuant +14% prompt processing

Score: 8/10 | Source: Reddit r/LocalLLaMA — équipe LocalAI

APEX (Adaptive Precision for EXpert Models) : nouvelle technique de quantization pour architectures MoE. 2x plus compact que Q8, perplexité proche de F16, compatible llama.cpp stock sans patches. Benchmarké sur Qwen3.5-35B-A3B. Pertinent pour optimiser les déploiements de modèles MoE dans des pods K8s avec contraintes mémoire.

Ollama intègre MLX d’Apple pour Apple Silicon

Score: 8/10 | Source: MacRumors

Ollama tire désormais parti du framework MLX d’Apple sur les puces M-series, avec un boost de vitesse significatif. Si tu développes localement avec Claude Code sur Mac, tes modèles locaux de fallback/test bénéficient directement de cette amélioration sans configuration supplémentaire.

Qwen3.5-27B distillé depuis Claude 4.6 Opus — questions légales

Score: 7/10 | Source: Reddit r/LocalLLaMA

Un modèle HuggingFace (Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled) semble avoir été distillé depuis un modèle Anthropic commercial, en violation probable des ToS. Signal d’alerte pour les pratiques de distillation en entreprise : risque légal réel, et soulève des questions sur l’enforcement d’Anthropic.

HuggingFace TRL v1.0 : 75+ méthodes de post-training

Score: 7/10 | Source: Reddit r/LocalLLaMA

6 ans après le premier commit, TRL atteint la v1.0 avec 75+ méthodes : SFT, DPO, GRPO, async RL. Librairie de référence pour le post-training open-source. Utile pour fine-tuner des LLMs sur des domaines spécifiques (données de santé/fitness, security logs, etc.) dans un pipeline MLOps.

📡 Signaux faibles

TurboQuant devient le nouveau standard de quantization

Convergence de plusieurs développements cette semaine : attn-rot dans llama.cpp core, APEX MoE, TQ3_4S. La quantization de nouvelle génération s’unifie dans le mainstream. À anticiper pour les specs de déploiement K8s : les modèles 27B+ deviennent viables sur des nodes standard.

1-bit LLMs + edge : vers des agents on-device

Les modèles Bonsai 1-bit (PrismML) combinés aux discussions sur smartphones et wearables dessinent un futur proche d’agents IA réellement autonomes sur device. Signal fort pour fitness-tech : health data processing local = privacy by design sans cloud.

DeepSeek prépare son plus grand modèle

Signaux de release imminente du prochain grand modèle DeepSeek. À surveiller comme alternative open-source aux modèles frontier propriétaires pour déploiements auto-hébergés.

Capability Discovery : gap dans les APIs LLM

Le manque de métadonnées capacités sur /v1/models force les frameworks (LiteLLM, LangChain) à maintenir des registres tiers fragiles. Un chantier de standardisation OpenAPI qui pourrait impacter tous les orchestrateurs LLM en prod.

Supply-chain attack via compliance tooling : nouveau vecteur

L’incident LiteLLM/Delve est le premier cas documenté de compromission d’un AI gateway via son prestataire de certification compliance. Nouveau pattern de menace à intégrer dans les threat models DevSecOps pour l’écosystème IA.

💡 Autres

SmolLM2-360M sur Samsung Galaxy Watch 4 (380MB RAM)

Score: 6/10

Optimisation mmap/ggml permettant de réduire la RAM de 74% sur wearable. Hack technique intéressant pour le fitness-tech : LLM local sur smartwatch reste très limité fonctionnellement mais le principe ouvre des perspectives pour le health monitoring autonome.

Arcee Trinity-Large-Thinking

Score: 5/10

Nouveau modèle “thinking” d’Arcee AI. Peu de détails disponibles mais à benchmarker contre Qwen3.5 pour les usages agents locaux, notamment si les modèles Qwen montrent des problèmes de fiabilité (voir thread sur les hallucinations de Qwen3.5).

Blog de Julien

🤖 Veille IA & Tech — 2 avril 2026