🤖 Veille IA & Tech — 23 mars 2026

Veille IA/Tech — 23 mars 2026

⚡ Flash-MoE : inférence d’un modèle 397B sur laptop

Un projet open-source expérimental explore l’exécution d’un modèle Mixture-of-Experts de 397 milliards de paramètres sur hardware grand public. La clé : exploiter la sparsité native des architectures MoE pour ne charger en mémoire que les experts effectivement activés lors de chaque forward pass (“flash loading”). L’empreinte mémoire réelle s’en trouve réduite de façon significative par rapport à la taille nominale du modèle.

C’est une direction de recherche active — plusieurs équipes (incluant des travaux autour de DeepSeek-MoE et Mixtral) ont montré que les MoE offrent un ratio capacité/coût d’inférence très favorable. Flash-MoE pousse cette logique jusqu’au edge computing.

→ GitHub danveloper/flash-moe

🧠 Agent Kernel : état persistant pour agents LLM en 3 fichiers Markdown

Agent Kernel propose une architecture minimaliste pour rendre les agents LLM stateful sans infrastructure dédiée : trois fichiers Markdown encodent respectivement la mémoire de travail, le contexte de session et les instructions système. L’approche est versionnables via Git, lisible par l’humain, et agnostique au modèle sous-jacent.

Ce pattern s’inscrit dans une tendance plus large de “filesystem-as-agent-memory”, en réaction à la complexité des solutions comme LangGraph ou des vector stores pour des cas d’usage simples. À surveiller pour les projets d’agents légers.

→ GitHub oguzbilgic/agent-kernel

🗑️ Vibe-coding et spam : les LLMs industrialisent les campagnes malveillantes

Un article de Tedium documente l’émergence de campagnes de spam email entièrement générées et orchestrées par des boucles agentiques utilisant des LLMs. Le vibe-coding — génération de code fonctionnel par prompting itératif — est détourné pour produire, tester et déployer des templates de spam à grande échelle, sans intervention humaine significative.

Ce cas d’usage illustre un vecteur de risque systémique souvent sous-estimé dans les évaluations de sécurité des LLMs : non pas les attaques directes sur les modèles, mais l’amplification des capacités offensives existantes via l’automatisation accessible.

→ Tedium — They’re vibe-coding spam now

💬 “Le code n’est pas mort” : précision formelle vs. langage naturel

Steve Krouse publie un essai défendant la complémentarité irréductible entre code et langage naturel, à contre-courant des narratifs sur la fin de la programmation classique. Son argument central : là où la précision est une contrainte dure (spécifications de systèmes, contrats, logique métier critique), le langage naturel introduit une ambiguïté fondamentalement incompatible avec l’exigence.

Il propose un modèle en deux couches : LLMs pour l’intention et l’exploration, code formel pour la spécification exacte. Une position nuancée et bien argumentée dans un débat souvent binaire.

→ stevekrouse.com — Precision

📊 LLM Release Changelog : tracker temps réel des sorties de modèles

Price Per Token maintient un changelog quotidien des nouveaux modèles LLM des principaux labs (OpenAI, Anthropic, Google DeepMind, Meta, Mistral, etc.), avec les tarifs API associés. Outil de veille continue utile pour suivre la cadence des releases et les évolutions de pricing dans un contexte de guerre des modèles qui s’accélère.

→ pricepertoken.com/news/model-releases