🤖 Veille IA & Tech — 16 mars 2026
Veille IA/Tech — 16 mars 2026
🎯 Benchmark anti-triche pour LLMs : 11% maximum
Une équipe a conçu un benchmark de coding radical pour distinguer raisonnement réel et mémorisation : utiliser des langages ésotériques (Brainfuck, Befunge-98, Whitespace, Unlambda, Shakespeare) sur les mêmes problèmes algorithmiques que HumanEval.
Résultat : même GPT-5.2, O4-mini, Gemini, Qwen et Kimi avec tous les tricks de prompting imaginables plafonnent à 11%. Sur les benchmarks standards, impossible de distinguer raisonnement et pattern-matching — ce benchmark force la question.
→ Discussion Reddit r/LocalLLaMA
⚖️ Nvidia assouplit la licence Nemotron Super 3 122B A12B
Nvidia a publié une nouvelle version de la licence de Nemotron Super 3 122B A12B supprimant les clauses controversées (“rug-pull”) : les restrictions sur modifications, guardrails, branding et attribution sont retirées. Un changement bienvenu pour la communauté open-source locale qui peut désormais utiliser ce modèle MoE (122B params, 12B actifs) avec beaucoup plus de liberté.
→ Discussion Reddit avec comparatif des licences
📊 Game Agent Coding League — Résultats Mars 2026
Les résultats du GACL de mars confirment plusieurs tendances :
- GPT-5.4 domine le classement général
- Qwen3.5-27B ne se situe qu’à 0,04 point du 397B — rapport efficacité/taille remarquable
- Kimi K2.5 est le meilleur modèle open-weight (#6 mondial)
- GLM-5 suit de près (#7 mondial)
- Écart significatif entre Claude Opus et Sonnet, plus marqué qu’attendu
La convergence entre modèles open-weight et closed-source SOTA continue de s’accélérer.
🌏 Benchmark embeddings multilingues : 14 modèles testés sur le Thai (MTEB)
Évaluation complète sur 15 tâches MTEB thaïlandaises, exécutée sur A100 :
| Modèle | Score |
|---|---|
| Qwen3-Embedding-4B | 74,41 |
| KaLM-Gemma3-12B | 73,92 |
| BOOM | Â |