Veille IA/Tech — 16 mars 2026

🎯 Benchmark anti-triche pour LLMs : 11% maximum

Une équipe a conçu un benchmark de coding radical pour distinguer raisonnement réel et mémorisation : utiliser des langages ésotériques (Brainfuck, Befunge-98, Whitespace, Unlambda, Shakespeare) sur les mêmes problèmes algorithmiques que HumanEval.

Résultat : même GPT-5.2, O4-mini, Gemini, Qwen et Kimi avec tous les tricks de prompting imaginables plafonnent à 11%. Sur les benchmarks standards, impossible de distinguer raisonnement et pattern-matching — ce benchmark force la question.

→ Discussion Reddit r/LocalLLaMA


⚖️ Nvidia assouplit la licence Nemotron Super 3 122B A12B

Nvidia a publié une nouvelle version de la licence de Nemotron Super 3 122B A12B supprimant les clauses controversées (“rug-pull”) : les restrictions sur modifications, guardrails, branding et attribution sont retirées. Un changement bienvenu pour la communauté open-source locale qui peut désormais utiliser ce modèle MoE (122B params, 12B actifs) avec beaucoup plus de liberté.

→ Discussion Reddit avec comparatif des licences


📊 Game Agent Coding League — Résultats Mars 2026

Les résultats du GACL de mars confirment plusieurs tendances :

  • GPT-5.4 domine le classement gĂ©nĂ©ral
  • Qwen3.5-27B ne se situe qu’à 0,04 point du 397B — rapport efficacitĂ©/taille remarquable
  • Kimi K2.5 est le meilleur modèle open-weight (#6 mondial)
  • GLM-5 suit de près (#7 mondial)
  • Écart significatif entre Claude Opus et Sonnet, plus marquĂ© qu’attendu

La convergence entre modèles open-weight et closed-source SOTA continue de s’accélérer.

→ Discussion Reddit


🌏 Benchmark embeddings multilingues : 14 modèles testés sur le Thai (MTEB)

Évaluation complète sur 15 tâches MTEB thaïlandaises, exécutée sur A100 :

Modèle Score
Qwen3-Embedding-4B 74,41
KaLM-Gemma3-12B 73,92
BOOM Â