🤖 Veille IA & Tech — 12 mars 2026

Veille IA/Tech — 12 mars 2026

⚡ BitNet : framework d’inférence pour LLMs 1-bit (Microsoft)

Microsoft maintient activement BitNet, son framework open-source dédié à l’inférence de modèles quantifiés en 1-bit. L’approche permet une réduction drastique de l’empreinte mémoire et de la consommation énergétique, avec une inférence viable sur CPU standard — un atout majeur pour les scénarios edge et on-device. À suivre pour quiconque travaille sur le déploiement de LLMs hors data center.

🔬 SWE-bench : les PRs “réussies” ne seraient pas mergées en réalité

METR publie une note d’analyse particulièrement importante : une proportion significative des pull requests générées par des agents IA qui “passent” le benchmark SWE-bench ne seraient en réalité pas acceptables dans un projet réel. Raisons invoquées : mauvaise lisibilité, non-respect des conventions du projet, patches trop ad hoc, absence de tests pertinents.

Ce travail remet en question la valeur prédictive de SWE-bench comme proxy de la compétence réelle des coding agents (Devin, SWE-agent, OpenHands, etc.) et appelle à des métriques d’évaluation plus robustes.

💻 Perplexity lance une waitlist pour son “Personal Computer”

Perplexity ouvre une liste d’attente pour un PC maison. Les détails techniques restent rares, mais la démarche s’inscrit dans une tendance lourde : les acteurs IA cherchent à contrôler leur propre stack matérielle pour optimiser l’expérience utilisateur autour de leurs modèles (cf. Humane AI Pin, Rabbit R1, et les ambitions hardware d’OpenAI). À surveiller pour le positionnement produit et les implications sur la distribution des modèles.

🛡️ “nah” : garde-fous contextuels pour Claude Code

nah est un outil open-source qui implémente un système de permission contextuelle pour Claude Code. Il permet de définir finement ce qu’un agent coding est autorisé à faire selon le contexte d’exécution (lecture seule, périmètre fichiers, commandes shell autorisées, etc.). Pertinent pour les équipes qui souhaitent intégrer des agents IA dans leur workflow sans sacrifier la sécurité.

📊 Leaderboards LLMs 2026 : open & closed source (Onyx AI)

Onyx AI propose deux tableaux de classement consolidés et régulièrement mis à jour :

Leaderboard général : modèles open et closed source, comparés sur raisonnement, coding, maths, benchmarks agentiques et SWE
Leaderboard open-source : focus modèles open, avec tier list et comparaisons head-to-head

Utile face à la fragmentation croissante des benchmarks et à la prolifération des modèles. Permet une vue synthétique là où des ressources comme l’ancien Open LLM Leaderboard HuggingFace peinent à suivre le rythme.

🔒 Fiabilité logicielle à l’ère des LLMs

Cet article de fond explore les défis de production de logiciels fiables lorsque les LLMs génèrent une part croissante du code : hallucinations silencieuses, couverture de tests trompeuse, dette technique difficile à détecter. L’auteur propose la vérification formelle légère (via le langage Quint) comme complément aux workflows LLM-assistés. Une perspective bienvenue au-delà du hype sur l’automatisation du développement.