OpenCode, OpenHands, Devin : l'essor des agents développeurs autonomes

Mars 2024. Cognition AI publie une vidéo démontrant Devin, présenté comme “le premier ingénieur logiciel IA”. Il ouvre un terminal, lit une issue GitHub, écrit du code, exécute des tests, débogue les erreurs, et soumet une Pull Request — de façon entièrement autonome. La vidéo fait le tour d’internet. La question “l’IA va-t-elle remplacer les développeurs ?” refait surface avec une nouvelle urgence.

Un an plus tard, la réalité est plus nuancée — mais tout aussi fascinante. Voici l’état réel des agents de développement autonomes en 2025.

Les principaux acteurs du marché

Devin (Cognition AI)

Positionnement : agent propriétaire, abonnement enterprise Prix : ~500 $/mois (accès limité), enterprise sur devis Disponibilité : liste d’attente depuis mars 2024, accès général depuis fin 2024

Devin opère dans un environnement sandbox isolé avec accès à un terminal, un navigateur, et un éditeur de code. Il peut réaliser des tâches de développement de bout en bout : comprendre une spécification, écrire du code, déboguer, et déployer.

Benchmark SWE-bench : 13,86 % de réussite sur les issues GitHub réelles (au lancement). Chiffre qui peut sembler faible — mais qui représente le double de ce que GPT-4 atteignait directement.

Réalité terrain : Devin excelle sur des tâches bien délimitées et documentées. Il déçoit sur des codebases complexes avec des dépendances implicites ou une documentation insuffisante.

OpenHands (anciennement OpenDevin)

Type : open source, auto-hébergeable Licence : MIT GitHub : plus de 35 000 étoiles en moins de 6 mois (2024)

OpenHands est le challenger open source de Devin. Lancé par une communauté de chercheurs, il s’appuie sur le même principe — un agent qui peut utiliser un terminal, un navigateur et un éditeur — mais avec la flexibilité de l’open source.

Avantages clés :

Fonctionne avec n’importe quel LLM backend (GPT-4, Claude, Llama, Mistral)
Totalement auto-hébergeable : vos données ne quittent pas votre infrastructure
Communauté très active, mises à jour fréquentes
Intégrations avec GitHub, GitLab, Jira

Limites :

Nécessite des compétences DevOps pour le déploiement
Moins “polished” que Devin sur l’UX
Performance variable selon le LLM backend choisi

Score SWE-bench : ~26 % avec Claude Sonnet (début 2025), dépassant Devin.

OpenCode (Anthropic / communauté)

Type : CLI open source, orienté terminal Relation avec Claude Code : OpenCode est un projet communautaire inspiré de Claude Code, l’outil CLI officiel d’Anthropic

Claude Code (l’outil officiel d’Anthropic, parfois appelé “OpenCode” dans les médias) est un agent de développement qui s’exécute directement dans le terminal du développeur. Contrairement à Devin ou OpenHands qui opèrent dans un sandbox, Claude Code s’intègre dans l’environnement de développement existant.

Fonctionnalités :

Lecture et modification de fichiers dans votre repo
Exécution de commandes shell
Navigation dans le codebase pour comprendre l’architecture
Écriture de tests, refactoring, débogage
Commits et PRs Git

Philosophie : “agentic but supervised” — Claude Code propose, le développeur valide. Moins autonome que Devin, mais beaucoup plus prévisible et sûr pour un usage en production.

SWE-agent (Princeton NLP)

Type : framework de recherche open source Spécificité : optimisé pour le benchmark SWE-bench, sert de référence académique

SWE-agent est moins un produit qu’un framework de recherche qui a établi les bases méthodologiques des coding agents. Son interface ACI (Agent-Computer Interface) a influencé la conception de nombreux agents ultérieurs.

Autres acteurs notables

Agent	Éditeur	Modèle	Spécificité
Copilot Workspace	GitHub/Microsoft	GPT-4	Intégration native GitHub
Codex	OpenAI	o1/o3	API only, haute performance
Aider	Paul Gauthier	Multi-LLM	CLI, très apprécié des devs
Cody	Sourcegraph	Multi-LLM	Spécialisé grandes codebases
Continue	Communauté	Multi-LLM	Extension VS Code open source

SWE-bench : le standard de mesure

Pour comparer ces agents, la communauté utilise SWE-bench, un benchmark créé par Princeton qui mesure la capacité à résoudre des issues GitHub réelles dans des repos Python populaires (Django, Scikit-learn, Flask, etc.).

Scores clés (début 2025) :

Claude 3.7 Sonnet + scaffolding : ~49 % ✅
OpenHands + Claude Sonnet : ~26 %
Devin 2.0 : ~25 %
GPT-4o + SWE-agent : ~19 %
Gemini 1.5 Pro : ~12 %

Important : ces scores mesurent la capacité à résoudre des issues isolées dans des repos bien documentés. En conditions réelles, sur des codebases d’entreprise avec des dépendances propriétaires et une documentation partielle, les performances sont généralement plus basses.

Ce que ces agents peuvent (et ne peuvent pas) faire en entreprise

✅ Tâches où ils excellent

Génération de boilerplate et de code répétitif Tests unitaires, migrations de base de données, CRUD APIs, parseurs de formats connus — tout ce qui est structurellement prévisible.

Refactoring avec des règles claires “Migre toutes les fonctions callbacks vers async/await”, “Remplace tous les any TypeScript par des types stricts” — des instructions précises donnent d’excellents résultats.

Documentation automatique Génération de JSDoc, README, diagrammes d’architecture à partir du code existant.

Débogage avec erreurs explicites Si vous leur fournissez une stack trace et le code concerné, ces agents sont souvent capables de trouver et corriger le bug.

❌ Tâches où ils échouent encore

Architecture de systèmes complexes Concevoir l’architecture d’un nouveau système avec de multiples contraintes (performance, scalabilité, coût, contraintes legacy) reste hors de portée fiable.

Compréhension du contexte business Un agent ne sait pas que “la règle métier qui gère les remises doit correspondre aux accords signés avec ce client” — sauf si vous le lui expliquez explicitement.

Sécurité et conformité Les agents peuvent introduire des vulnérabilités de sécurité sans le savoir. Toute PR d’un agent doit être revue par un développeur senior avant merge en production.

Debugging de systèmes distribués Des problèmes intermittents dans des systèmes avec de l’état distribué, des queues de messages, et des dépendances réseau dépassent les capacités actuelles.

Impact sur les équipes de développement

Le développeur augmenté, pas remplacé

L’analyse des équipes qui utilisent ces outils depuis 6-12 mois converge vers un constat : les développeurs seniors sont devenus plus productifs, les juniors ont stagné voire régressé en termes d’apprentissage.

Pourquoi ? Le développeur senior sait quand vérifier, corriger, et améliorer les sorties de l’agent. Le junior, s’il n’a pas encore intégré les patterns fondamentaux, accepte les sorties sans les comprendre — et accumule une “dette de compréhension”.

Nouvelles compétences requises

Les développeurs qui tirent le meilleur parti de ces agents maîtrisent :

La décomposition de tâches complexes en sous-tâches atomiques
La rédaction de spécifications précises (prompt engineering pour code)
La revue critique de code généré par IA
La définition de contrats d’interface clairs

Évolution des rôles

Le rôle de développeur évolue vers plus de conception et moins de frappe. Les tâches de bas niveau (écrire des tests de régression, implémenter des endpoints CRUD standard) sont de plus en plus déléguées aux agents.

Déploiement sécurisé en entreprise : recommandations

1. Commencez par des tâches isolées Branches de feature, nouvelles fonctionnalités sans impact sur le code existant. Jamais directement sur main.

2. Revue systématique par un humain Toute PR générée par un agent doit être revue par un développeur qui comprend le contexte métier.

3. Tests automatisés obligatoires Le code généré par agent doit passer une suite de tests automatisés complète avant toute revue humaine.

4. Journalisation des actions Pour les agents avec accès au terminal (OpenHands, Claude Code), loggez toutes les commandes exécutées.

5. Sandbox isolé pour les agents autonomes Devin et OpenHands doivent opérer dans des environnements sans accès aux systèmes de production.

Questions fréquentes

Ces agents sont-ils compatibles avec les codebases propriétaires ? OpenHands et Claude Code fonctionnent avec vos repos privés. Devin nécessite un accès GitHub. Vérifiez les conditions d’utilisation : certains services peuvent utiliser votre code pour améliorer leurs modèles.

Quel agent recommandez-vous pour démarrer ? Pour une petite équipe sans DevOps dédié : Claude Code (intégration native, contrôle humain fort). Pour une équipe tech mature qui veut explorer : OpenHands avec Claude Sonnet comme backend.

Le coût de ces agents est-il justifié ? À 500 $/mois pour Devin, la question est pertinente. Si l’agent remplace 5 heures de travail développeur par semaine (tâches répétitives), le ROI est positif. Le calcul dépend du coût horaire de vos développeurs et de l’efficacité réelle sur vos tâches spécifiques.

Conclusion

Les agents de développement autonomes ne remplaceront pas les développeurs en 2025 — mais ils vont redéfinir ce que signifie “être développeur”. Les équipes qui apprennent à travailler avec ces agents seront significativement plus productives que celles qui les ignorent ou les subissent.

La clé est de comprendre leurs forces et limites réelles, pas leurs promesses marketing. Commencez petit, mesurez l’impact, et formez vos équipes à la supervision de code généré par IA.

BetterPeople propose des formations spécialisées pour les équipes techniques sur l’usage des coding agents et l’évaluation critique du code IA. Voir notre offre formation.