Show HN: Mdarena – Benchmark your Claude.md against your own PRs
Category: devtools
Tags: ai-benchmarking, developer-tools, code-generation
Score: 7.0/10 (Innovation: 7, Technical: 7, Documentation: 8, Utility: 6)
Mdarena é uma ferramenta que permite avaliar a eficácia de arquivos CLAUDE.md (documentação de contexto para agentes de IA) comparando o desempenho do Claude em pull requests reais do seu repositório. É interessante porque fornece métricas objetivas sobre como a documentação afeta a capacidade do agente de resolver problemas reais, indo além de avaliações subjetivas ou baseadas em string matching.
Target audience: backend devs, devops, engenheiros de machine learning
Repository: https://github.com/HudsonGri/mdarena · Python · MIT · 47 stars
View on Hacker News