Olympus News
Posts
Agentes em Produção

Agentes em Produção

O Que Muda Quando Saímos da Demo

Olympus Software
3 de maio de 2026

In partnership with

Talk to your AI tools the way you'd talk to a colleague.

You don't send a colleague a three-word brief. You explain the context, the constraints, what you've already tried. But typing all that into ChatGPT takes forever — so you don't.

Wispr Flow lets you speak your prompts instead. Talk through your thinking naturally and get clean, paste-ready text. No filler words. No cleanup. Just detailed prompts that actually get you useful answers on the first try.

Millions of users worldwide. Works system-wide on Mac, Windows, and iPhone.

Try Wispr Flow free

Acima temos o anunciante da News dessa semana 🚀 Se puder, clique no link do anunciante acima para deixar seu apoio (é grátis!) ❤️

Seu agente funciona perfeitamente na demo.

O investidor aplaude, o chefe sorri, o time comemora.

Na segunda-feira, com dados reais e 500 usuários simultâneos, ele deleta o banco de produção.

Em julho de 2025, um agente da Replit fez exatamente isso.

A distância entre um agente que impressiona no demo e um que opera em produção é a mesma entre um protótipo de garagem e uma linha de montagem.

Em 2026, essa distância está matando projetos silenciosamente, sistematicamente, a ~US$500k por pilot cancelado.

1. A Matemática Cruel do Erro Composto

85% de acurácia por passo.

Soa ótimo, certo?

Agora encadeia 10 passos. Seu agente acerta... 20% das vezes. Para atingir 80% de sucesso num workflow de 10 passos, cada passo precisa de >98% de acurácia. Essa é a matemática do erro composto. E ela é o assassino silencioso de quase todo workflow agentic em produção.

Kapoor e Narayanan, de Princeton, demonstraram que: confiabilidade melhora na metade da velocidade da acurácia. Em tarefas de customer service, a proporção é ainda pior, apenas 1/7 da taxa de acurácia.

Traduzindo: os modelos ficam mais espertos mais rápido do que ficam confiáveis.

Pensa num exemplo concreto. Três ferramentas médicas encadeadas, com 90%, 85% e 97% de acurácia individual, entregam 74% de confiabilidade combinada. Um em cada quatro pacientes pode ser mal diagnosticado. Não porque as ferramentas são ruins individualmente. Porque o erro se multiplica a cada step.

E no seu workflow agentic com 6, 8 ou 12 passos, a mesma física se aplica.

Os números confirmam o que os builders já sentem na pele. 57% das organizações que responderam a pesquisa da Vercel já têm agentes em produção, mas, segundo estimativas do setor, até 94% dos projetos de AI ainda falham em gerar valor sustentado.

O quadro fica pior quando você olha para os pilots: projeções indicam que até 40% dos pilots agentic serão cancelados ou pausados até 2027. E, quando perguntaram o porquê, qualidade apareceu como bloqueador #1 para 32% dos respondentes.

A maioria dos benchmarks avalia acurácia média. Mas ninguém usa um agente na média. Você usa no caso específico dele, com os seus dados, nas suas condições. E é aí que a confiabilidade, ou a falta dela, aparece.

2. Testes: Caminho Feliz. Produção: Campo Minado.

Quem já buildou algo reconhece a cena.

Nos testes: tudo flui. O agente responde rápido, acerta o tom, executa a tarefa. A plateia fica impressionada. Você fica orgulhoso.

Segunda-feira de manhã, com dados reais: tudo explode.

Não é incompetência. É que demo e produção são universos fundamentalmente diferentes:

No demo, o dev é o usuário, confiável, previsível, cooperativo.
Em produção, qualquer pessoa é o usuário, com inputs inesperados, edge cases e a criatividade infinita de quem não leu a documentação.
No demo, rate limiting não existe, só tem um usuário.
Em produção, 500 requests simultâneos testam cada gargalo que você não previu.
No demo, o dev vê tudo, observabilidade é ele olhando pro terminal.
No demo, só o happy path importa.
Em produção, os unhappy paths são boa parte do volume.

Jeremy Kahn, da Fortune, testou agentes pessoalmente e capturou o paradoxo. Perplexity Computer agendou reciclagem com sucesso, mas travou 45 minutos tentando reservar um voo.

Claude Cowork não conseguiu tarefas básicas em Excel, mas criou modelos de orçamento sofisticados.

Claude Code gerou lógica de jogo que parecia funcional. Estava fundamentalmente quebrada.

O padrão é esse: agentes que impressionam em alguma coisa e falham espetacularmente em coisas aparentemente parecidas. Confiabilidade inconsistente é pior que incompetência previsível, porque você nunca sabe quando vai funcionar e quando vai te sabotar.

3. O Problema Não É o Modelo. É Tudo ao Redor Dele.

Aqui é onde a conversa vira.

As falhas em produção raramente vêm do LLM em si. A Composio diagnosticou três fracassos arquiteturais que matam a maioria dos pilots:

Dumb RAG. Você inunda o contexto com informação irrelevante. O modelo fica afogado em dados que não ajudam, e a qualidade das respostas degrada proporcionalmente. É o oposto de context engineering.

Brittle Connectors. APIs empresariais são frágeis. Rate limits não documentados. Schemas que mudam sem aviso. Endpoints que retornam formatos diferentes dependendo da fase da lua. Um conector que funciona no demo contra a sandbox pode falhar sistematicamente contra a API real.

Polling Tax. Você desperdiça chamadas demais só para checar se algo aconteceu. Arquiteturas request-response tentando sustentar agentes autônomos que, no fundo, precisariam de uma arquitetura orientada a eventos. O custo computacional, e financeiro, cresce rápido.

A McKinsey confirmou isso em campo: foque no workflow, não no agente. As empresas que estão extraindo valor real não estão só plugando um modelo mais esperto. Elas estão redesenhando workflows inteiros, combinando regras, AI analítica, gen AI e agentes sob um framework comum de orquestração. Com monitoramento e avaliação desde o dia 1.

Segurança e risco continuam sendo a principal barreira para escalar agentes. Faz sentido. Agentes não erram só numa resposta de chat. Eles enviam emails, modificam bancos, executam transações. O custo do erro não é uma resposta ruim. É uma ação irreversível no seu sistema.

🔮 O Que EU Realmente Penso

A maior parte da conversa sobre agentes ainda está presa no lugar errado.

A pergunta não é “qual modelo é melhor?”. A pergunta é: quantos pontos de falha existem entre a intenção e a ação?

É por isso que eu acho que a próxima vantagem competitiva não vai vir de prompts mais bonitos nem de um benchmark novo. Vai vir de times que tratam workflow como produto, contexto como infraestrutura e confiabilidade como disciplina operacional.

Modelo vai virar commodity. Demo impressiona fácil. Produção, não.

E, honestamente, essa talvez seja a melhor notícia do mercado inteiro.

Porque significa que ainda existe espaço para builder sério ganhar de quem só sabe fazer teatro de demo.

Como você avalia a newsletter de hoje?

Sua resposta será utilizada para guiar os próximos conteúdos.

Faça Login ou Inscrever-se para participar de pesquisas.

Conteúdos Recomendados

Report: State of Agent Engineering 2025 — LangChain — Se você quer um retrato honesto de quem já está usando agentes, onde funciona e onde trava, começa por aqui.
Artigo: AI Agents Are Getting More Capable, But Reliability Is Lagging — Fortune — O artigo que melhor sustenta a tese central desta edição.
Report: Why AI Agent Pilots Fail — Composio — Diagnóstico prático dos fracassos arquiteturais que mais aparecem quando agentes saem do demo.
Artigo: One Year of Agentic AI: Six Lessons — McKinsey — A síntese mais útil para quem quer separar hype de operação real.

Forte abraço,

Equipe Olympus