- Olympus News
- Posts
- Seu Agente Aprende. Mas Quem Audita o Aprendizado?
Seu Agente Aprende. Mas Quem Audita o Aprendizado?
“Aprendizado” sem auditoria é só uma nova alteração com histórico.
O dashboard estava verde.
Checks passando. Inventário limpo. Handoff bonito. Relatório dizendo que tudo tinha sido processado.
Só tinha um problema: o fluxo que importava continuava quebrado.
O sistema tinha validado o que era fácil validar. Arquivo existe? Sim.
Status atualizado? Sim. Job terminou? Sim.
Mas ninguém testou o contrato real: a próxima execução ficou melhor ou só ficou mais bem documentada?
Esse tipo de falha aparece quando você sai do agente descartável e entra no agente que aprende. Não o agente mágico que reescreve os próprios pesos enquanto você dorme.
Estou falando do aprendizado operacional: memória, skills, notas, transcripts, crons, tarefas, handoffs e pequenos ajustes que fazem a próxima execução custar menos.
O pior bug de um agente que aprende não é esquecer. É aprender errado e continuar parecendo saudável.
A gente passou os últimos meses falando sobre agentes com contexto, knowledge layer, GBrain, Garden, Hermes, skills e setups mais seguros. Esse chão importa. Sem ele, você só tem uma janela de chat tentando lembrar uma empresa inteira.
Mas depois que o chão existe, aparece uma pergunta mais desconfortável: quem audita o aprendizado?
A promessa correta do learning loop
Um agente com um bom loop de aprendizado muda a economia do trabalho.
Cada correção pode virar procedimento. Cada perrengue pode virar guardrail. Cada decisão pode reduzir uma reexplicação futura. Um erro de tom vira ajuste de skill. Um falso positivo de code review vira regra melhor. Um transcript difícil vira fonte consultável. Um blocker bem escrito evita que outro agente bata na mesma parede.
Isso é forte porque tira o aprendizado da cabeça do operador e coloca no sistema.
Um agente que aprende não é aquele que responde melhor. É aquele que muda a operação para a próxima resposta custar menos.
Só que essa promessa tem um lado B que quase ninguém quer encarar: o sistema também pode aprender sujeira.
Uma correção ruim pode virar checklist. Uma preferência temporária pode virar memória permanente. Um transcript bruto pode ir para o lugar errado e virar ruído com cara de verdade. Um health check mal desenhado pode ensinar o agente a fabricar artefato só para deixar tudo verde.
“Aprendizado” sem auditoria é só uma nova alteração com histórico.
Output não é aprendizado
Esse é o erro mais comum.
O agente entregou uma pesquisa, um draft, um resumo, um PR, um plano, um HTML. Você olha para a pilha de outputs e sente progresso. Faz sentido. Volume dá dopamina.
Mas se nada mudou no sistema depois da entrega, você só criou produtividade descartável.
Na segunda-feira, você ainda precisa explicar o tom. Ainda precisa avisar qual fonte vale. Ainda precisa lembrar o gate de risco. Ainda precisa corrigir a mesma falha. Ainda precisa abrir cinco conversas antigas para recuperar uma decisão.
O output existiu. O aprendizado não.
O learning loop começa no pós-jogo. Depois que o agente entrega, alguém ou alguma rotina precisa responder: o que disso vira fato? O que vira decisão? O que vira procedimento? O que vira tarefa? O que é lixo? O que precisa de aprovação humana antes de ganhar endereço fixo?
Sem essa classificação, memória vira acúmulo.
E acúmulo bem organizado continua sendo acúmulo.
O contrato do aprendizado auditável
Um learning loop sério separa níveis.
A versão simples é esta:
Fonte bruta: transcript, log, conversa, ticket, clipping, diff.
Verdade compilada: nota curada, decisão sintetizada, registro operacional.
Procedimento: skill, checklist, runbook, regra de execução.
Coordenação: tarefa, Kanban, blocker, handoff, dono.
Readback: evidência de que a próxima execução melhorou.
A fonte bruta é o que aconteceu.
A verdade compilada é o que você decidiu que significa.
O procedimento é o que muda daqui pra frente.
A coordenação diz quem faz o quê.
O readback prova que não foi teatro.
Essa distinção parece burocrática até o primeiro incidente em que o agente cita uma conversa antiga como se fosse regra atual, ou quando um check genérico diz "saudável" enquanto o fluxo de negócio segue quebrado.
O problema não é fazer a IA lembrar. É fazer ela lembrar com recibo.
Readback pode ser simples: um dry-run, um artefato final, um diff, um teste, uma revisão humana, uma métrica de retrabalho, um print do fluxo real funcionando.
O formato muda. O princípio não.
Se não existe evidência, você não sabe se o sistema aprendeu. Você sabe que ele salvou alguma coisa.
O caso Olympus: raw não é síntese, skill não é prompt
Na operação da Olympus, essa diferença deixou de ser teoria bem rápido.
Transcript bruto de agente não é nota curada. É fonte. Precisa ser pesquisável e preservado, mas não deveria entrar no cérebro operacional como se cada linha fosse verdade final. Uma conversa contém decisões boas, hipóteses ruins, contexto temporário, tentativa abandonada, bug de ferramenta e ruído.
Por isso a separação importa: raw transcript como fonte, GBrain como conhecimento compilado e consultável, skill como procedimento que sobrevive à próxima execução.
Transcript bruto é fonte. Nota curada é síntese. Skill é cicatriz.
Skill boa é cicatriz de erro recorrente.
Ela diz: quando este tipo de trabalho aparecer, faça assim; cuidado com este pitfall; verifique com este teste; não repita esse caminho.
E mesmo skill precisa de auditoria. Se você salva a correção errada, acabou de transformar um erro em infraestrutura.
O mesmo vale para Kanban. Board não é decoração visual.
Em um sistema multi-agente, task, status, blocker e handoff são memória durável de coordenação.
Eles impedem que agentes pisem um no outro, repitam falhas antigas ou finjam que terminaram só porque um arquivo apareceu no diretório.
O status verde só vale quando corresponde ao contrato real.
Green artificial é dívida operacional com cara de saúde.
O que medir de verdade
Se o agente aprende, o aprendizado precisa aparecer em algum lugar fora da narrativa.
Algumas perguntas boas:
Correções repetidas desapareceram ou continuam voltando com roupa nova?
O tempo para recuperar contexto caiu?
Skills foram patchadas depois de falhas reais?
Falsos positivos viraram regra melhor ou só viraram irritação tolerada?
Outputs importantes viraram conhecimento reutilizável?
O sistema falhou abertamente quando não tinha confiança ou tentou parecer saudável?
Essa última é importante.
Um agente ruim que falha claramente ainda te dá chance de intervir. Um agente que aprende a agradar o dashboard tira de você a chance de perceber o problema cedo.
Se o humano precisa confiar no agente e no dashboard sem readback, você não automatizou operação. Automatizou fé.
Autonomia é um dimmer. Você aumenta conforme o sistema prova que merece. Auditoria é o disjuntor. Ela existe para cortar energia quando a confiança vira encenação.
Sua missão para os próximos 7 dias
Escolha um processo em que seu agente "aprende" hoje: pesquisa, newsletter, code review, suporte, proposta, reunião, qualquer workflow recorrente.
Agora responda sem romantizar:
De onde vem a fonte bruta e onde ela fica preservada?
Onde a verdade compilada fica salva depois que alguém decide o que importa?
Qual procedimento muda quando uma correção aparece?
Quem aprova quando o aprendizado envolve risco, custo, cliente ou publicação?
Qual readback prova que a próxima execução ficou melhor?
Se você não consegue responder, você não tem learning loop. Tem histórico acumulado.
A boa notícia: não precisa redesenhar a empresa inteira. Pegue um fluxo. Adicione pós-jogo. Classifique o output. Atualize uma skill, uma nota ou uma tarefa. Rode um readback simples na próxima execução.
Uma semana depois, veja se você explicou menos, corrigiu menos e confiou mais no sistema pelos motivos certos.
É aí que agente começa a virar operação.
Como você avalia a newsletter de hoje?Sua resposta será utilizada para guiar os próximos conteúdos. |
Faça Login ou Inscrever-se para participar de pesquisas. |
Conteúdos recomendados
Hermes Agent docs — referência para entender runtime, skills, memória, crons e gateway.
Karpathy — LLM Wiki — bom ponto de partida para pensar em raw sources, wiki compilada e conhecimento versionado.
Garry Tan no X sobre agentes e workflows — contexto de mercado para a ideia de agentes que aprendem por iteração.
Forte abraço,
Equipe Olympus