Na era do SaaS, o custo marginal de servir um novo cliente tendia a zero. Na era da AI, o custo marginal voltou. E ele tem nome: custo de inferência.
Toda vez que um modelo responde, analisa, resume, decide, executa, gera conteúdo e opera um workflow; existe um custo computacional real acontecendo.
O Marcelo Hideo Sato tem apontado que o problema é que boa parte das startups AI First ainda opera como se estivesse construindo SaaS tradicional. Celebram crescimento. Celebram uso. Celebram automação. Sem perceber que cada nova interação pode estar destruindo margem.
Por isso, o First Success Product não pode ser desenhado só pela ótica do valor para o cliente. Ele precisa ser desenhado também pela ótica da eficiência de inferência.
A pergunta deixa de ser apenas: “qual é a menor entrega capaz de gerar valor?” E passa a ser: “qual é a menor entrega capaz de gerar valor com economics sustentáveis?”
O erro mais comum é começar pela automação mais impressionante. Mas o melhor ponto de partida normalmente é: o workflow mais recorrente, mais estruturado, mais previsível e com maior capacidade de captura de valor.
Porque inferência boa não é a mais sofisticada, é a inferência economicamente sustentável.
E aí surge uma distinção muito importante entre dois tipos de rails: Workflow Rails e Transaction Rails
Workflow Rails são os fluxos contínuos de trabalho: atendimento, SDR, customer success, jurídico, backoffice, procurement e onboarding. Aqui, o desafio é frequência alta, recorrência alta e baixo custo por execução. O segredo normalmente está em contexto estruturado, modelos menores, workflows híbridos, cache, regras de negócio e redução de chamadas desnecessárias. O moat vem da eficiência operacional.
Transaction Rails são os momentos de decisão ou captura de valor: compra, crédito, pagamento, investimento, aprovação, matching e contratação. Aqui, o custo de inferência aceitável é muito maior porque o valor da transação também é maior. Você pode gastar mais compute para aumentar conversão, reduzir fraude, melhorar underwriting, aumentar ticket ou capturar spread.. O moat vem da captura econômica da transação.
A consequência disso é profunda – nem toda inferência precisa ser barata. Mas toda inferência precisa fazer sentido econômico dentro do rail onde ela opera.
As grandes empresas AI First provavelmente serão aquelas que: entendem exatamente onde gastar inferência, onde economizar inferência e como transformar inferência em margem ao longo do tempo.
Porque no fim do dia, AI não é só inteligência. AI é engenharia de margem.