O Estado da Inteligência Artificial em 2026
Rafael Siqueira · Partner, McKinsey & Company
Tese central
A IA passou da experimentação para a fase de escalonamento real — mas 62% das organizações ainda estão paralisadas em piloto e menos de 10% conseguiram escalar agentes. O que separa os high performers não é tecnologia: é um novo modelo operacional, liderança sênior comprometida (gap de 3×) e intenção declarada de transformação em vez de incrementalismo (gap de 3,6×).
Top highlights
- 62% das empresas ainda não escalaram IA para toda a operação — pilotando ou experimentando.
- Menos de 10% têm agentes escalados em qualquer função individual. Tech/Mídia/Telecom e Saúde lideram.
- Uso em 5+ funções saltou de 4% (2021) para 20% (2025) — quem adota, expande horizontalmente rápido.
- Receita aumenta em product dev (67%), marketing/vendas (65%), estratégia (62%).
- Imprecisão é o risco #1 — 30% já vivenciaram, 54% mitigando ativamente.
Citação forte
Não vejo IA como feature. Vejo como novo modelo operacional.
Dados-chave
- Pesquisa QuantumBlack/McKinsey · n=1.961 · jun-jul 2025
- Totalmente escalada: 7% · Escalando: 31% · Pilotando: 30% · Experimentando: ~32%
- High performers: 50% esperam mudança transformadora vs 14% dos demais
- Compromisso de liderança sênior: 48% vs 16% (gap 3×)
💡 Como adaptar para a NG
- Rafael publica "AI Maturity Score NG" baseado nas 10 práticas McKinsey — vira lead magnet e ferramenta de qualificação de venda.
- Thiago apresenta narrativa "saia dos 62% paralisados" em todo deck institucional novo.
- Rafael coordena pacote NG "agente com guardrails enterprise" atacando risco #1 (imprecisão).
- Thiago exige C-level sponsor no contrato — descalifica deal sem isso, evita piloto eterno.
- Métrica north star NG: número de funções de cliente onde IA da NG está em produção (não "clientes ativos com IA").
FAQ — Dúvidas que esta palestra gera
"Escalado" no sentido McKinsey significa uma capacidade de IA disponível como serviço/processo padronizado em pelo menos uma função inteira de negócio (ex.: todo o time de marketing usa o mesmo agente de copy aprovado, com governança e SLA) — não 3 pessoas usando ChatGPT. "Totalmente escalado" implica disponibilidade em toda a empresa, múltiplas funções, governança e medição de impacto.
O framework canônico de maturidade IA tem 5 níveis: (1) ad-hoc, (2) experimentação isolada, (3) piloto repetível, (4) escalado por função, (5) escalado por empresa com governança. Tirar do nível 2-3 para 4-5 exige caso de uso com ROI provado em piloto → redesenho end-to-end do processo → integração com sistemas e dados → gestão de mudança nas pessoas → observabilidade e SLA.
Aplicação NG: Definir 1 caso interno (agente de qualificação de leads no SDR) e 1 caso para cliente (agente embutido no produto), levar ambos do "experimento" para "escalado por função" em 90 dias. Para cada caso, dar nota 0-3 nos 10 itens do pacote McKinsey e atacar o mais fraco primeiro. Métrica north star: número de funções de negócio do cliente onde a IA da NG está em produção.
A McKinsey distingue assistente de IA (responde a prompts pontuais) de agente de IA (executa tarefas multi-step com autonomia, consultando ferramentas/APIs e tomando decisões em escopo definido). "Escalar agentes" implica produção, governança, volume real — não demos isoladas.
Definição canônica vem de papers como ReAct (Yao et al., 2022) e AutoGPT: agente = LLM + ferramentas + memória + loop de planejamento. Em produção corporativa: LangGraph, Google ADK, Microsoft Semantic Kernel, CrewAI, Anthropic Claude com tool-use. Escalar implica observabilidade (Langfuse, LangSmith), guardrails (NeMo, Lakera), avaliação contínua (Braintrust) e human-in-the-loop em decisões críticas.
Aplicação NG: decidir explicitamente — vamos construir agentes (não só features com IA) ou ficar no nível "ChatGPT-wrapper"? Se sim, escolher framework (Anthropic SDK + tool-use é o mais maduro hoje). Observabilidade desde o dia 1. Vender "agente NG para [função X]" — janela de 18-24 meses antes da commodity. Métrica: % de casos resolvidos end-to-end pelo agente sem intervenção humana.
O slide 11 lista 10 práticas dos high performers (modelo ágil, estratégia ligada a valor, recursos, talento, padrões de qualidade, redesenho de processos, etc.), todas com prevalência ~2× superior à média. É um questionário diagnóstico pronto: cada item vira pergunta yes/no/parcial, gera mapa de calor que justifica engagement consultivo.
Diagnósticos estruturados como vendas-de-entrada são prática estabelecida em BCG GAMMA, Deloitte AI Institute, Accenture, e replicados por SaaS via "Maturity Assessments" (Salesforce, HubSpot, Snowflake todos têm). Mecânica: questionário online (5-10 min) → relatório PDF automatizado com benchmark do setor → reunião de devolução (1h) com vendedor → proposta. Conversão típica 15-30% lead-a-MQL.
Aplicação NG: formulário web "AI Maturity Score NG" com 10 perguntas (1 por prática) + 3 qualificadoras (setor, faturamento, dor). Output: score 0-30, posicionamento vs média (citar McKinsey), 3 recomendações por faixa. Distribuir como lead magnet: LinkedIn orgânico, parcerias FIESP/Abes/ABStartups. Reunião de devolução é a abertura comercial. Custo de construção: 1-2 semanas com Vibecoding/Replit. Responsável: Rafael.
30% das organizações já vivenciaram problemas de imprecisão; 54% trabalham ativamente para mitigar. Em seguida vêm cibersegurança (51%), conformidade regulatória (43%), violação de IP (38%), privacidade (38%). "Imprecisão" cobre desde alucinação clássica até erro de cálculo, classificação errada, recomendação incorreta. Em B2B regulado vira problema contratual.
Mitigação em camadas é padrão: (1) RAG bem feito — recupera contexto antes de gerar (reduz alucinação 30-50% por benchmark HELM/RAGAS); (2) constrained generation — schema JSON, function calling, structured outputs (OpenAI/Anthropic nativos); (3) evaluator-judges — segundo LLM avalia a resposta do primeiro (Zheng et al. 2023); (4) guardrails determinísticos — regex, validators, business rules; (5) human-in-the-loop em decisões críticas; (6) observabilidade com flagging de outputs anômalos (DeepEval, Phoenix, Langfuse).
Aplicação NG: Rafael mapeia todos os pontos onde IA gera output que vira ação irreversível para o cliente (lista provavelmente curta — 5-10 pontos). Para cada um, aplicar as 6 camadas. Página pública de "AI Safety & Reliability" no site — material de venda enterprise. SLA explícito de precisão por caso de uso (ex.: "agente classifica corretamente em 95% dos casos com escalada humana em 5%").
Slide 9: 50% dos high performers esperam mudança transformadora vs 14% dos demais (gap 3,6×). Slide 10: 48% concordam totalmente que líderes sênior têm responsabilidade sobre IA, vs 16% (gap 3×). Os dois gaps juntos sugerem que o diferencial é ambição declarada + accountability sênior, não capital ou tech.
Pesquisas de transformação digital (Westerman/MIT, Kane/Deloitte) chegam à mesma conclusão há 15 anos: sponsorship executivo é o preditor #1 de sucesso, à frente de orçamento e tecnologia. Em IA: CEO usa IA pessoalmente, define meta transformadora pública, dedica % do tempo de board para IA, eleva o CTO/CDO.
Aplicação NG: Thiago (CEO) precisa ter um agente pessoal em uso diário — second brain, transcrição de reunião, análise de dashboards. Liderar pelo exemplo. Meta pública e ambiciosa: "Em 2027, 70% do trabalho operacional da NG é feito por agentes". Comitê de IA mensal com Rafael + Thiago + heads — pauta fixa de 1h. Levar resultado trimestral para validação do Fernando no board. Exigir do cliente o mesmo no contrato: envolvimento ativo de C-level cliente como sponsor.