Temas gerados por LLM não são observações: o erro que compromete sua análise causal

Você processa mil respostas abertas de uma pesquisa, pede para um LLM classificar cada uma em temas — “frustração com suporte”, “satisfação com preço”, “confusão no onboarding” — e então usa esses temas como variáveis explicativas em um modelo de regressão ou análise causal. Os coeficientes saem limpos, os p-valores são significativos, e você tem uma história convincente para apresentar. O problema é que a variável que você está usando nunca existiu como dado observado. Você a construiu, com um modelo de linguagem que tem seus próprios vieses, e agora está tratando essa construção como se fosse um fato coletado no mundo real.

Esse erro está se tornando comum — não por descuido, mas porque o fluxo de trabalho parece razoável em cada etapa individual. No entanto, quando você empilha as etapas, o que chega ao modelo estatístico é algo fundamentalmente diferente do que você pensa estar analisando.

O problema técnico: confundir variável latente com observação

Em inferência causal, a distinção entre observação e variável derivada importa de forma precisa. Uma observação é algo que aconteceu no mundo e foi registrado — a resposta que o usuário digitou, o tempo que levou, a palavra que escolheu. Uma variável derivada é uma transformação aplicada sobre essas observações — e toda transformação carrega pressupostos.

Quando um LLM classifica texto em temas, ele aplica um modelo probabilístico treinado em corpus específicos, com vieses específicos de representação, com critérios de categorização que variam conforme o prompt e a versão do modelo. O resultado não é uma medida do que o respondente quis dizer. É uma estimativa do que um modelo de linguagem, em um contexto específico, inferiu que o respondente quis dizer.

Essa diferença tem consequências diretas. Primeiro: o tema gerado não é independente do modelo que o gerou. Portanto, se você usar temas de um LLM como covariáveis em um modelo preditivo treinado com features que também passaram por LLM, você está potencialmente inflando correlações que não existem nos dados originais — o que se chama de vazamento de informação mediado pelo modelo.

Segundo: temas gerados por LLM introduzem erro de medição sistemático, não aleatório. Erro aleatório de medição em variáveis independentes atenua coeficientes — é ruim, mas é previsível. Erro sistemático pode inverter a direção de um efeito. Se o LLM classifica sistematicamente respostas de um grupo demográfico específico de forma diferente, você vai estimar efeitos causais que são artefatos do comportamento do modelo, não da realidade.

Por que isso acontece — a raiz do problema

O erro tem origem em uma analogia incorreta que parece intuitiva: “o LLM está fazendo o que um anotador humano faria, só que mais rápido”. Essa analogia falha em três pontos técnicos.

Anotadores humanos em estudos quantitativos passam por um protocolo de confiabilidade inter-anotador — você mede o grau de concordância (kappa, por exemplo) e descarta ou revisa casos ambíguos. Quando você usa um LLM para anotação, raramente aplica esse protocolo com o mesmo rigor. Na prática, você testa alguns exemplos, vê que “parece certo”, e escala. Isso não é equivalente metodológico.

Além disso, anotadores humanos operam dentro de um esquema de codificação fechado e documentado. Um LLM opera com um prompt que você escreveu em linguagem natural, e a interpretação desse prompt pode variar entre versões do modelo, entre chamadas com temperatura diferente, e entre idiomas. Consequentemente, sua variável de tema pode não ser estável no tempo — se você reprocessar os dados com uma versão atualizada do modelo, obterá resultados diferentes sem nenhuma mudança nos dados originais.

Por fim, há o problema de contaminação conceitual. LLMs são treinados com dados que incluem literatura científica, artigos de opinião, e senso comum codificado em texto. Quando você pede para um LLM identificar “temas de frustração”, o modelo traz consigo uma teoria implícita do que frustração é — derivada de todo o texto que processou. Essa teoria pode não corresponder à sua definição operacional. Em outras palavras, você acha que está medindo X, mas o modelo está classificando com base em Y, e você não tem como separar os dois sem validação extensiva.

Como isso aparece na prática — e onde ainda falha

O problema não significa que LLMs não têm uso legítimo em análise de texto. Significa que o uso correto é diferente do que tem sido feito de forma mais frequente.

Uso legítimo: exploração e geração de hipóteses. Se você quer entender a estrutura de um corpus de respostas antes de decidir como codificá-las formalmente, um LLM pode acelerar muito esse processo. O tema gerado nessa fase é uma ferramenta de exploração, não uma variável de modelo.

Uso problemático: inserir os temas diretamente como covariáveis em regressão, análise de sobrevivência, diferença em diferenças, ou qualquer framework causal sem um passo de validação que separe a construção do tema da análise subsequente.

Uso que parece seguro mas não é: usar LLM para classificação binária (“esse texto menciona preço: sim/não”) como substituto de busca por palavras-chave. Isso parece mais robusto porque é binário, mas o LLM ainda está inferindo intenção, não apenas detectando presença. Em textos irônicos, em domínios específicos, ou em idiomas com menor representação no treinamento, a taxa de erro pode ser alta e sistemática.

Onde a abordagem ainda falha mesmo com mais cuidado: validação por amostragem manual é necessária mas não suficiente. Se você valida 200 exemplos e o modelo acerta 93%, isso não garante que o erro nos 7% restantes é aleatório — e em amostras menores, 7% de erro sistemático pode mudar seus resultados de forma substancial.

Vale dizer: se o objetivo for puramente preditivo, sem interesse em interpretar coeficientes causalmente, o problema é menos grave. Um modelo de machine learning que usa temas de LLM como features pode ter boa performance sem que você precise interpretar o que cada coeficiente significa. O problema crítico é usar esses temas para fazer afirmações causais — “usuários que expressaram frustração têm X% mais churn” — onde a validade da variável importa para a validade da conclusão.

O que fazer agora — critérios de decisão e próximos passos

A decisão não é binária entre “use LLM” e “não use LLM”. A decisão é sobre em qual etapa da análise o LLM tem papel legítimo.

Se você está em fase exploratória, gerando hipóteses sobre quais temas existem nos dados: use LLM livremente. O output é insumo para o design do seu esquema de codificação, não uma variável de modelo.

Se você precisa de uma variável de texto para análise confirmatória ou causal, o caminho correto tem três etapas. Primeira: defina o construto que você quer medir de forma operacional, em linguagem precisa, antes de envolver qualquer modelo. Segunda: codifique uma amostra manualmente com protocolo documentado, calcule concordância inter-anotador, e use isso como gold standard. Terceira: se quiser escalar com LLM, valide o output do LLM contra esse gold standard em uma amostra estratificada — e reporte a taxa de concordância no seu trabalho, assim como você reportaria a confiabilidade de qualquer instrumento de medida.

Se você já publicou ou entregou análises com variáveis de tema de LLM sem esse protocolo: o próximo passo é refazer a validação da variável antes de usar os resultados para decisão. Não descarte o trabalho — mas adicione a caveat metodológica de forma explícita, e teste se seus resultados principais são robustos a perturbações na classificação (análise de sensibilidade ao esquema de temas).

Para quem usa Python: antes de recorrer a qualquer LLM para classificação em análise causal, considere se uma combinação de regex, spaCy, e anotação manual de uma amostra menor resolve o problema com mais controle sobre os pressupostos. Na maioria dos casos com corpus menores que 10 mil textos em domínio específico, essa abordagem produz variáveis com validade de medida mais documentável — e sem custo de API.

Como começar

Se você quer revisar ou implementar um protocolo de validação para variáveis derivadas de texto — com ou sem LLM — as ferramentas principais são gratuitas e de código aberto.

  • spaCy (open source, gratuito): spacy.io — para extração de features de texto com controle total sobre o pipeline.
  • scikit-learn (open source, gratuito): classificadores supervisionados treinados sobre anotação manual, com validação cruzada documentada.
  • NLTK / transformers (Hugging Face): para quem quer modelos de linguagem com mais controle sobre versão e comportamento do que APIs externas oferecem.

Se o uso de um LLM via API for necessário para escala, o artigo original do Towards Data Science aponta para o problema metodológico sem recomendar um produto específico — o que é o posicionamento correto. Qualquer LLM (Claude, GPT-4, Gemini) tem o mesmo problema estrutural descrito aqui: a validade da variável gerada depende do protocolo de validação, não da qualidade do modelo.

O artigo de referência não está por trás de paywall e pode ser acessado diretamente em: towardsdatascience.com/llm-themes-are-not-observations

Links de afiliado serão adicionados em breve.

Perguntas frequentes

Posso usar temas de LLM como variável dependente em vez de variável independente? O problema é o mesmo?

O problema muda de natureza, mas não desaparece. Como variável dependente, o erro de medição sistemático do LLM vai atenuar ou distorcer os coeficientes dos preditores — você ainda precisa documentar a validade da variável com o mesmo rigor. A diferença é que o viés de atenuação em variáveis dependentes tem comportamento mais estudado na literatura de erros de medição, o que facilita a análise de sensibilidade.

Se eu usar o mesmo LLM para gerar temas e para fazer predições, os erros não se cancelam?

Não. Erros sistemáticos não se cancelam — eles se acumulam. Se o modelo erra na classificação de um subgrupo específico de textos de forma consistente, esse viés aparece tanto na variável construída quanto nas predições, e o que você observa é concordância artificial, não validade. Essa lógica é equivalente ao problema de usar o mesmo dataset para treinar e avaliar sem separação correta.

Quando definitivamente não usar LLM para gerar variáveis em análise quantitativa?

Evite quando: (1) o corpus é em domínio especializado com pouca representação nos dados de treinamento do modelo, como textos técnicos em português de nicho industrial; (2) a análise produzirá afirmações causais publicáveis ou decisões de negócio de alto impacto; (3) você não tem uma amostra de validação com anotação manual para documentar concordância. Nesses casos, invista em anotação humana com protocolo formal — é mais lento, mas produz uma variável com validade defensável.

Receba análises como esta por e-mail. Publicamos conteúdo técnico semanal sobre IA e análise de dados — sem hype, só quando a ferramenta vale a leitura. Inscreva-se gratuitamente.


Baseado em ‘LLM Themes Are Not Observations’ publicado por Towards Data Science em 21/05/2026. Link: https://towardsdatascience.com/llm-themes-are-not-observations/

As demais fontes do mesmo feed (Benders’ Decomposition 101 e 3 Claude Skills Every Data Scientist Needs in 2026) foram descartadas por tratarem de temas distintos — decomposição de Benders é otimização estocástica sem relação direta com o tema central, e o artigo sobre Claude apresenta enquadramento de hype (“if you don’t want to be left behind”) incompatível com os critérios editoriais do blog.

Conteúdo informativo. Não constitui recomendação de compra ou investimento.

Imagem conceitual gerada por IA (GPT Image 1)