Interações cotidianas com modelos de linguagem expõem informações sensíveis e exigem novas práticas de governança e cibersegurança.
A popularização de ferramentas de inteligência artificial generativa vem abrindo uma nova frente de risco para pessoas e empresas: a exposição involuntária de informações sensíveis em interações cotidianas com modelos de linguagem. Um levantamento conduzido pela Apura Cyber Intelligence mostra que cada conversa digital com sistemas de IA pode se transformar em um ponto de vazamento de dados, muitas vezes sem que o usuário perceba.
Por definição, modelos de linguagem de grande escala (LLMs) são treinados a partir de volumes massivos de dados disponíveis publicamente e também aprendem com padrões extraídos das interações dos usuários. Esse processo contínuo levanta questionamentos sobre privacidade, governança da informação e segurança digital, sobretudo quando dados corporativos ou pessoais são inseridos em ambientes que não distinguem conteúdos sensíveis de informações comuns.
“As pessoas não percebem que, ao enviar dados para um LLM, estão expondo informações a um ambiente que não foi projetado para classificar o que é sensível ou confidencial”, afirma Pollyne Zunino, subcoordenadora do SWAT Team da Apura e especialista em investigação de crimes cibernéticos, fraudes eletrônicas e inteligência digital. “É comum que usuários copiem contratos, códigos, registros internos ou dados pessoais acreditando estar em um espaço privado, quando, na prática, o modelo apenas processa o que recebe.”
Segundo a especialista, provedores de IA podem manter registros técnicos dessas interações para fins de auditoria, segurança ou evolução dos sistemas. Isso significa que o simples ato de interagir com a ferramenta já configura uma forma de exposição, ainda que não intencional.
O levantamento da Apura identifica situações recorrentes que ilustram o risco. Um dos casos mais comuns envolve desenvolvedores que submetem trechos de código a modelos de IA para otimização e acabam incluindo, inadvertidamente, tokens de acesso, URLs internas ou credenciais temporárias. Mesmo quando a resposta do sistema é eficaz, a informação sensível já foi transmitida, processada e potencialmente registrada.
“Uma vez que o dado entra no modelo, ele sai do controle do usuário”, afirma Zunino. “Pode ser um token, um CPF, um contrato ou um pipeline estratégico. A lógica é a mesma: o que entra passa a integrar o ecossistema do modelo.”
Shadow AI preocupa empresas
No ambiente corporativo, o risco se amplia com a adoção espontânea e não estruturada de ferramentas de IA por colaboradores, fenômeno conhecido como Shadow AI. Nesse cenário, informações estratégicas circulam fora das camadas formais de proteção, como políticas de segurança, sistemas de prevenção de vazamento de dados (DLP) e monitoramento de eventos.
Dados de clientes, códigos proprietários, contratos confidenciais e planos estratégicos podem ser compartilhados com plataformas externas sem qualquer avaliação prévia de risco. Ferramentas não homologadas acabam criando canais invisíveis de vazamento, muitas vezes fora do alcance dos sistemas tradicionais de defesa cibernética.
Zunino ressalta que grandes provedores de IA, como OpenAI, Google e Anthropic, possuem políticas de privacidade que diferenciam o tratamento de dados enviados por APIs e por interfaces públicas. Em geral, afirmam não utilizar dados enviados por API para treinar modelos, embora possam manter registros operacionais. Já no universo de soluções open source, a responsabilidade pela segurança recai integralmente sobre quem hospeda e opera o sistema.
Criminosos exploram novas brechas
A Apura também identificou que grupos criminosos vêm explorando ativamente essas fragilidades. Técnicas como model inversion, membership inference e prompt injection permitem extrair padrões sensíveis, reidentificar usuários e manipular o comportamento dos modelos.
“O atacante não precisa mais invadir a rede corporativa. Muitas vezes, basta explorar o que vazou por meio de prompts de IA”, afirma a especialista.
Boas práticas e mitigação de riscos
Para reduzir a exposição, a recomendação central é tratar ferramentas de IA como ambientes públicos. “A IA não é seu diário, nem sua caixa de e-mail confidencial”, diz Zunino. “Antes de colar qualquer informação, a pergunta deve ser: se isso vazasse, eu ficaria tranquilo?”
Entre as principais orientações estão evitar o envio de dados sensíveis, seguir rigorosamente as políticas internas de segurança, priorizar ferramentas homologadas e, sempre que possível, adotar modelos locais operados dentro da própria infraestrutura da empresa.
Segundo a Apura, LLMs locais reduzem a dependência de terceiros, facilitam a conformidade com legislações como a LGPD e o GDPR e permitem o uso avançado de automações sem comprometer a privacidade.
“A IA aprende o tempo todo”, conclui Zunino. “Se não houver atenção e governança, ela pode aprender muito mais do que deveria.”
