Pular para o conteúdo principal

O Iceberg da Inteligência Artificial nos Arquivos

 

Cadernos de Pesquisa em Preservação Digital Sistêmica e Cadeia de Custódia Digital Arquivística

Post 3 — O Iceberg da Inteligência Artificial nos Arquivos

Nos últimos anos, a Inteligência Artificial tornou-se uma das tecnologias mais discutidas do mundo. Sistemas como ChatGPT, Gemini, Claude, Llama e outros modelos generativos passaram a produzir respostas, resumos, análises e conteúdos em velocidades nunca antes imaginadas.

Mas uma pergunta raramente é feita:

Sobre quais documentos essas Inteligências Artificiais estão aprendendo?

A resposta parece simples.

A maior parte dos modelos atuais aprende a partir de conteúdos disponíveis na Web, bases abertas, publicações indexadas, repositórios acessíveis e grandes conjuntos de dados utilizados durante o treinamento.

Entretanto, para os Arquivos, essa resposta revela um problema muito maior.

Grande parte da memória documental da humanidade não está na Web.

Ela está nos Arquivos.

Está nos fundos documentais.

Nos processos administrativos.

Nos documentos permanentes.

Nos acervos históricos.

Nos repositórios arquivísticos digitais confiáveis.

Nos Sistemas Informatizados de Gestão Arquivística de Documentos.

Nos pacotes de preservação digital.

Nos metadados de proveniência.

Nas evidências documentais produzidas pelas instituições.

E essa imensa massa documental permanece praticamente invisível para as Inteligências Artificiais atuais.

É justamente por isso que passamos a utilizar uma metáfora que tem orientado nossas discussões no Grupo CNPq UFAL PDS & Ged/A:

O Iceberg da Inteligência Artificial nos Arquivos

A parte visível do iceberg representa aquilo que as IAs conseguem acessar atualmente:

  • páginas da Web;

  • redes sociais;

  • portais institucionais;

  • dados abertos;

  • artigos indexados;

  • conteúdos disponíveis aos mecanismos de busca.

Mas abaixo da superfície encontra-se uma porção muito maior:

  • fundos documentais;

  • processos administrativos;

  • documentos arquivísticos digitais;

  • acervos permanentes;

  • documentos restritos;

  • pacotes AIP;

  • metadados PREMIS;

  • bases de dados arquivísticas;

  • evidências documentais produzidas pelas organizações.

Paradoxalmente, é justamente essa parte invisível que contém uma parcela significativa da memória institucional, administrativa, jurídica, científica e histórica da sociedade.

Assim, as Inteligências Artificiais atuais respondem perguntas sem considerar grande parte dos documentos que efetivamente registram as ações das organizações.

Em outras palavras:

as IAs conhecem informações; os Arquivos preservam evidências.

Essa distinção é fundamental.

A informação pode circular, ser reproduzida, reinterpretada ou descontextualizada.

A evidência arquivística, por sua vez, está vinculada à proveniência, ao contexto, à organicidade, à autenticidade e à custódia.

É exatamente nesse ponto que a Arquivologia possui uma contribuição singular para o futuro da Inteligência Artificial.

A questão não é apenas disponibilizar documentos para as IAs.

A questão é permitir que as IAs recuperem evidências documentais autênticas.

E isso exige muito mais do que indexação tradicional.

Exige novos modelos de integração entre Arquivos e Inteligência Artificial.

Nos últimos anos, arquiteturas baseadas em RAG (Retrieval-Augmented Generation) passaram a oferecer um caminho promissor.

Em vez de responder apenas com base no treinamento prévio dos modelos, os sistemas RAG recuperam documentos específicos e utilizam essas evidências como base para a geração das respostas.

Quando essa arquitetura é aplicada aos Arquivos, abre-se uma nova fronteira.

Imagine um ecossistema composto por:

  • SIGAD;

  • RDC-Arq;

  • Archivematica;

  • AtoM;

  • ElasticSearch Vetorial;

  • modelos locais executados por Ollama;

  • mecanismos de anonimização e proteção de dados;

  • metadados arquivísticos preservados ao longo do ciclo de vida.

Nesse cenário, a Inteligência Artificial deixa de responder exclusivamente a partir da Web e passa a dialogar diretamente com os próprios fundos documentais da instituição.

Mais importante ainda:

essa recuperação pode ocorrer sem que os documentos precisem sair do ambiente arquivístico confiável.

Essa característica possui implicações estratégicas.

Permite:

  • reduzir riscos de vazamento de dados;

  • apoiar a conformidade com a LGPD;

  • preservar a soberania dos dados;

  • respeitar o princípio da territorialidade;

  • proteger documentos sensíveis;

  • manter a custódia arquivística;

  • controlar os processos de anonimização.

Mas talvez o benefício mais importante seja outro.

Ao recuperar informações diretamente de documentos autênticos preservados em ecossistemas arquivísticos confiáveis, torna-se possível reduzir significativamente:

  • alucinações;

  • respostas sem contexto;

  • inferências baseadas em informações incompletas;

  • vieses decorrentes da ausência de evidências documentais.

A IA não passa a ser infalível.

Mas passa a operar sobre bases documentais muito mais sólidas.

Nesse contexto, a Inteligência Artificial deixa de ser apenas uma tecnologia de geração de respostas.

Ela passa a atuar como uma camada avançada de acesso ao patrimônio documental preservado pelas instituições.

E isso nos leva a uma provocação final.

Talvez a primeira geração de Inteligências Artificiais tenha aprendido com a Web.

Mas a próxima geração poderá aprender com os Arquivos.

Não de qualquer arquivo.

Mas de documentos autênticos, preservados mediante a Preservação Digital Sistêmica (PDS), mantidos sob uma Cadeia de Custódia Digital Arquivística (CCDA) e contextualizados por Arquivistas.

Porque, no futuro, o diferencial não será apenas possuir Inteligência Artificial.

Será possuir evidências autênticas para alimentá-la.


Uma hipótese para debate

E se o verdadeiro desafio da Inteligência Artificial nos Arquivos não for ensinar IA aos Arquivistas, mas ensinar os Arquivos à Inteligência Artificial?

No próximo texto desta série discutiremos como a Preservação Digital Sistêmica pode se tornar a infraestrutura estratégica para a Inteligência Artificial Arquivística.

Comentários