Pular para o conteúdo principal

Do OAIS ao RAG Arquivístico: a Quarta Geração do Acesso aos Documentos Digitais

 

Cadernos de Pesquisa em Preservação Digital Sistêmica e Cadeia de Custódia Digital Arquivística

Post 7 — Do OAIS ao RAG Arquivístico: a Quarta Geração do Acesso aos Documentos Digitais

Durante mais de duas décadas, o Modelo OAIS (Open Archival Information System) consolidou-se como uma das principais referências internacionais para a preservação digital.

Sua contribuição foi extraordinária.

Pela primeira vez, tornou-se possível descrever de forma sistêmica como os documentos digitais poderiam ser recebidos, preservados e disponibilizados ao longo do tempo.

Entretanto, uma questão raramente é formulada:

O OAIS foi concebido antes da Inteligência Artificial generativa.

Na época de sua elaboração, não existiam:

  • Large Language Models (LLMs);

  • RAG (Retrieval-Augmented Generation);

  • Vetorização semântica;

  • Embeddings;

  • ElasticSearch vetorial;

  • Ollama;

  • Inteligência Artificial Arquivística.

Consequentemente, o OAIS foi projetado para responder a um problema diferente:

Como preservar e disponibilizar documentos digitais?

Hoje surge uma nova pergunta:

Como transformar documentos preservados em conhecimento recuperável por Inteligência Artificial?


O OAIS continua atual?

Nossa resposta é simples:

Sim.

Mas talvez precisemos reinterpretá-lo.

O OAIS permanece absolutamente válido como modelo de preservação.

O que muda é a forma como compreendemos suas entidades funcionais diante das novas possibilidades tecnológicas.

Particularmente duas delas tornam-se centrais:

OAIS Archive

Responsável pela preservação dos documentos.

OAIS Consumer

Responsável pelo acesso e uso da informação preservada.

É justamente nessa segunda entidade que a Inteligência Artificial começa a transformar o paradigma arquivístico.


Archivematica e AtoM: uma releitura contemporânea do OAIS

Nas implementações contemporâneas mais difundidas, encontramos uma arquitetura particularmente interessante:

Archivematica

Representando a dimensão Archive do OAIS.

Responsável por:

  • ingestão;

  • normalização;

  • preservação;

  • metadados PREMIS;

  • geração de AIPs.

AtoM

Representando a dimensão Consumer.

Responsável por:

  • descrição arquivística;

  • recuperação;

  • acesso;

  • difusão;

  • uso da informação preservada.

Durante muitos anos, essa arquitetura foi suficiente.

Mas o surgimento da Inteligência Artificial introduz uma nova camada.


O nascimento do RAG Arquivístico

Tradicionalmente, o acesso arquivístico ocorre por:

  • busca textual;

  • navegação hierárquica;

  • pesquisa por metadados.

A Inteligência Artificial permite uma abordagem diferente.

A recuperação passa a ocorrer por significado.

Por contexto.

Por relações semânticas.

Por evidências.

Isso torna possível uma arquitetura baseada em:

AtoM + ElasticSearch Vetorial + RAG + LLM Local

Nesse modelo:

  1. O Archivematica preserva.

  2. O AtoM organiza e disponibiliza.

  3. O ElasticSearch vetorial representa semanticamente os conteúdos.

  4. O mecanismo RAG recupera evidências documentais relevantes.

  5. O LLM gera respostas fundamentadas nesses documentos.

A IA não responde apenas com base em treinamento prévio.

Ela responde a partir dos próprios documentos preservados.


A Quarta Geração do Acesso Arquivístico

Se observarmos a evolução histórica dos sistemas arquivísticos digitais, talvez possamos identificar quatro grandes momentos.

Primeira geração

Recuperação física.

Catálogos e inventários.

Segunda geração

Recuperação digital.

Bases de dados e sistemas arquivísticos.

Terceira geração

Recuperação Web.

Portais e acesso remoto.

Quarta geração

Recuperação semântica baseada em IA.

RAG.

Vetorização.

Modelos locais.

Evidências documentais.

Nesse novo paradigma, o usuário não procura apenas documentos.

Ele dialoga com os documentos.


O papel da CCDA e da PDS

Essa transformação não elimina os princípios arquivísticos.

Ao contrário.

Torna-os ainda mais importantes.

Quanto mais sofisticada for a Inteligência Artificial, maior será a necessidade de:

  • autenticidade;

  • proveniência;

  • contexto;

  • metadados;

  • preservação;

  • custódia.

Por essa razão, o RAG Arquivístico somente pode produzir resultados confiáveis quando sustentado por:

CCDA

Garantindo autenticidade.

CoP

Garantindo evidências de preservação.

PDS

Garantindo a infraestrutura sistêmica.

A Inteligência Artificial torna-se então uma nova camada de acesso.

Não um substituto da Arquivologia.


Uma hipótese para debate

Talvez a maior transformação dos próximos anos não esteja na preservação digital.

Talvez esteja no acesso.

Durante séculos, os Arquivos foram organizados para recuperar documentos.

Nos próximos anos, poderão ser organizados para recuperar evidências, conhecimento e contexto.

Se isso ocorrer, o OAIS não deixará de ser relevante.

Pelo contrário.

Passará a sustentar uma nova geração de acesso baseada em Inteligência Artificial.


Para refletir

O OAIS foi concebido para preservar documentos.

A próxima geração de sistemas poderá utilizá-lo para preservar e recuperar conhecimento.

Mas somente se esse conhecimento continuar fundamentado em documentos autênticos, preservados e mantidos sob custódia arquivística.

Comentários

Postagens mais visitadas deste blog

Inovação Sustentada

 Inovação Sustentada: Construindo o Futuro com Fundamentos Sólidos No dinâmico cenário da transformação digital, somos constantemente bombardeados com conceitos como "disrupção" e "inovação". Mas, você já se perguntou sobre a Inovação Sustentada e por que ela é tão importante, especialmente em áreas que exigem confiabilidade e estabilidade, como a Arquivologia? O que é Inovação Sustentada? A inovação sustentada é um tipo de inovação que se baseia em referenciais sólidos, ou seja, está profundamente enraizada no arcabouço teórico, epistêmico e metodológico de uma área de conhecimento específica. Em vez de buscar o "novo pelo novo", ela se concentra em aprimorar produtos e serviços já existentes, atendendo às necessidades dos consumidores atuais e seguindo as definições originais de desempenho e qualidade do mercado. Isso significa que a inovação sustentada é o resultado de um estudo minucioso, que harmoniza as demandas do mercado com o rigor científico. Por...

Conversatorio "Formación archivística sustentada en la investigación en Iberoamérica" 24 de junio / 15:00 horas (México)

 Conversatorio  "Formación archivística sustentada en la investigación en Iberoamérica" 24 de junio / 15:00 horas (México) Inscripción: -  https://docs.google.com/forms/d/1bUkzzilkOAwOeiavHnCS3usZV9p5HnyYMpjmWfXE1sI/preview

RDC-Arq

 O que é RDC-Arq? O RDC-Arq significa Repositórios Arquivísticos Digitais Confiáveis. Nada mais é do que uma diretriz implementada para manter da melhor forma “o arquivamento e manutenção dos documentos arquivísticos em suas fases corrente, intermediária e permanente em formato digital, e de forma a garantir a autenticidade (identidade e integridade), a confidencialidade, a disponibilidade e a preservação desses documentos” (CONARQ, 2015). Em resumo, o RDC-Arq é um sistema especial para manter a integridade e a preservação dos documentos digitais. Ele guarda, protege, mantém a autenticidade e garante o acesso futuro (CONARQ, 2015). Referência: BRASIL. Conselho Nacional de Arquivos (CONARQ). Resolução nº 43, de 4 de setembro de 2015. Altera a redação da Resolução nº 39, de 29 de abril de 2014, que estabelece diretrizes para a implementação de repositórios arquivísticos digitais confiáveis – RDC-Arq. Rio de Janeiro: Arquivo Nacional, 2015.