O padrão de empacotamento BagIt no Archivematica


 O padrão BagIt é uma especificação de formato de empacotamento criada pela Biblioteca do Congresso Americano, que segue uma estrutura hierárquica para o armazenamento e a transmissão de conteúdo digital. No Archivematica, esse padrão desempenha um papel central, sendo utilizado tanto na fase de transferência de documentos quanto na estruturação final do pacote de preservação.

No contexto do Archivematica, o BagIt assume relevância fundamental por sustentar a organização, a integridade e a interoperabilidade dos objetos digitais ao longo de todo o fluxo de preservação. Suas principais características e funcionalidades incluem:

A estrutura do AIP (Archival Information Package), que é obrigatoriamente empacotado de acordo com a especificação BagIt. Esse pacote é composto por arquivos técnicos como bag-info.txt, bagit.txt, manifest-sha256.txt e tagmanifest-md5.txt, além de um diretório de dados.

A segurança e integridade são asseguradas por meio da aplicação de algoritmos hash (checksums). O sistema gera somas de verificação para cada arquivo armazenado na “bag”, permitindo verificar facilmente se houve corrupção ou alteração dos dados após sua movimentação.

No modelo de preservação Hipátia, o BagIt também desempenha papel essencial. O barramento tecnológico BarraPres é responsável por extrair objetos e metadados dos sistemas produtores e convertê-los em pacotes nesse padrão. Esses pacotes são enviados ao Archivematica como SIPs (Submission Information Packages), mantendo uma cadeia de custódia ininterrupta e automatizada.

Do ponto de vista estrutural, um Bag organiza os objetos digitais dentro de uma pasta chamada /data. Fora dela ficam os arquivos de manifesto e etiquetas (tag files), que descrevem o conteúdo e registram as somas de verificação para fins de auditoria.

O Archivematica também oferece flexibilidade de admissão, permitindo diferentes tipos de transferência baseados no BagIt, como Unzipped bag e Zipped bag. Caso o sistema identifique que uma transferência já está no formato BagIt, ele executa microsserviços específicos para validar as somas de verificação antes de prosseguir.

Outro aspecto importante é o acesso direto ao conteúdo. O formato permite acesso hierárquico aos objetos digitais e metadados, possibilitando consultas integrais ou parciais sem a necessidade de interpretar todo o pacote.

Em síntese, o uso do BagIt garante que o Archivematica opere em conformidade com padrões internacionais, facilitando a interoperabilidade entre sistemas e assegurando a autenticidade e verificabilidade dos objetos digitais ao longo do tempo.

A estrutura de um AIP no Archivematica, baseada no BagIt, é composta fundamentalmente por arquivos de manifesto, etiquetas e um diretório principal de dados. Esses componentes organizam-se da seguinte forma:

Os arquivos da especificação BagIt, localizados na raiz do pacote, garantem a integridade e segurança do conteúdo:

  • bag-info.txt: contém metadados sobre o pacote;
  • bagit.txt: identifica o pacote como uma “bag” e especifica versão e codificação;
  • manifest-sha256.txt: registra as somas de verificação dos arquivos de dados;
  • tagmanifest-md5.txt: contém checksums dos arquivos de etiquetas.

O diretório /data armazena o conteúdo preservado e a documentação técnica necessária para a preservação a longo prazo. Nele encontram-se:

  • METS.uuid.xml: arquivo central com implementação do PREMIS, vinculando objetos, metadados e documentação;
  • README.html: descrição legível da estrutura do AIP;
  • pasta objects: contém objetos originais, normalizados e metadados;
  • pasta logs: registros de processamento (identificação de formato, antivírus, etc.);
  • pasta thumbnails: miniaturas para visualização (opcional).

Essa estrutura hierárquica facilita o acesso direto aos dados e metadados, além de permitir auditorias e interoperabilidade. Geralmente, o AIP é comprimido em formato .7z antes de ser armazenado.

No que diz respeito à integridade dos dados, o Archivematica utiliza uma abordagem sistêmica baseada em padrões internacionais. O BagIt é o principal mecanismo, pois registra checksums para cada arquivo. Durante a admissão, o sistema verifica se esses valores coincidem com os arquivos recebidos. Caso não existam, novos checksums e identificadores únicos (UUID) são gerados.

Além disso, o sistema executa microsserviços automatizados de segurança e validação, como:

  • varredura de malware;
  • identificação e validação de formatos (com ferramentas como FITS e JHOVE);
  • normalização de arquivos para formatos mais estáveis.

Após a criação do AIP, o monitoramento de fixidez continua no armazenamento. O sistema realiza verificações periódicas e detecta qualquer alteração nos dados por meio da comparação de checksums. Há também a ferramenta Fixity, desenvolvida para verificação contínua da integridade.

A cadeia de custódia é preservada por meio da automação completa do processo, reduzindo intervenções humanas e registrando todas as ações no arquivo METS, o que garante rastreabilidade e auditabilidade.

Dessa forma, a utilização do BagIt no Archivematica revela-se essencial como pilar de integridade, segurança e interoperabilidade na preservação digital. Entre os pontos mais relevantes, destacam-se:

A garantia de integridade dos dados por meio da geração e verificação de checksums, assegurando a autenticidade dos objetos digitais.

A padronização e interoperabilidade, permitindo a troca de pacotes entre diferentes sistemas e alinhando o Archivematica às melhores práticas internacionais.

A manutenção da cadeia de custódia, especialmente no modelo Hipátia, onde o BarraPres automatiza a extração e o empacotamento de documentos.

A estrutura hierárquica eficiente, que facilita o acesso e a recuperação de informações.

A robustez necessária para atender aos requisitos de um Repositório Arquivístico Digital Confiável (RDC-Arq), conforme a Resolução nº 43 do Conarq.

Por fim, no contexto do modelo Hipátia, o BagIt atua como elemento de ligação entre os sistemas produtores e o Archivematica. O BarraPres extrai os dados, o BagIt garante o empacotamento seguro e íntegro, e o Archivematica realiza a preservação digital a longo prazo. Esse ecossistema evidencia o papel central do padrão BagIt como infraestrutura essencial para a preservação digital confiável.


ARCHIVEMATICA. AIP structure. Disponível em: https://www.archivematica.org/pt-br/docs/archivematica-1.8/user-manual/archival-storage/aip-structure/. Acesso em: 4 maio 2026

ARELLANO, Miguel Ángel Márdero (org.). Hipátia: modelo de preservação para repositórios arquivísticos digitais confiáveis. Brasília: Ibict, [s.d.].

FLORES, Daniel. Cadeia de custódia dos documentos arquivísticos digitais: do SIGAD ao RDC-Arq. Vitória: UFES, 2016. Material de palestra.

GAVA, Tânia Barbosa Salles; FLORES, Daniel. O papel do Archivematica no RDC-Arq e possíveis cenários de uso. Ágora: Arquivologia em debate, Florianópolis, v. 31, n. 63, p. 1–21, jul./dez. 2021.

GOMES, Wellington da Silva; AUTRAN, Marynice de Medeiros Matos. O Archivematica e os aspectos de confiabilidade da Resolução nº 43 do Conselho Nacional de Arquivos: enfoque comparativo. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO (ENANCIB), 20., 2019, Florianópolis. Anais [...]. Florianópolis: ANCIB, 2019.

Comentários

Postagens mais visitadas deste blog

Inovação Sustentada

Nestor