Captcha, .pdf e outros problemas no acesso à informação

É impossível falar de transparência e análise de dados em 2018 sem falar em formatos de arquivo e mecanismos antirrobô. Para se ter uma ideia do volume de informações que o Justa trabalha, considere este recorte: a tabela de remuneração dos membros ativos do Ministério Público de São Paulo referente a janeiro de 2018 tem 2.046 linhas. Só aí, de uma única instituição em um único mês, são mais de duas mil informações para dar uma olhadinha. Não é difícil entender que os computadores são imprescindíveis para uma análise completa, que considere séries históricas e seja capaz de comparar resultados de diversas instituições.

Justamente por isso a Lei de Acesso à Informação (LAI) instituiu, em 2012, parâmetros mínimos de publicação de informações para os órgãos públicos. Em resumo, é preciso que os dados sejam publicados em formatos abertos e que não apresentem barreiras de acesso – isso para garantir que sejam legíveis por máquinas. Mas, na prática, nem sempre os documentos são publicados conforme o que dispõe a lei.

 

Vamos por partes.

 

Captcha

Todo mundo sabe o que é, mas o nem todo mundo conhece o nome. Captcha é aquele código que você precisa digitar para provar que não é um robô antes de acessar uma página da internet (como esse exemplo da imagem abaixo). Esse mecanismo existe por uma série de motivos, mas o que pesa para o Justa é o fato de que ele impede o acesso automático de computadores a determinados conteúdos. De acordo com a LAI, dados sobre órgãos públicos não podem estar protegidos por esse tipo de sistema.

 

Formatos abertos e fechados

Tabelas em formato .xls ou .ods (o que comumente se chama de “formato Excel”) são exemplos de arquivos abertos. Computadores conseguem selecionar as linhas e as colunas, extrair as informações de cada célula, organizar e comparar – e quem já tentou copiar uma tabela de um .pdf  sabe que a tarefa não é tão simples assim nesse tipo de arquivo. De uma imagem (.jpg, por exemplo), então, nem se fala. Por isso, arquivos escaneados e fotografados, arquivos de texto desestruturados e arquivos fechados tipo .pdf não estão de acordo com a LAI.

Em termos gerenciais, publicar dados em .pdf pode responder a um desejo de garantia da integridade dos documentos publicados. Em termos políticos, porém, o .pdf pode configurar uma barreira à efetivação da transparência de dados das instituições, uma vez que impõe um alto custo de pré-processamento para conversão dos arquivos em formatos legíveis por máquinas, para que essas possam processar, transmitir e analisar um amplo volume de dados.

0 Comentários

Comente

Seu e-mail não será publicado.