Skip to content

Proposta de lição: "Digitalizando o passado: OCR de manuscritos históricos com ScanTailor, LatinOCR e IAGs (ChatGPT e QwenIA)" #688

@ericbrasiln

Description

@ericbrasiln

Programming Historian em português recebeu uma proposta de lição intitulada 'Digitalizando o passado: OCR de manuscritos históricos com ScanTailor, LatinOCR e IAGs (ChatGPT e QwenIA) - instruções metodológicas para iniciantes a partir de um estudo de caso cartuxo' por Gabriel Castanho @gabrielcgcastanho, Maria Eduarda Pôrto Garcia Barcelos @dudabarcelos56-afk, e Antônio de Oliveira Salícios Rodrigues @antoniosalicios.

Os objetivos de aprendizagem da aula proposta são:

  • Reconhecer a importância da Digitalização de qualidade e do processamento das imagens de textos impressos no ScanTailor.
  • Executar OCR voltado ao latim com LatinOCR.
  • Reconhecer o funcionamento interno de programas como o LatinOCR que requer a instalação prévia do Tesseract OCR (Tesseract OCR 5.5, no caso aqui apresentado), que funciona como seu motor interno de reconhecimento óptico de caracteres.
  • Comparar e avaliar transcrições com ChatGPT e QwenIA, identificando erros e vantagens de cada abordagem.
  • Gerar transcrições críticas, preservar a marcação editorial e documentar as decisões.

Eu compartilhei esta proposta para feedback com a equipa portuguesa. Consideramos esta proposta com base nos seguintes critérios:

  • Abertura: defendemos o uso de software de código aberto, linguagens de programação abertas e conjuntos de dados abertos.
  • Acesso global: atendemos a um público que trabalha com diferentes sistemas operacionais e recursos computacionais variados.
  • Multilinguismo: celebramos metodologias e ferramentas que podem ser aplicadas ou adaptadas para uso em contextos de pesquisa multilíngues.
  • Sustentabilidade: estamos comprometidos em publicar recursos de aprendizagem que possam permanecer úteis além das interfaces gráficas de usuário atuais e das versões de software em vigor.

Estamos felizes em convidar @gabrielcgcastanho a desenvolver esta proposta em uma submissão sob a orientação de editor @JimmyMedeiros82 .

O pacote de submissão deve incluir:

  • Texto da lição (escrito em Markdown)
  • Figuras: imagens / gráficos / diagramas (se aplicável)
  • Recursos de dados: codebooks, conjunto de dados de exemplo (se aplicável)

Solicitamos que @gabrielcgcastanho compartilhe o pacote de submissão com nossa equipe de publicação por e-mail, copiando @JimmyMedeiros82 .

Acordamos uma data de submissão de 8 de maio de 2026. Pedimos que @gabrielcgcastanho entre em contato conosco caso precise revisar esse prazo.

Nossa equipe de Publicação processará os novos materiais de lição e preparará uma prévia do rascunho inicial. Eles discutirão qualquer dúvida com o colaborador e postarão um comentário nesta questão para fornecer a localização de todos os arquivos-chave, bem como um link para a prévia, onde os colaboradores poderão ler a lição conforme o rascunho avança.

Se não tivermos recebido o pacote de submissão até 8 de maio de 2026, @JimmyMedeiros82 tentará entrar em contato com @gabrielcgcastanho. Se não recebermos nenhuma atualização, esta issue será encerrada.

O nosso Provedor de Justiça é Luis Ferla (português). Não hesite em contactá-lo a qualquer momento se tiver preocupações que gostaria de tratar com um observador imparcial. Entrar em contato com os ombudspersons não terá impacto no resultado de qualquer revisão por pares.

Metadata

Metadata

Type

No type

Projects

Status

2 Initial Edit

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions