Reconhecer por Modelo#

Reconhece o documento especificado por um modelo. Este bloco trabalha com modelos criados usando o botão "Extrair por modelo" na barra de ferramentas do Sherpa Designer.

Vídeo com um exemplo de uso do bloco:

recognizetemplates.mp4sherparpa.ru
Caminho do arquivo

[Texto/Lista] Caminho do arquivo. Formatos de arquivo suportados:

  • png;
  • jpg;
  • pdf.

O arquivo pdf pode ser multipágina. É possível especificar uma lista de arquivos de imagem.

Caminho do arquivo modelo

[Texto/Lista] Caminho do arquivo modelo para reconhecimento. Ao especificar uma lista de arquivos de modelos, cada arquivo será usado sequencialmente até que o reconhecimento seja concluído com sucesso.

Se nenhum dos modelos for adequado para o documento, uma exceção será gerada com o erro do primeiro modelo da lista. Ao usar uma lista, é possível aumentar a velocidade de processamento de vários modelos se os parâmetros de reconhecimento de página forem os mesmos.

Este bloco trabalha com modelos criados usando o botão "Extrair por modelo" na barra de ferramentas do Sherpa Designer.

Número da página

[Número/Text] Número da página no arquivo pdf multipágina.

Se houver um âncora LastPage, o reconhecimento começará a partir do número especificado até que a página seja encontrada. Se essa âncora não existir, apenas a página especificada será reconhecida.

É possível especificar uma string com números de páginas separados por vírgula. Também é suportada a especificação de intervalo por meio de hífen. Por exemplo: "1, 4-7".

Substituir módulo

[Texto] Permite substituir o módulo especificado no modelo pelo especificado no bloco durante o reconhecimento. Valores possíveis:

  • TesseractOCR;
  • YandexVision;
  • MicrosoftOCR;
  • AbbyyOCR;
  • FineReader;
  • OCRSpace.
Substituir escala[Número] Define uma nova escala durante o reconhecimento pelo modelo. Se o valor não for especificado, a escala das configurações do modelo será usada; caso contrário, a escala especificada nesta propriedade será aplicada.
Substituir idioma de reconhecimento[Texto] Permite substituir o idioma especificado no modelo pelo especificado no bloco durante o reconhecimento.
Substituir tamanho da célula horizontalmente

[Número] Define um novo tamanho da célula horizontalmente durante o reconhecimento pelo modelo.

Se o valor não for especificado, o tamanho da célula das configurações do modelo será usado; caso contrário, o tamanho especificado nesta propriedade será aplicado.

Substituir tamanho da célula verticalmente

[Número] Define um novo tamanho da célula verticalmente durante o reconhecimento pelo modelo.

Se o valor não for especificado, o tamanho da célula das configurações do modelo será usado; caso contrário, o tamanho especificado nesta propriedade será aplicado.

Adicionar percentual de "confiança" nas tabelasAo ativar esta opção, em cada célula da tabela será gravado não apenas o texto, mas um objeto CellData. A partir do objeto, será possível extrair o texto usando a propriedade Text, assim como o percentual de "confiança" usando a propriedade Confidence.
Ignorar erros de âncorasSe âncoras (quaisquer) não forem encontradas, nenhum erro será gerado. Nesse caso, a área da âncora é considerada nula.
Processar todas as páginasAo ativar a opção, todas as páginas do documento serão processadas. Este modo não verifica a âncora LastPage.
Atributos[Dicionário] Dicionário com os atributos do documento. Por exemplo: "Número do documento", "CNPJ do fornecedor" e outros. No dicionário é adicionado o parâmetro CountPage, que corresponde ao número de páginas envolvidas no reconhecimento pelo modelo.
Tabelas[Lista de Tabelas de Dados] Retorna uma lista de tabelas de dados. A lista é formada a partir dos dados do modelo.
Áreas de âncoras[Dicionário] Dicionário com as âncoras encontradas. A chave do dicionário é o ID da âncora, e o valor é um retângulo que indica sua posição na página. O DPI da página é considerado como 300.
Dados dos atributos

[Dicionário] Dicionário com os atributos encontrados. A chave do dicionário é o nome do atributo, e o valor é um objeto com os dados dos atributos. O objeto contém um retângulo que indica a posição do atributo na página. O DPI da página é considerado como 300.

O objeto também contém o valor Confidence, que indica a "Confiança" no reconhecimento. Disponível para Tesseract e YandexVision e varia de 0 a 100.

Índice do modelo

[Número] Índice do modelo reconhecido. Esta propriedade é relevante se na propriedade "Caminho do arquivo modelo" for especificada uma lista.

A numeração começa em zero.

Nível de processamento

Seleção do nível de tratamento de erros. Valores possíveis:

  • "Default" - padrão;
  • "Ignore" - erros são ignorados;
  • "Handle" - erros são tratados.

Se o valor "Default" for escolhido, será utilizado o valor do bloco "Início" deste diagrama.

Nível de mensagens

Seleção do nível de mensagens que os blocos exibirão durante a operação. Valores possíveis:

  • "Default" - padrão;
  • "Release" - saída desativada;
  • "Debug" - saída de informações principais;
  • "Detailed" - saída de informações detalhadas.

Se o valor "Default" for escolhido, será utilizado o valor do bloco "Início" deste diagrama.

Texto do erro[Texto] Retorna informações detalhadas sobre o erro em caso de execução incorreta do bloco.