Reconhecer por Modelo#

Reconhece o documento especificado por um modelo. Este bloco trabalha com modelos criados usando o botão "Extrair por modelo" na barra de ferramentas do Sherpa Designer.

Vídeo com um exemplo de uso do bloco:

recognizetemplates.mp4sherparpa.ru

Caminho do arquivo	[Texto/Lista] Caminho do arquivo. Formatos de arquivo suportados: png; jpg; pdf. O arquivo pdf pode ser multipágina. É possível especificar uma lista de arquivos de imagem.
Caminho do arquivo modelo	[Texto/Lista] Caminho do arquivo modelo para reconhecimento. Ao especificar uma lista de arquivos de modelos, cada arquivo será usado sequencialmente até que o reconhecimento seja concluído com sucesso. Se nenhum dos modelos for adequado para o documento, uma exceção será gerada com o erro do primeiro modelo da lista. Ao usar uma lista, é possível aumentar a velocidade de processamento de vários modelos se os parâmetros de reconhecimento de página forem os mesmos. Este bloco trabalha com modelos criados usando o botão "Extrair por modelo" na barra de ferramentas do Sherpa Designer.
Número da página	[Número/Text] Número da página no arquivo pdf multipágina. Se houver um âncora LastPage, o reconhecimento começará a partir do número especificado até que a página seja encontrada. Se essa âncora não existir, apenas a página especificada será reconhecida. É possível especificar uma string com números de páginas separados por vírgula. Também é suportada a especificação de intervalo por meio de hífen. Por exemplo: "1, 4-7".
Substituir módulo	[Texto] Permite substituir o módulo especificado no modelo pelo especificado no bloco durante o reconhecimento. Valores possíveis: TesseractOCR; YandexVision; MicrosoftOCR; AbbyyOCR; FineReader; OCRSpace.
Substituir escala	[Número] Define uma nova escala durante o reconhecimento pelo modelo. Se o valor não for especificado, a escala das configurações do modelo será usada; caso contrário, a escala especificada nesta propriedade será aplicada.
Substituir idioma de reconhecimento	[Texto] Permite substituir o idioma especificado no modelo pelo especificado no bloco durante o reconhecimento.
Substituir tamanho da célula horizontalmente	[Número] Define um novo tamanho da célula horizontalmente durante o reconhecimento pelo modelo. Se o valor não for especificado, o tamanho da célula das configurações do modelo será usado; caso contrário, o tamanho especificado nesta propriedade será aplicado.
Substituir tamanho da célula verticalmente	[Número] Define um novo tamanho da célula verticalmente durante o reconhecimento pelo modelo. Se o valor não for especificado, o tamanho da célula das configurações do modelo será usado; caso contrário, o tamanho especificado nesta propriedade será aplicado.
Adicionar percentual de "confiança" nas tabelas	Ao ativar esta opção, em cada célula da tabela será gravado não apenas o texto, mas um objeto CellData. A partir do objeto, será possível extrair o texto usando a propriedade Text, assim como o percentual de "confiança" usando a propriedade Confidence.
Ignorar erros de âncoras	Se âncoras (quaisquer) não forem encontradas, nenhum erro será gerado. Nesse caso, a área da âncora é considerada nula.
Processar todas as páginas	Ao ativar a opção, todas as páginas do documento serão processadas. Este modo não verifica a âncora LastPage.
Atributos	[Dicionário] Dicionário com os atributos do documento. Por exemplo: "Número do documento", "CNPJ do fornecedor" e outros. No dicionário é adicionado o parâmetro CountPage, que corresponde ao número de páginas envolvidas no reconhecimento pelo modelo.
Tabelas	[Lista de Tabelas de Dados] Retorna uma lista de tabelas de dados. A lista é formada a partir dos dados do modelo.
Áreas de âncoras	[Dicionário] Dicionário com as âncoras encontradas. A chave do dicionário é o ID da âncora, e o valor é um retângulo que indica sua posição na página. O DPI da página é considerado como 300.
Dados dos atributos	[Dicionário] Dicionário com os atributos encontrados. A chave do dicionário é o nome do atributo, e o valor é um objeto com os dados dos atributos. O objeto contém um retângulo que indica a posição do atributo na página. O DPI da página é considerado como 300. O objeto também contém o valor Confidence, que indica a "Confiança" no reconhecimento. Disponível para Tesseract e YandexVision e varia de 0 a 100.
Índice do modelo	[Número] Índice do modelo reconhecido. Esta propriedade é relevante se na propriedade "Caminho do arquivo modelo" for especificada uma lista. A numeração começa em zero.
Nível de processamento	Seleção do nível de tratamento de erros. Valores possíveis: "Default" - padrão; "Ignore" - erros são ignorados; "Handle" - erros são tratados. Se o valor "Default" for escolhido, será utilizado o valor do bloco "Início" deste diagrama.
Nível de mensagens	Seleção do nível de mensagens que os blocos exibirão durante a operação. Valores possíveis: "Default" - padrão; "Release" - saída desativada; "Debug" - saída de informações principais; "Detailed" - saída de informações detalhadas. Se o valor "Default" for escolhido, será utilizado o valor do bloco "Início" deste diagrama.
Texto do erro	[Texto] Retorna informações detalhadas sobre o erro em caso de execução incorreta do bloco.