Reconhecer por Modelo#
Reconhece o documento especificado por um modelo. Este bloco trabalha com modelos criados usando o botão "Extrair por modelo" na barra de ferramentas do Sherpa Designer.
Vídeo com um exemplo de uso do bloco:
| Caminho do arquivo | [Texto/Lista] Caminho do arquivo. Formatos de arquivo suportados:
O arquivo pdf pode ser multipágina. É possível especificar uma lista de arquivos de imagem. |
| Caminho do arquivo modelo | [Texto/Lista] Caminho do arquivo modelo para reconhecimento. Ao especificar uma lista de arquivos de modelos, cada arquivo será usado sequencialmente até que o reconhecimento seja concluído com sucesso. Se nenhum dos modelos for adequado para o documento, uma exceção será gerada com o erro do primeiro modelo da lista. Ao usar uma lista, é possível aumentar a velocidade de processamento de vários modelos se os parâmetros de reconhecimento de página forem os mesmos. Este bloco trabalha com modelos criados usando o botão "Extrair por modelo" na barra de ferramentas do Sherpa Designer. |
| Número da página | [Número/Text] Número da página no arquivo pdf multipágina. Se houver um âncora LastPage, o reconhecimento começará a partir do número especificado até que a página seja encontrada. Se essa âncora não existir, apenas a página especificada será reconhecida. É possível especificar uma string com números de páginas separados por vírgula. Também é suportada a especificação de intervalo por meio de hífen. Por exemplo: "1, 4-7". |
| Substituir módulo | [Texto] Permite substituir o módulo especificado no modelo pelo especificado no bloco durante o reconhecimento. Valores possíveis:
|
| Substituir escala | [Número] Define uma nova escala durante o reconhecimento pelo modelo. Se o valor não for especificado, a escala das configurações do modelo será usada; caso contrário, a escala especificada nesta propriedade será aplicada. |
| Substituir idioma de reconhecimento | [Texto] Permite substituir o idioma especificado no modelo pelo especificado no bloco durante o reconhecimento. |
| Substituir tamanho da célula horizontalmente | [Número] Define um novo tamanho da célula horizontalmente durante o reconhecimento pelo modelo. Se o valor não for especificado, o tamanho da célula das configurações do modelo será usado; caso contrário, o tamanho especificado nesta propriedade será aplicado. |
| Substituir tamanho da célula verticalmente | [Número] Define um novo tamanho da célula verticalmente durante o reconhecimento pelo modelo. Se o valor não for especificado, o tamanho da célula das configurações do modelo será usado; caso contrário, o tamanho especificado nesta propriedade será aplicado. |
| Adicionar percentual de "confiança" nas tabelas | Ao ativar esta opção, em cada célula da tabela será gravado não apenas o texto, mas um objeto CellData. A partir do objeto, será possível extrair o texto usando a propriedade Text, assim como o percentual de "confiança" usando a propriedade Confidence. |
| Ignorar erros de âncoras | Se âncoras (quaisquer) não forem encontradas, nenhum erro será gerado. Nesse caso, a área da âncora é considerada nula. |
| Processar todas as páginas | Ao ativar a opção, todas as páginas do documento serão processadas. Este modo não verifica a âncora LastPage. |
| Atributos | [Dicionário] Dicionário com os atributos do documento. Por exemplo: "Número do documento", "CNPJ do fornecedor" e outros. No dicionário é adicionado o parâmetro CountPage, que corresponde ao número de páginas envolvidas no reconhecimento pelo modelo. |
| Tabelas | [Lista de Tabelas de Dados] Retorna uma lista de tabelas de dados. A lista é formada a partir dos dados do modelo. |
| Áreas de âncoras | [Dicionário] Dicionário com as âncoras encontradas. A chave do dicionário é o ID da âncora, e o valor é um retângulo que indica sua posição na página. O DPI da página é considerado como 300. |
| Dados dos atributos | [Dicionário] Dicionário com os atributos encontrados. A chave do dicionário é o nome do atributo, e o valor é um objeto com os dados dos atributos. O objeto contém um retângulo que indica a posição do atributo na página. O DPI da página é considerado como 300. O objeto também contém o valor Confidence, que indica a "Confiança" no reconhecimento. Disponível para Tesseract e YandexVision e varia de 0 a 100. |
| Índice do modelo | [Número] Índice do modelo reconhecido. Esta propriedade é relevante se na propriedade "Caminho do arquivo modelo" for especificada uma lista. A numeração começa em zero. |
| Nível de processamento | Seleção do nível de tratamento de erros. Valores possíveis:
Se o valor "Default" for escolhido, será utilizado o valor do bloco "Início" deste diagrama. |
| Nível de mensagens | Seleção do nível de mensagens que os blocos exibirão durante a operação. Valores possíveis:
Se o valor "Default" for escolhido, será utilizado o valor do bloco "Início" deste diagrama. |
| Texto do erro | [Texto] Retorna informações detalhadas sobre o erro em caso de execução incorreta do bloco. |