Kofax. Настраиваемые (обучаемые) локаторы для счет-фактуры. Извлечение по форматам и ключевым словам

1.

Первый проект– Извлечение по форматам и
ключевым словам

2.

Первый проект– Извлечение по форматам и ключевым
словам
Мы создали основной класс, называемый счетами и некоторыми
подклассами
Счета-фактуры могут быть отправлены несколькими тысячами
поставщиков, и, возможно, вы не хотите иметь подкласс и локатор
Advanced Zone Locator для каждого из этих счетов-фактур ...
Предположим, что мы хотим настроить проект более общим
образом и извлечь значения для всех этих документов таким же
образом
Помните, что мы не можем получить идеальные результаты
Module 8 - Format Locators
2

3.

Первый проект– Извлечение по форматам и ключевым
словам
Чтобы выполнить извлечение более «общим» способом (во
многих разных формах), вам необходимо знать:
Какие значения вы хотите извлечь?
Какие ключевые слова необходимы?
Существует ли связь между значениями?
Вы уже знаете значения? (Можете ли вы использовать базу
данных?)
Мы сделали несколько заметок ранее ...
Давайте рассмотрим наши текущие знания документов
Module 8 - Format Locators
3

4.

Первый проект– Извлечение по форматам и ключевым
словам
Invoice Number
всегда содержит
9 цифр
PONumber всегда
содержит 8 цифр
Ключевое слово
Invoice Number
Ключевое слово:
Purchase Order
Invoice Date
всегда в
формате:
MM/DD/YY
Общая сумма
всегда в
формате US
Ключевое слвоо:
Invoice Date
Ключевое слово:
Invoice Total
Module 8 - Format Locators
4

5.

Первый проект– Извлечение по форматам и ключевым
словам
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
Notes:
Module 8 - Format Locators
5

6.

Первый проект– Извлечение по форматам и ключевым
словам
Invoice
Numberвсегда 9
цифр
PONumber
иногда пустое, 6,
8 or 12 цифр или
типа A5561I
Ключевое
словоFreight Bill
Number
Ключевое слово
P.O. NUMBER
Invoice Date
всегда в
формате
MM/DD/YY
Общая сумма
всегда в
формате US
Ключевое слово:
Date
Ключевое слово:
Please pay this
amount
Module 8 - Format Locators
Можно найти под
invoice number
6

7.

Первый проект– Извлечение по форматам и ключевым
словам
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
\d{9}
Freight Bill
Number
US DATE
Date
\d{6} \d{8}
\d{12} A\d{4}I
P.O. Number
US Amount
Please pay
this amount
Notes:
Fedex:
Poor Keyword for Invoice Date, but it is below Invoice number.
Keywords ORIGIN and DEST are always below Invoice Date.
PO Number can be empty
Module 8 - Format Locators
7

8.

Первый проект– Извлечение по форматам и ключевым
словам
Invoice Number is
always
6 digits
and 2 chars
Invoice Date is
always
MM/DD/YY
Keyword is
Invoice Number
Keyword is
Invoice Date
PONumber is 8
digits
Total amount
is always in
US Format
Keyword is
Customer PO NO
Keyword is
AMOUNT
DUE
Module 8 - Format Locators
8

9.

Первый проект– Извлечение по форматам и ключевым
словам
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
\d{9}
Freight Bill
Number
US DATE
Date
\d{6} \d{8}
\d{12} A\d{4}I
P.O. Number
US Amount
Please pay
this amount
\d{6}[A-Z]{2}
Invoice NO
US DATE
Invoice Date
\d{8}
Customer PO
NO
US Amount
Amount Due
Notes:
Fedex:
Poor Keyword for Invoice Date, but it is below Invoice number
PO Number can be empty
Oki:
Poor Keyword for Total Amount, because it has white text on a black background
Total Amount is always below Sales Taxes
Module 8 - Format Locators
9

10.

Первый проект– Извлечение по форматам и ключевым
словам
Основываясь на этих знаниях, мы можем создать некоторые
«общие» локаторы для нашего проекта
Поскольку это общие знания, мы хотим создать их,
привязанные к базовому классу «Счета-фактуры»
Каждый подкласс ниже Invoices наследует локаторы и поля из
этого базового класса
Иногда базовые классы называются родительскими классами
Иногда подклассы называются дочерними классами
Module 8 - Format Locators
10

11.

Первый проект– Извлечение по форматам и ключевым
словам
1) Добавьте новый локатор
в свою систему и назовите
FL_InvoiceNumber
Module 8 - Format Locators
11

12.

Первый проект– Извлечение по форматам и ключевым
словам
3) Клик на свойства
локатора
2) Используйте Format
Locator как Locator Method
Module 8 - Format Locators
12

13.

Первый проект– Извлечение по форматам и ключевым
словам
4) Добавьте к нему новое
регулярное выражение
Module 8 - Format Locators
13

14.

Первый проект– Извлечение по форматам и ключевым
словам
5) Переключиться на
Evaluation Settings
4) Введите регулярное
выражение
Module 8 - Format Locators
14

15.

Первый проект– Извлечение по форматам и ключевым
словам
6) Введите ключевое слово
8) Добавьте в список
7) Выберете “Match all words as a
phrase” если у вас есть пробел между
вашими ключевыми словами, и если
вы ожидаете, что они будут одной
строкой
Module 8 - Format Locators
15

16.

Первый проект– Извлечение по форматам и ключевым
словам
Список ключевых
слов:
9) Введите второе ключевое
Включите ключевые
для теста при
необходимости
Просто кликните
10) Добавьте в список
Module 8 - Format Locators
16

17.

Первый проект– Извлечение по форматам и ключевым
словам
Теперь все
ключевые в
списке
Module 8 - Format Locators
11) Проверьте свои
настройки на документе,
который выбран в
тестовых документах
17

18.

Первый проект– Извлечение по форматам и ключевым
словам
Результаты теста
в просмотрщике
Результаты теста
в свойствах
локатора
12) Выберите другой
документ из тестового
набора и повторите
попытку
Module 8 - Format Locators
18

19.

Первый проект– Извлечение по форматам и ключевым
словам
Слишком много результатов с
высокой степенью
уверенности в документах Dell
Давайте посмотрим ближе
Module 8 - Format Locators
19

20.

Первый проект– Извлечение по форматам и ключевым
словам
Первый результат
исходит со страницы 2,
и это номер накладной
Module 8 - Format Locators
20

21.

Первый проект– Извлечение по форматам и ключевым
словам
Второй результат
исходит со страницы 1,
и номер счета-фактуры
Module 8 - Format Locators
21

22.

Первый проект– Извлечение по форматам и ключевым
словам
Третий результат исходит со
страницы 1, и это еще раз
накладная. УВЕДОМЛЕНИЕ:
ЗЕЛЕНЫЕ ОСНОВНЫЕ
ПОКАЗАТЕЛИ ВСЕГДА
ВЫБРАННЫЕ РЕЗУЛЬТАТЫ
Module 8 - Format Locators
22

23.

Первый проект– Извлечение по форматам и ключевым
словам
Отношение
ключевого
Third result comes from page
1
слова сейчас важно.
and it is waybill number again
Ключевое “Invoice Number”
NOTICE: GREEN HIGHLIGHTS
на Западе (W) от цели.
ARE ALWAYS SELECTED
Отмените выбор NW и N и
RESULTS
нажмите «Изменить».
Module 8 - Format Locators
23

24.

Первый проект– Извлечение по форматам и ключевым
словам
Third result comes from page 1
and it is waybill number again
NOTICE: GREEN HIGHLIGHTS
Связь только западная (W)
ARE ALWAYS SELECTED
RESULTS
Если вы проверите его
снова, вы увидите ...
Module 8 - Format Locators
24

25.

Первый проект– Извлечение по форматам и ключевым
словам
У вас есть только один
результат с высокой
степенью уверенности/
Отлично!
Module 8 - Format Locators
25

26.

Первый проект– Извлечение по форматам и ключевым
словам
Назначьте свое поле
локатору
1) Дважды щелкните
по полям ниже Счетафактуры
Module 8 - Format Locators
2) Выберите графу
“Field populated by”
to FL_InvoiceNumber
26

27.

Первый проект– Извлечение по форматам и ключевым
словам
3) Контролируйте
новые настройки
извлечения
Module 8 - Format Locators
27

28.

Первый проект– Извлечение по форматам и ключевым
словам
Значительное
улучшение
Module 8 - Format Locators
28

29.

Первый проект– Извлечение по форматам и ключевым
словам
Настройки для FL_InvoiceDate:
Используйте одно
или несколько
предопределенных
регулярных
выражений
Используйте
ключевые слова
Module 8 - Format Locators
29

30.

Первый проект– Извлечение по форматам и ключевым
словам
Настройки для FL_OrderNumber:
Основываясь на
ваших
документах
Используйте
ключевые слова
Module 8 - Format Locators
30

31.

Первый проект– Извлечение по форматам и ключевым
словам
Настройки для FL_OrderNumber:
Предопределенные регулярные
выражения для доступных сумм
Используйте
ключевые слова
Module 8 - Format Locators
31

32.

Первый проект– Извлечение по форматам и ключевым
словам
Дважды щелкните
по полям ниже
Счета-фактуры
класса
Свяжите все свои
поля с локаторами
Module 8 - Format Locators
32

33.

Первый проект– Извлечение по форматам и ключевым
словам
Запустите extraction
benchmark еще раз
Прекрасный результат
Но это недостаточно
хорошо
Module 8 - Format Locators
33

34.

Первый проект– Извлечение по форматам и ключевым
словам
Задание
Добавить локаторы формата в класс Invoices
Свяжите свои новые локаторы с полями
Отвяжите поля из AZL в классе Oki (Установите его
обратно в унаследованное)
Запустить extraction benchmark
Просмотрите свои результаты
Module 8 - Format Locators
34

35.

Первый проект - Усовершенствования
Всегда улучшайте свой проект
Всегда следите за своим оператором
35 Module 8 - Format Locators

36.

Первый проект - Усовершенствования
Первый проект имеет хорошие показатели распознавания, но
есть еще место для дальнейшего совершенствования
Если вы хотите оптимизировать извлечение, хороший способ
- сначала проверить тест извлечения.
Еще один способ получить дополнительные знания -
проверить многие документы и сделать несколько заметок
Давайте подробнее рассмотрим эталонный тест извлечения
Module 8 - Format Locators
36

37.

Первый проект - Усовершенствования
Зеленый знак на
валидации означает,
что значение
правильное.
.
Зеленые поля
корректные (будут
пропущены на
валидации)
Module 8 - Format Locators
37

38.

Первый проект - Усовершенствования
Восклицательный
знак
Значение поля пустое
Желтые поля - это
неправильные поля
(они не соответствуют
значению в наборе
ссылок).
Кто-то должен ввести
значение поля
НО они отображаются в
валидации, и кто-то
должен подтвердить
свои значения.
Module 8 - Format Locators
38

39.

Первый проект - Усовершенствования
Зеленый значок
спереди
Значение
некорректно
Красные поля это поля
которые неверны,
И никто не будет их
рассматривать, потому
что KTM уверен, что их
значение правильное.
Module 8 - Format Locators
39

40.

Первый проект - Усовершенствования
Синие поля - это
поля, которые
являются
правильными,
Красный
восклицательный
знак Значение
неверное
НО кто-то должен их
подтвердить.
Module 8 - Format Locators
40

41.

Первый проект - Усовершенствования
Сохраните результаты,
прежде чем пытаться
улучшить свой проект ...
Module 8 - Format Locators
41

42.

Первый проект - Усовершенствования
.. потому что позже
вы можете сравнить
свои тесты
Module 8 - Format Locators
42

43.

Первый проект - Усовершенствования
Почему поле зеленое или красное?
Во-первых проверьте уверенность извлечения
Во-вторых проверьте расстояние между первым и вторым
результатом
В-третьих проверьте форматирование
В-четвертых проверьте правило валидации
Что такое правило валидации?
Обсудим позже
Module 8 - Format Locators
43

44.

Первый проект - Усовершенствования
Третья
проверка
Форматтер
Первая
проверка
Вторая
проверка
Порог
валидации
Module 8 - Format Locators
Расстояние
между двумя
результатами
44

45.

Первый проект - Усовершенствования
Четвертая
проверка
Правила
валидации,
связанные с
полями
Module 8 - Format Locators
45

46.

Первый проект - Усовершенствования
Номер заказа:
Поскольку у нас нет форматов или
правил валидации, применяемых
к порядковому номеру, состояние
поля красное или зеленое на
основе уверенности.
Module 8 - Format Locators
46

47.

Первый проект - Усовершенствования
Проверьте свой локатор
FL_OrderNumber
Вы увидите два результата с
доверием 83,33%
First project – Improvements
Протестируйте его в средстве просмотра
документов
Вы увидите два ключевых слова,
выделенных оранжевым цветом, и значения
рядом с ним
Module 8 - Format Locators
47

48.

Первый проект - Усовершенствования
PO NO клиента был
найден нечетким
поиском
First project – Improvements
Система получает
номер клиента, это
83,33% вашего
ключевого слова
Клиент PO NO
Module 8 - Format Locators
48

49.

Первый проект - Усовершенствования
Customer PO NO клиента
был найден нечетким
поиском
Система получает NO
клиента, это 83.33% всего
ключевого слова
First project – Improvements
Module 8 - Format Locators
49

50.

Первый проект - Усовершенствования
Минимальное
расстояние - 10%
В нашем случае
расстояние
составляет 83.33 83.33 = 0%
Состояние поля
становится красным
Module 8 - Format Locators
50

51.

Первый проект - Усовершенствования
Давайте начнем c легкого. У нас есть
много синих документов для счетовфактур Dell.Есть возможность для
улучшения.Дважды щелкните по первому
Dell, чтобы открыть средство просмотра
документов и закрыть Эталонный тест
извлечения
Module 8 - Format Locators
51

52.

Первый проект - Усовершенствования
Двойной клик на
локатор
FL_OrderNumber
Тестируем
Module 8 - Format Locators
52

53.

Первый проект - Усовершенствования
Вторая альтернатива
имеет ключевые
слова к северо-западу
от ее местоположения
Альтернатива 1 правильный номер
счета-фактуры
Module 8 - Format Locators
53

54.

Первый проект - Усовершенствования
Просмотрите настройки
ключевых слов
Только отношение W, не
используйте W, N, NW
(настройка по умолчанию)
Module 8 - Format Locators
54

55.

Первый проект - Усовершенствования
Новый тест показывает, что только
PONumber получает уверенность в 100%.
Поскольку номер заказа печатается
дважды в документе, вы видите первые
два результата с одинаковым значением
Module 8 - Format Locators
55

56.

Первый проект - Усовершенствования
Запускаем эталонный тест
извлечения
Номер заказа на поставку для
Dell оптимизирован!
Прокрутите вниз, чтобы найти
следующие проблемы, не
беспокойтесь о
незначительных вещах в
первом запуске
Module 8 - Format Locators
56

57.

Первый проект - Усовершенствования
Дата счета на классе
Fedex всегда синяя
Module 8 - Format Locators
57
1.
Двойной клик по
первому документу
(Откроется Document
viewer)
2.
Сохраните эталонный
тест извлечения
3.
Закройте эталонный
тест извлечения
4.
Двойной клик
поFL_InvoiceDate
(откроются свойства
локтора)
5.
Тестируйте

58.

Первый проект - Усовершенствования
Уверенность в альтернативе
слишком низкая
Давайте снова проверять
ключевые слова
Module 8 - Format Locators
58

59.

Первый проект - Усовершенствования
Ключевое слово DEST и
ORIGIN был установлен на
юго-восток и юго-запад.
Отношение OCR (xdoc) не
всегда совпадает с тем,
что вы видите на экране
Добавьте Юг для обоих и
снова проверьте его.
Module 8 - Format Locators
59

60.

Первый проект - Усовершенствования
Идеально!
Module 8 - Format Locators
60

61.

Первый проект - Усовершенствования
Запускаем эталонный тест
извлечения
Посмотрите на
сводку результатов
тестирования:
88.72 %
являются
правильными и
пропущены!
Module 8 - Format Locators
61

62.

Первый проект - Усовершенствования
В некоторых документах нет
номера заказа (и это
правильно).
НО ни один номер заказа не
означает уверенности,
поэтому он останется
красным, пока не будет
использовано правило
проверки.
Module 8 - Format Locators
62

63.

Первый проект - Усовершенствования
Снова обработайте документы
(щелкните по стрелке рядом с
«Обработка и обработка всей
партии»)
Нажмите «Проверить» и попробуйте
проверить все документы.
Проверьте время, необходимое для
этого.
Module 8 - Format Locators
63

64.

Первый проект - Усовершенствования
Если вы подтвердите
значение, система перейдет в
следующее недопустимое
(красное) поле и пропустит
все зеленые поля.
Сначала вам потребовалось более
15 минут
для валидации пакета
Теперь это занимает
2 минуты!
13 минут сохранено!
Module 8 - Format Locators
64
Даже если следующее
недопустимое поле содержит
более 100 документов,
система пропускает все
документы, находящиеся
между ними

65.

Первый проект - Усовершенствования
Задание
Исползайте эталонный тест извлечения для поиска ошибок
Усовершенствуйте локаторы
Перезапустите эталонный тест извлечения
Посмотрите результаты
Module 8 - Format Locators
65

66.

Первый проект - Зеленые и красные
поля (Правила валидации)
Как сделать значения зелеными или красными
автоматически
66 Module 8 - Format Locators

67.

Первый проект - Зеленые и красные поля (Правила
валидации)
Поля могут быть валидными и невалидными
Как уже обсуждалось в улучшенияих
Почему поля зеленые или красные?
Сначала проверьте уверенность в извлечении
Во вторых проверьте расстояние между первым и
вторым результатом
В третьих проверьте форматирование
В четвертых проверьте правило валидации
Что такое правило валидации?
Давайте обсудим…
Module 8 - Format Locators
67

68.

Первый проект - Зеленые и красные поля (Правила
валидации)
Метод валидации это настройка проекта и может быть
использована
из локатора для поиска значения (об этом мы поговорим в
более позднем модуле)
также он может быть связан с полем, чтобы изменить
состояние поля на красный или зеленый.
Это назвается ПРАВИЛО ВАЛИДАЦИИ
Использовать существующие знания для ваших методов ВА
валидации
Доступными способами являются: Стандартное, Дата,
Регулярное выражение, Проверка на одно поле и
многопользовательский скрипт и проверка счетов
Module 8 - Format Locators
68

69.

Первый проект - Зеленые и красные поля (Правила
валидации)
Invoice
Number
Keyword
Invoice Date
Keyword
PONumber
Keyword
Total
amount
Keyword
\d{9}
Invoice
Number
US DATE
Invoice Date
\d{8}
Purchase
Order
US Amount
Invoice Total
\d{9}
Freight Bill
Number
US DATE
Date
\d{6} \d{8}
\d{12} A\d{4}I
P.O. Number
US Amount
Please pay
this amount
\d{6}[A-Z]{2}
Invoice NO
US DATE
Invoice Date
\d{8}
Customer PO
NO
US Amount
Amount Due
Knowledge
Notes:
Fedex:
Poor Keyword for Invoice Date, but it is below Invoice number
PO Number can be empty
Oki:
Poor Keyword for Total Amount, because it has white text on black background
Total Amount is always below Sales Taxes
Module 8 - Format Locators
69

70.

Первый проект - Зеленые и красные поля (Правила
валидации)
2) Изменить на валидацию
1) Нажмите на Project setting
(часть ленты в Project Tab)
3) Добавить новый метод
валидации
Module 8 - Format Locators
70

71.

Первый проект - Зеленые и красные поля (Правила
валидации)
4) Назвать
5) Выберите регулярное
выражение для номеров
счетов Current knowledge
is like \d{9}
Module 8 - Format Locators
71

72.

Первый проект - Зеленые и красные поля (Правила
валидации)
6) Добавьте свое
регулярное выражение
(аналогично локатору
формата)
Список всех
добавленных
форматов
Проверьте
регулярные
выржаения
Module 8 - Format Locators
72

73.

Первый проект - Зеленые и красные поля (Правила
валидации)
7) Создайте другой Метод Валидации
для дат счет фактуры
8) Выбраь Date Validation для дат
счет-фактуры
Module 8 - Format Locators
73

74.

Первый проект - Зеленые и красные поля (Правила
валидации)
9) Используйте
DefaultDateFormater
10) Значение даты счета может быть старой, но не в будущем
• Снимите first option (Выберите period before ref
date)
• Check second (Check for period after ref date)
• Снимите «allow empty fields»
Module 8 - Format Locators
74

75.

Первый проект - Зеленые и красные поля (Правила
валидации)
11) Создать метод валидации для
номеров заказов
12) Добавьте регулярные
выражения
Отметьте флажки пустыми
полями, потому что у нас
есть документы без
PONumber
Module 8 - Format Locators
75

76.

Первый проект - Зеленые и красные поля (Правила
валидации)
ф
Все методы валидации созданы
Давайте привяжем их к полям
Module 8 - Format Locators
76

77.

Первый проект - Зеленые и красные поля (Правила
валидации)
1) Щелкните правой кнопкой мыши на Правилах
валидации (ниже счетов-фактур класса)
2) Добавить правило проверки отдельного поля
3) Назовите его InvoiceNumber
Module 8 - Format Locators
77

78.

Первый проект - Зеленые и красные поля (Правила
валидации)
4) Выберите поле
InvoiceNumber
5) Добавьте метод валидации
6) Добавьте метод
InvoiceNumber
Module 8 - Format Locators
78

79.

Первый проект - Зеленые и красные поля (Правила
валидации)
Создайте новое правило для
invoice date
Module 8 - Format Locators
79

80.

Первый проект - Зеленые и красные поля (Правила
валидации)
И последняя для OrderNumber
Выберите “Validation rule makes
uncertain results valid”
Это полезно для пустых
номеров номеров: даже если
поле пустое, наше правило будет
отображать значения зеленым
цветом
Module 8 - Format Locators
80

81.

Первый проект - Зеленые и красные поля (Правила
валидации)
Запустите эталонный тест
извлечения
Правило валидации Order Number
делает пустые поля
действительными для номеров
заказов . Никто не должен
проверять пустые поля
Сохраните и сравните
Module 8 - Format Locators
81

82.

Первый проект - Зеленые и красные поля (Правила
валидации)
Module 8 - Format Locators
82

83.

Демонстрация и задание
Module 8 - Format Locators
83

84.

First project – Green & red fields (Validation Rules)
Задание
Создайте метод валидации
Создайте правило валидации
(Свяжите поле с методом)
Запустите Эталонный тест извелчения
Просмотрите результаты
Module 8 - Format Locators
84
English     Русский Правила