1.01M

Повышение эффективности технологии извлечения табличной информации из электронных документов формата pdf

1.

Повышение эффективности технологии
извлечения табличной информации из
электронных документов формата pdf
Выполнил:
Студент группы ИТ-401м
Мусик А.К.
Научный руководитель: доц. Попов С.В.

2.

Описание существующего алгоритма разбора информации
и выделения из нее табличных данных
В исследовании «Технология извлечения табличной
информации из электронных документов разных форматов»
А.Е. Хмельнова и А.О. Шигарова описывается процесс
извлечения табличной информации из документов, в котором
присутствуют следующие стадии:
обнаружение таблиц в документах – поиск на страницах
документов областей, которые ограничивают таблицы;
сегментация таблиц на отдельные клетки – разделение
таблицы на отдельные ячейки, строки и столбцы;
функциональный анализ – анализ функций ячеек
(определение роли клетки в таблице);
структурный анализ – определение связей между
ячейками таблицы и зависимостей между клетками;
интерпретация – преобразование табличной информации к
требуемому виду.

3.

Технология извлечения табличной информации из
электронных документов

4.

Технология извлечения табличной информации из электронных
документов
Вначале определяется модель страницы документа, которая разбивается на
линейки или линии разграфки, текстовые элементы, текстовые блоки, строки,
табличные регионы и табличные области.
Затем проводится поиск пустых мест на странице.
Текстовые элементы и линейки записываются в метафайлы, после чего по каждой
странице формируются записи метафайлов, в процессе которой из текста
исключаются элементы текстовой разграфки.
Процессом обнаружения таблиц является процедура поиска табличных областей –
ограничивающих прямоугольников таблиц. Происходит объединение текстовых
элементов одной строки в текстовые блоки.
С помощью шрифтовых метрик двух текстовых элементов определяется,
насколько близко они расположены относительно друг друга.
Ограничивающие прямоугольники текстовых блоков вычисляются по вложенным
в них текстовым элементам.
Затем происходит группировка текстовых блоков в строки.

5.

Технология обнаружения таблиц

6.

Результаты работы и тестирование программного продукта
Интерфейс разработанной программы

7.

Демонстрация примера извлечения данных из перечня
электронной компонентной базы

8.

9.

10.

Выводы
В процессе выполнения работы проведено сравнение
технологий извлечения табличной информации из электронных
документов формата pdf.
и разработано приложение для извлечения табличной
информации из электронных документов формата pdf.
Разработанное приложение выполняет извлечение таблиц,
содержащихся в документах одного формата, переносит
извлекаемые данные в документы другого формата. Благодаря
разработанной методике извлечения табличной информации,
из документов удаляется лишняя информация для более
удобной работы с содержимым документов.
English     Русский Правила