Информационный анализатор текстов и литературных произведений – программа «Pen-Mastery»

1.

ХХ Белорусская конференция учащихся (2016)
(Минск, Беларусь)
Секция «Информатика»
Информационный анализатор
текстов и
литературных произведений –
программа «Pen-Mastery»
Авторы работы:
Близинская Елизавета (9 кл.),
Орешко Ольга (11 кл.),
Одесский УВК №49
«Специализированная школа
– общеобразовательная
школа І-ІІІ ступеней» г.
Одесса, Украина

2.

Вступление
• В Интернет-пространстве при желании
можно найти практически любую
информацию и в любой форме.
• Но чаще всего информация подается в виде
текстов, что обусловлено историей развития
человечества.
• И пока «печатное слово» для большинства
населения Земли является самым
привычным способом подачи и восприятия
информации.

3.

• Но человеческое сознание меняется
медленно. И при самых новейших
технологиях остаются некоторые «старые»
проблемы, среди которых можно назвать
плагиат и бессмысленные тексты.
• Конечно, проблема плагиата и плагиаторов
далеко не нова. Но для этого человеческого
недуга появляется и своего рода противоядие
– компьютерные программы, способные
анализировать текст.
• И в связи с этим актуальной является задача
создания универсального анализатора
текста.

4.

На данный момент существуют такие лингвистические системы:
AskNet
Реализует поиск по ключевым словам с
учетом морфологии для основных языков
(русского, английского и др.).
Уровни лингвистического анализа:
графематический, морфологический.
Galaktika-ZOOM
Программа позволяет выявлять значимые
слова и словосочетания документа,
проводить поиск документов по вводимым
пользователем ключевым словам с учетом их
синонимов, а также формировать отчеты
по частоте встречаемости слов в
документах.
Ontos
Программные продукты предназначены для
анализа текстовых документов,
составления аннотаций, обработки данных
Кластеризующие поисковые
системы
Метапоисковые системы с кластеризацией
результатов поиска обеспечивают
возможность выделения слов, часто
встречающихся совместно со словами
поискового запроса. Однако использование
только кластерного анализа не дает
существенных преимуществ метапоисковым
системам данного типа.

5.

Цель работы:
Объект
исследования:
Разработка авторской программы –
универсального анализатора
машиночитаемых текстов
Процесс анализа оцифрованных
текстов и определения ряда
ключевых и некоторых
дополнительных характеристик
исследуемого текста
Предмет
исследования:
Средства анализа текстов и
интерпретация
полученных результатов
после вычислений

6.

При выполнении работы решались такие задачи:

7.

При составлении данной программы были
сформулированы следующие рабочие гипотезы :
Гипотеза № 1
Известно, что разнообразие (или богатство) речи
определяется тем, сколько языковых единиц (т.е. слов и
фразеологизмов) находится в словарном запасе
говорящего, и чем разнообразнее речь, тем больше в ней
содержится информации, больше личных оценок,
авторского отношения к предмету речи.
Отсюда предположение автора о том, что
информационная энтропия текста однозначно связана с
лексическим разнообразием (иначе – разнообразием
словарного запаса) говорящего или пишущего человека.

8.

… рабочие гипотезы – 2 :
Гипотеза № 2
Известно, что у сочинителя обязательно
вырабатывается некоторый «авторский стиль», который
и формирует то, что написано человеком. Этому стилю
сочинителя присущи свои признаки – сигнатуры* письма.
Отсюда предположение автора о том, что можно
оцифровать эти сигнатуры и использовать их для
дальнейшей интерпретации.
* Сигнатура – характерная особенность к.-либо объекта,
обеспечивающая его идентификацию.

9.

Методика исследования анализируемого текста - 1
Не секрет, что субъективные факторы могут
влиять на результаты какой-либо экспертизы.
• Математика способна удалить субъективизм из
любой проблемы или вопроса.
Поэтому для обеспечения по-настоящему научной
экспертной оценки обычно применяют
общие и специальные математические процедуры
для подсчета определенных ключевых и
некоторых дополнительных характеристик
анализируемого текста.
Такими характеристиками с точки зрения
информатики, прикладной лингвистики и ее
новейшего направления – компьютерной
лингвистики – будет несколько математических
величин.

10.

Методика исследования анализируемого текста - 2
Среди этих величин было выбрано три основных :
энтропия текста Н,
математическое ожидание < X > и
стандартное отклонение σ .
В программе они названы главными статистическими
величинами (на пользовательской форме они обозначены как
«main Stat. data»)
Кроме перечисленных основных статистических показателей,
было избрано несколько дополнительных величин (на форме –
«Relat. Frequency of Signes»), которые, по мнению автора
программы, тесно связаны с творческой манерой сочинителя.
Вместе эти показатели и формируют максимально объективные
характеристики авторского стиля исследуемого текста.

11.

«Как оно работает ?» - 1
Для подсчета названных величин программа «Pen-Mastery»
проводит двухэтапную декомпозицию анализируемого текста:
сначала весь текст раскладывается на слова, а затем эти слова –
на составляющие их символы. После этого программа производит
частотно-статистический анализ этих символов как разъединенных
элементов текста.
Для подсчета текстовой энтропии Н обычно используют формулу
К.Шеннона, где учитывается вероятность pi появления i-го символа в
исследуемом тексте:
.
H pi log 2 pi
i
Математическое ожидание < X > имеет смысл «накопительного
коэффициента
использования определенных символов в тексте», а также одной из объективных
«чувствительной-к-личности» характеристик анализируемого текста. А т.к.
математическое ожидание в статистике всегда сопровождается стандартным
отклонением σ, и пара этих величин записывается в виде:
X

12.

«Как оно работает ?» - 2
Теперь можно считать набор приведенных математических
характеристик достаточно информативным и объективным
признаком авторского стиля сочинителя текста.
Возможно, перечисленный выше набор характеристик не будет достаточным для полноценной экспертной оценки относительно авторства
Это может быть
некоторые клавиатурные символы, которые можно
считать присущими для письменного творчества какой-то
определенной личности наподобие отпечатков ее
пальцев.
какого-то текста, и решение этого вопроса нуждается в дополнительных уточнениях.
Таким образом, частотные коэффициенты употребления некоторых специфических символов могут также быть важными идентификаторами
при определении авторского стиля человека.

13.

Программная реализация предложенной методики
Поскольку VBA уже много лет является отраслевым стандартом для управления
приложениями MS Office под Windows, то, естественно, реализовать предложенную
методику и алгоритмы было решено в этой среде программирования.
Программа «Pen-Mastery» анализирует заданный текст по данной логической схеме:
Размещение
анализируемого
текста в Word-файле
с определенным
именем и адресом
Возможность
задействовать
дополнительные
программные
модули для
дальнейшего
анализа текста и
более детальная
обработка его
содержимого
Запуск Excel-мастерфайла, который
содержит
необходимые макросы
и созданную UserForm,
при помощи которого
выполняется анализ
текста и необходимые
вычисления
Запуск главного
макроса через
UserForm для
осуществления
необходимого
первичного анализа
заданного текста и
вычисления его
статистических
характеристик
Запуск программы
через UserForm,
поиск и считывание
необходимого Wordфайла, копирование
его содержимого
(текста) в открытый
Excel-мастер-файл
Вывод полученной
после расчетов
информации на
UserForm

14.

Анализ текста в «Pen-Mastery v.1» : шаг за шагом
Приступая к работе с программой, пользователь должен
разместить анализируемый текст в «строго определенный Wordфайл» (т.е. в .doc- или .docx-файл с определенным названием и с
определенным размещением на выбранном носителе), после чего
необходимо запустить на исполнение базовый макрос
(размещенный в Excel-мастер-файле), который вызовет на
дисплей пользовательскую форму (UserForm). Эта форма
предложит зарегистрировать подлежащий исследованию текст.

15.

Анализ текста в «Pen-Mastery v.1» : шаг 1
Сама регистрация подлежащего анализу текста происходит в два этапа.
Сначала «записывается» автор текста:

16.

Анализ текста в «Pen-Mastery v.1» : шаг 2
Затем – название текста:

17.

Анализ текста в «Pen-Mastery v.1» : шаг 2
Программа «следит» за ошибками человека: если не было внесено
ни одной регистрационной записи – идентификатора автора и
текста, то на дисплей выводится сообщение об этом с
соответствующим напоминанием

18.

Анализ текста в «Pen-Mastery v.1» : шаг 3
После успешного завершения процедуры регистрации
анализируемого текста программа выдает сообщение об этом.
Теперь наступает фаза математического анализа текста. Кнопка
«ANALYSING» запускает соответствующий модуль
на исполнение.

19.

Анализ текста в «Pen-Mastery v.1» : шаг 4
После выполнения инструкций базового модуля на форме
появляется сообщение об окончании анализа текста.
Теперь пользователю доступны результаты исследования.

20.

Анализ текста в «Pen-Mastery v.1» : шаг 5
Полнота выводимых на дисплей статистических характеристик
исследуемого текста регулируется переключателем режимов:
либо «main Stat. data», либо «Relat. Frequency of Signes».
Вывод
основных
данных:

21.

Анализ текста в «Pen-Mastery v.1» : шаг 6
Вывод
дополнитель
ных данных:

22.

Выводы
Программа-анализатор «Pen-Mastery» задумана и сделана как модульный
конструктор, который функционирует по принципу наращивания
возможностей. Такая структура, безусловно, является преимуществом
программы.
Ценность проведенной работы состоит в том, что составлена многоцелевая
модульная программа – анализатор текста, определяющая набор числовых
характеристик, которые с высокой степенью достоверности позволяют
судить об авторском стиле исследуемого текста. Полученной объективной
информации, как правило, достаточно, чтобы с определенной
погрешностью установить степень плагиата анализируемого текста. Кроме
того, представленная программа способна установить, есть ли в данном
тексте заранее определенное слово или словосочетание.
При помощи программы «Pen-Mastery» был проанализирован согласно
описанной методике ряд произведений русской литературы (авторы:
А.С.Пушкин, Н.В.Гоголь, И.А.Бунин). Таким образом сформированная к
настоящему времени БД позволяет подтвердить гипотезы автора.
Развивая данную программу, можно сделать ее кросс-платформенной.
Кроме этого, можно предложить пользователям версии данной программы
на разных языках.

23.

Применение
Алгоритмы анализа машиночитаемых текстов
программы «Pen-Mastery» позволяют ее успешно
применять как для специалистов, так и для
заинтересованных пользователей:
o
o
o
o
при ведении борьбы с плагиатом машиночитаемых текстов;
при определении авторства известных и новых литературных произведений (например, при
идентификации современных и старых артефактов);
при оценке разнообразия словарного запаса человека (на основе его письменных работ);
при рецензировании сообщений во время их набора («на лету») в социальных сетях и SMS.

24.

Спасибо за
внимание !
Настоящая работы выполнена в рамках Регионального
образовательного проекта “IT docentes FUTURUM”
(ITDF), инициатором которого является
Одесская национальная академия связи им. А.С.
Попова (ОНАС)
See us at :
www.facebook.com/ITDF.ua

25.

Региональный образовательный проект
“IT docentes FUTURUM” (ITDF)
See us at :
www.facebook.com/ITDF.ua
English     Русский Правила