6.08M
Категория: ИнформатикаИнформатика

Основы работы с большими данными (Data Science)

1.

Основы работы с большими
данными (Data Science)
Виды знаний и способы их представления
ИС – 1
2023 год

2.

Знания в информатике
вид информации, отражающей знания, опыт и
восприятие человека - специалиста (эксперта) в
определенной предметной области
множество всех текущих ситуаций в объектах
данного типа и способы перехода от одного
описания объекта к другому
зафиксированная и проверенная практикой
обработанная информация, которая
использовалась и может многократно
использоваться для принятия решений
2
12.10.2023

3.

Знания
Формализованная и структурированная
информация, используемая в процессе решения
задачи.
Знания могут быть получены на основе
обработки эмпирических данных. Они
представляют собой результат мыслительной
деятельности человека, направленной на
обобщение его опыта, полученного в результате
практической деятельности.
3
12.10.2023

4.

4
12.10.2023

5.

Инженерия знаний
Теоретическими и практическими вопросами
представления и обработки знаний в компьютерных
системах активно занимаются исследователи,
работающие в области инженерии знаний.
1977 г. Э. Фейгенбаум писал: «По опыту нам известно,
что большая часть знаний в конкретной предметной
области остается личной собственностью эксперта. И
это происходит не потому, что он не хочет разглашать
своих секретов, а потому, что он не в состоянии сделать
этого — ведь эксперт знает гораздо больше, чем сам
осознает».
Инженерия знаний - направление ИИ, которое связано с
развитием теоретических и прикладных аспектов
приобретения и формализации знаний специалистов, с
проектированием и разработкой баз знаний.
5
12.10.2023

6.

Фактические знания
Основные закономерности предметной области:
Факты
Понятия
Взаимосвязи
Оценки
Правила
Эвристики (индивидуальный опыт)
6
12.10.2023

7.

Процедурные знания описания действий, которые возможны при
манипулировании фактами и явлениями для
достижения намеченных целей.
Как информационно-смысловое понятие, знания могут
быть классифицированы по таким признакам, глубина,
степень определенности, этимология (источник
происхождения)
Способы оперирования или преобразования
фактических данных
7
12.10.2023

8.

Стратегические знания Стратегии принятия решений в предметной
области
Основные закономерности принятия решений в
данной области
8
12.10.2023

9.

По способу приобретения
Факты - указывает на хорошо известные в
данной предметной области обстоятельства.
Эвристики (правила, которые позволяют
сделать выбор при отсутствии точных
теоретических обоснований). Основаны на
собственном опыте эксперта, работающего в
конкретной предметной области, накопленном
в результате многолетней практики.
9
12.10.2023

10.

По типу представления
Факты — это знания
типа «А — это А»,
характерны для баз
данных и сетевых
моделей.
Правила, или
продукции - это
знания типа «ЕСЛИ
А, ТО В».
10
12.10.2023

11.

Метазнания —
знания о знаниях
необходимы для управления
БЗ и для эффективной
организации процедур
логического вывода
народные пословицы и
поговорки, каждая из которых
характеризует знания
(рекомендации по
деятельности) в широком
классе конкретных ситуаций
11
12.10.2023

12.

Глубинные и поверхностные знания
В глубинных знаниях отражается понимание
структуры предметной области, назначение и
взаимосвязь отдельных понятий (глубинные
знания в фундаментальных науках — это законы и
теоретические основания). Глубинные знания
образуются как результат обобщения первичных
понятий в некоторые абстрактные структуры,
которые могут и не иметь вербального описания.
Глубинные знания обладают такими важными
особенностями, как гибкость и аддитивность.
Поверхностные знания - совокупность
эмпирических ассоциаций и отношений между
понятиями предметной области для стандартных
рассуждений и ситуаций
12
12.10.2023

13.

Жесткие и мягкие знания
Жесткие знания позволяют получать
однозначные рекомендации при заданных
начальных условиях.
Мягкие знания допускают множественные,
«размытые» решения и различные варианты
рекомендаций.
13
12.10.2023

14.

14
12.10.2023

15.

И наконец,
Знания о конкретных объектах – экстенсиональные.
Знания о связях между атрибутами в данной предметной
области – интенсиональные.
Понятие экстенсионала был введено австрийским логиком и
философом Р. Карнапом для анализа значения языковых
выражений. Метод интенсионалов и экстенсионалов
представляет собой модификацию и дальнейшую разработку
семантической концепции немецкого математика и логика
Г.Фреге.
Интенсионал (от лат. intensio - внутреннее натяжение,
усиление) - в средневековой логике означал содержание
слова-понятия как совокупность мыслимых признаков
соответствующего ему предмета. Противопоставлялся объему,
т. е. совокупности обозначаемых (называемых) данным
словом-понятием предметов, который назывался
экстенсионалом (от лат. extensio - протяжение, расширение).
15
12.10.2023

16.

Онтология
Знания, сведенные в логически связанную систему
Хорошо организованная база знаний
Попытка всеобъемлющей и подробной
формализации некоторой области знаний с
помощью концептуальной схемы.
16
12.10.2023

17.

База знаний
База знаний (в информатике) — это база
данных, которая содержит информацию о
человеческом опыте и знаниях в некоторой
предметной области.
Базы знаний используются в организациях для
хранения документации, руководств,
технических статей. Главная цель любой базы
знаний — помочь менее опытным людям найти
готовое решение какой-либо проблемы.
База знаний может быть внутренней (только
для сотрудников компании) и внешней (для
клиентов).
17
12.10.2023

18.

База данных и база знаний
База данных — организованная в соответствии с
определёнными правилами и поддерживаемая в
памяти компьютера совокупность данных,
характеризующая актуальное состояние некоторой
предметной области и используемая для
удовлетворения информационных потребностей
пользователей.
База знаний — это особого рода база данных,
разработанная для управления знаниями
(метаданными), то есть сбором, хранением, поиском
и выдачей знаний. Раздел искусственного
интеллекта, изучающий базы знаний и методы
работы со знаниями, называется инженерией
знаний.
18
12.10.2023

19.

Классификация БЗ
всемирного масштаба
национальные
отраслевые
организаций
экспертных систем
специалистов
19
12.10.2023

20.

Отличия баз знаний от баз данных
Базы данных:
могут работать с однородными данными
представляет собой жестко структурированную
модель
данные представлены в виде набора записей
Базы знаний:
могут содержать разнородные и разнотипные
данные
представляют собой открытую модель
знания представлены в виде семантической сети
20
12.10.2023

21.

Свойства онтологии
Обоснованность
Полнота
непротиворечивость
21
12.10.2023

22.

Интеллект
Интеллект - способность подходить к решению
какой-либо задачи с учетом имеющегося опыта.
Принципы работы человеческого интеллекта –
в основе систем баз знаний.
Искусственный интеллект (ИИ) — это одна из
ветвей информатики, связан с компьютерами,
которые стимулируют процесс решения задачи
путем дублирования функций человеческого
мозга.
Машинные знания — это то же, что ИИ.
22
12.10.2023

23.

Свойства интеллекта
способность обучаться;
способность находить аналоги;
способность создавать новые понятия на основе
известных понятий;
эффективность обработки неоднозначных и
противоречивых сообщений;
способность определять относительную важность
различных составных частей задачи;
гибкость подхода к решению задачи;
способность разбиения сложной задачи на составные
части;
способность моделирования воспринимаемого мира;
понимание и способность использования символических
средств.
23
12.10.2023

24.

24
12.10.2023

25.

Требования к моделям знаний
общность (универсальность);
наглядность представления знаний;
однородность;
реализация в модели свойства активности знаний;
открытость;
возможность отражения структурных отношений
объектов предметной области;
наличие механизма «проецирования» знаний на
систему семантических шкал;
возможность оперирования нечеткими знаниями;
использование многоуровневых представлений
(данные, модели, метамодели, метаметамодели и т.д.).
25
12.10.2023

26.

Логические модели
Вся информация, необходимая для решения
прикладных задач, рассматривается как
совокупность фактов и утверждений, которые
представляются как формулы в некоторой логике.
Знания отображаются совокупностью таких
формул, а получение новых знаний сводится к
реализации процедур логического вывода.
Описание в виде формул дает возможность
представить декларативные знания, а правила
вывода — процедурные знания.
Логическая модель знаний строится на базе
предикатов.
26
12.10.2023

27.

Логическая модель
27
12.10.2023

28.

Формальные грамматики
Формальная грамматика или просто
грамматика в теории формальных языков —
способ описания формального языка, то есть
выделения некоторого подмножества из
множества всех слов некоторого конечного
алфавита.
Различают порождающие и распознающие (или
аналитические) грамматики — первые задают
правила, с помощью которых можно построить
любое слово языка, а вторые позволяют по
данному слову определить, входит ли оно в
язык или нет.
28
12.10.2023

29.

Формальные грамматики
29
Рассмотрим алфавит X.
Словом в алфавите X называется последовательность символов алфавита.
Набор допустимых слов составляет лексику языка.
Слова могут объединяться в более сложные конструкции – предложения.
Язык есть множество предложений.
Предложения строятся из слов и более простых предложений по правилам
синтаксиса.
Синтаксис языка представляет собой описание правильных предложений.
Алфавит, лексика и синтаксис полностью определяют набор допустимых
конструкций языка и внутренние взаимоотношения между конструкциями.
Набор правил синтаксиса образует грамматику языка.
Правила синтаксиса могут описывать либо процедуру получения правильных
предложений, либо процедуру распознавания «правильности» предложений
(т. е. их принадлежности данному языку). В первом случае грамматику
называют порождающей, во втором – распознающей.
12.10.2023

30.

Комбинаторные модели
Основаны на рассмотрении дискретных
объектов, конечных множеств и заданном на
них отношении порядка.
Рассматриваются все возможные изменения,
перестановки и сочетания в рамках заданных
множеств.
Они оперируют только дискретными
объектами и конечными множествами,
связанными однородными отношениями.
30
12.10.2023

31.

31
12.10.2023

32.

Алгебраические способы
Подразумевают представление знаний в виде
некоторых алгебраических примитивов, над
которыми определено множество действий.
Для набора знаний представленного в таком
виде действуют правила алгебраических
множеств, такие как аксиоматизация,
определение подсистем и отношений
эквивалентности.
Возможно построение цепей множеств.
32
12.10.2023

33.

Продукционные системы
Модель основанная на правилах, позволяет представить
знание в виде предложений типа: «ЕСЛИ условие, ТО
действие».
Знания – совокупность продукционных единиц: данные
(факты), правила получения продукций (выводов) и
интерпретатор (правила работы с продукциями).
Продукционная модель обладает тем недостатком, что
при накоплении достаточно большого числа (порядка
нескольких сотен) продукций они начинают
противоречить друг другу.
33
12.10.2023

34.

Продукционные системы
Любое продукционное правило, содержащееся в
базе знаний, состоит из двух частей: антецендента и
консеквента.
Антецедент представляет собой посылку правила
(условную часть) и состоит из элементарных
предложений, соединенных логическими связками
«и», «или».
Консеквент (заключение) включает одно или
несколько предложений, которые выражают либо
некоторый факт, либо указание на определенное
действие, подлежащее исполнению.
Продукционные правила принято записывать в
виде антецедент-консеквент.
34
12.10.2023

35.

Сетевые (семантическая сеть)
Граф, отображающий смысл целостного образа.
Узлы графа соответствуют понятиям, фактам, событиям
и объектам, а дуги – отношениям между ними.
Обладает тем недостатком, что однозначного
определения семантической сети в настоящее время
отсутствует.
35
12.10.2023

36.

Сетевые (семантическая сеть)
Различают экстенсиональные и
интенсиональные семантические сети.
Экстенсиональная семантическая сеть
описывает конкретные отношения данной
ситуации.
Интенсиональная — имена классов объектов, а
не индивидуальные имена объектов. Связи в
интенсиональной сети отражают те отношения,
которые всегда присущи объектам данного
класса.
36
12.10.2023

37.

Семантическая сеть «Автомобиль»
37
12.10.2023

38.

Фреймы
Фрейм – структура данных для представления
некоторого концептуального объекта
(стереотипных ситуаций).
Информация, относящаяся к фрейму, содержится в
составляющих его слотах – характеристиках
ситуаций.
Фасет – диапазон или перечень значений слота.
Протофрейм – оболочка, экзофрейм – результат ее
заполнения.
Слоты могут быть терминальными либо являться
сами фреймами, образуя целую иерархическую сеть.
Предметная область описывается с помощью
иерархической системы фреймов (объединены с
помощью родовитых связей).
38
12.10.2023

39.

Фрейм. Пример
39
12.10.2023

40.

Пример сети фреймов
40
12.10.2023

41.

Ленема
Смешенный тип модели, являющийся
«развитием» других моделей.
Линема предназначена для структурного
комплексного описания понятий предметной
области.
По изобразительным возможностям ленемы
более совершенны, чем такие традиционные
модели представления знаний, как
сематическая сеть, фрейм, продукционная
система…
41
12.10.2023

42.

Нейронные сети, генетические
алгоритмы
Генетические алгоритмы и нейронные сети -
это совершенно разные концепции, которые
используются для решения разных задач.
Генетический алгоритм - это эвристический
поиск, основанный на теории естественной
эволюции Дарвина. Это отражает процесс
естественного отбора наиболее подходящего
элемента.
Нейронная сеть состоит из ряда алгоритмов,
которые пытаются определить и
идентифицировать шаблоны.
42
12.10.2023

43.

Генетические алгоритмы
Генетический алгоритм начинается с начальной
совокупности. Из исходной популяции этот
алгоритм создает новую популяцию, используя
этапы отбора, скрещивания и мутации.
Алгоритм принимает начальную совокупность в
качестве входных данных и выбирает функцию
пригодности.
Функция пригодности помогает алгоритму
генерировать оптимальное или почти оптимальное
решение.
Алгоритм продолжает и развивает популяцию
посредством операций отбора, скрещивания и
мутации.
Он генерирует несколько групп населения, пока не
удовлетворит ограничениям оптимизации.
43
12.10.2023

44.

Генетические алгоритмы
Популяция – текущее множество
особей
Особь – одно из возможных
решений задачи
Отбор – процедура исключения из
популяции особей с наименьшими
значениями целевой функции
Скрещивание – формирование
новых особей на основе пары уже
существующих
Мутация – формирование новых
особей путем внесения случайных
изменений в уже существующие
44
12.10.2023

45.

Генетические алгоритмы
Функция пригодности - производит числовую
оценку, для определения пригодности конкретного
индивидуума. В реальном мире, существа просто
выживают или нет.
Ограничения оптимизации (или оптимизация) - это
процесс оптимизации целевой функции по
отношению к некоторым переменным при наличии
ограничений на эти переменные.
Целевая функция-это либо функция затрат или
функция энергии, которая должна быть
минимизирована, либо функция вознаграждения
или функция полезности, которая должна быть
максимизирована.
45
12.10.2023

46.

Нейронная сеть
46
12.10.2023

47.

Нейронная сеть
Основа метода автоматического распознавания
изображений.
Причины популярности:
Прогресс в передаче и хранении
информации
Рост вычислительной мощности
Улучшенные алгоритмы
Нейроны взаимодействуют, преобразуя
входные сигналы в выходные метки.
47
12.10.2023

48.

Нейронная сеть
48
12.10.2023

49.

Нейронная сеть. Компоненты
Входной слой – обрабатывает каждый пиксель
входящего изображения
Сверточный слой – обнаруживает различные
признаки, ориентируясь на комбинации
пикселов
Скрытые слои – преобразование полученных
изображений для усиления признаков
Выходной слой – итоговый прогноз
Слой потерь – дает обратную связь, были ли
входные данные распознаны верно
49
12.10.2023

50.

Нейронная сеть. Правила активации
Активация каждого нейрона управляется
правилом активации
Правило активации определяет источник и
силу входного сигнала
Регулируется во время обучения сути
Ассоциации на основе весов
Изучение правильных весов необходимо для
получения правильных правил активации
Хорошие правила активации приведут к
точным прогнозам
50
12.10.2023

51.

51
Функция активации нейрона определяет выходной сигнал,
который определяется входным сигналом или набором
входных сигналов
12.10.2023

52.

Нейронная сеть. Ограничения
Для обучения нужен большой объем данных
Подвыборка
Искажения
Исключение (дропаут)
Требует долгих вычислений
Стохастический градиентный спуск
Градиентный спуск Mini-Batch
Полносвязные слои
Невозможность интерпретации
52
12.10.2023

53.

Нейронная сеть
53
12.10.2023

54.

Инженер знаний
Профессионал, занимающийся наукой о построении
продвинутой логики в компьютерных системах,
чтобы попытаться смоделировать процесс
принятия решений человеком и когнитивные
задачи высокого уровня.
Инженер по знаниям предоставляет некоторые или
все "знания", которые в конечном итоге встроены в
технологию.
Работает с экспертом, наблюдая решение задачи.
54
12.10.2023

55.

Способы получения знаний
Книги, документы
Опросники
Интервьюирование специалистов
Мозговой штурм
Информация от эксперта
Формирование БЗ экспертом
Использование методов распознавания образов
(экспериментально получаемая информация)
Использование методов машинного обучения
55
12.10.2023

56.

Классификация методов
извлечения данных
56
12.10.2023

57.

Свойство «идеального» эксперта
Эрудиция
Способность к
отбору
информации
Способность
к сравнению
альтернатив
Активное
владение
знаниями
57
Способность к
экспликации знаний
Способность к
сегментации и
структурированию
явлений
Последовательность и
профессионализм
Коммуникативность
12.10.2023

58.

Теоретические аспекты извлечения
знаний
Психологический (общение инженера знаний и
эксперта-профессионала)
Лингвистический (исследование языковых
проблем)
Гносеологический (методологические
проблемы получения новых знаний)
58
12.10.2023

59.

Проблемы эксперта
Недостаточная полнота
методов описания
природы экспертизы
Трудности вербального
выражения знаний и
декомпозиции
Субъективизм
Влияние личных качеств
эксперта и его
ответственности за успех
создания базы знаний
И пр.
59
12.10.2023
English     Русский Правила