ИНФОРМАТИКА
Представление текстовой информации в ЭВМ
Представление текстовой информации в ЭВМ
Представление текстовой информации в ЭВМ
Представление текстовой информации в ЭВМ. Unicode
Представление текстовой информации в ЭВМ
Недостатки многобайтовых кодировок
UTF-8
Кодирование звуковой и аналоговой информации
Кодирование звуковой и аналоговой информации
Кодирование звуковой и аналоговой информации
Этапы преобразования аналогового сигнала в цифровой (АЦП)
Этапы преобразования аналогового сигнала в цифровой (АЦП)
Терминология АЦП
Кодирование графической информации Растровое кодирование
Растровое кодирование
Разрешение
Кодирование цвета Теория цвета Юнга-Гельмгольца
Цветовая модель RGB
Цветовая модель RGB
Кодирование цвета при печати (CMYK)
RGB и CMYK
Цветовая модель HSB (HSV)
Растровое кодирование: итоги
Векторное кодирование
Векторное кодирование
Векторное кодирование (итоги)
3.53M
Категория: ИнформатикаИнформатика

ИНФ_Л2 Кодирование информации

1. ИНФОРМАТИКА

Курс лекций
Доцент кафедры Прикладной математики
Шеметова Анастасия Дмитриевна

2. Представление текстовой информации в ЭВМ

Существуют международные стандарты и методы кодирования текстовой, числовой,
изобразительной, звуковой и видеоинформации.
Для кодирования букв и других символов, используемых в печатных документах,
Необходимо закрепить за каждым символом числовой номер – код.
Первой 7-разрядной кодовой таблицей была ASCII (American Standard Code for
Information Interchange), опубликованная как стандарт в 1963 году американской организацией
по стандартизации, которая позднее стала именоваться ANSI. Таблица содержала 32 кода
команд или управляющих символов (от 0 до 31), и 95 кодов (от 33 до 127) для различных
знаков, достаточных для работы с английскими текстами.
В дальнейшем был принят стандарт на 8-битную таблицу ASCII – ISO/IEC 8859, в
которой первые 128 символов оставались теми же, что и в 7-битной таблице, а символы с 128
по 255 отводились для неанглийских символов.

3. Представление текстовой информации в ЭВМ

Первые советские ЭВМ использовали 7-битную
кодировку
символов
КОИ-7
(Код
Обмена
Информацией
семибитный),
в
которой
присутствовали прописные латинские буквы, а на
месте строчных латинских были русские прописные
буквы (кириллица).

4. Представление текстовой информации в ЭВМ

С широким распространением операционной системы Microsoft Windows и
появлением её национальных локализаций для второй половины таблицы
ASCII было введено понятие «кодовая страница» (code page, CP).
В операционной системе Linux для представления русских букв исторически
использовалась кодировка КОИ-8R, однако на сегодня большинство
дистрибутивов Linux используют кодировку Unicode.

5. Представление текстовой информации в ЭВМ. Unicode

Развитие обмена текстами через показало недальновидность
придуманной ранее схемы. Например, использование одновременно
кириллицы и греческих символов в текстах было невозможным, так как они
кодировались одними и теми же кодами.
Для решения проблемы в 1991 году в Калифорнии была создана
некоммерческая организация Unicode Consortium, в которую вошли
представители многих компьютерных фирм (Borland, IBM, Lotus, Microsoft,
Novell, Sun, WordPerfect и др.) и которая занимается развитием и внедрением
стандарта «The Unicode Standard». Стандарт кодирования символов Unicode
становится
доминирующим
в
интернациональных
программных
многоязычных средах. Microsoft Windows используют Unicode, точнее UTF16, как внутреннее представление текста. UNIX-подобные операционные
системы типа Linux, BSD и Mac OS X, iOS, Android и др. приняли Unicode (UTF8) как основное представление многоязычного текста.
Unicode резервирует 1114112 (220+216) символов кода, в настоящее
время используются более 96000 символов. Первые 256 кодов символов
точно соответствуют наиболее популярной 8-разрядной таблицы символов
«западного мира»; в результате первые 128 символов также идентичны
таблице ASCII.

6. Представление текстовой информации в ЭВМ

Таким
образом,
Для
кодирования одного символа
может использоваться один или
несколько байтов. Если для
любого символа достаточного
одного байта – кодировка
считается однобайтовой, если
требуется
несколько

многобайтовой.
Все
существующие
текстовые
кодировки
могут
быть
классифицированы по данному
признаку.

7. Недостатки многобайтовых кодировок

1. Излишняя избыточность (один символ кодируется бóльшим числом битов);
2. Низкая помехоустойчивость (в случае потери одного байта из
многобайтового кода все последующие байты смещаются и весь последующий
текст перестаёт правильно читаться);
3. У существующего ПО возможны сложности «при виде» байтов с кодами 0–31
(в кодировке ASCII это служебные коды).
Для нивелирования указанных недостатков обычно применяются другие
форматы кодирования, основанные на Unicode. К ним относятся форматы
переменной длины.
Кодировки переменной длины используют для разных групп символов разную
длину. В них одни символы могут быть однобайтовыми, а другие двух-, трёх- и
даже четырёхбайтовыми.
• 7-битная UTF-7 (RFC 2152, 1997 г., зарегистрирована в IANA как UTF-7);
• 8-битная UTF-8 (RFC 2279, 1998 г., зарегистрирована в IANA как UTF-8);
• 16-битная UTF-16 (RFC 2781, 2000 г., зарегистрирована в IANA как UTF-16,
UTF-16BE, UTF-16LE);
• 32-битная UTF-32 (в прошлом UCS-4, RFC 3629, 2003 г., зарегистрирована в
IANA как UTF-32, UTF-32BE, UTF-32LE).

8. UTF-8

В UTF-8 все символы разделены на несколько групп по значению
первых битов. Символы с кодами менее 128 кодируются одним байтом,
первый бит которого равен нулю, а последующие 7 бит в точности
соответствуют 128 символам 7-й таблицы ASCII, следующие 1920
символов – двумя байтами (Greek, Cyrillic, Coptic, Armenian, Hebrew и
Arabic-символы). Последующие символы кодируются тремя и четырьмя
байтами.

9. Кодирование звуковой и аналоговой информации

Задача кодирования звуковой информации
является частной задачей кодирования
(восстановления) аналоговых сигналов
Обычно под звуком понимают такие
колебания, которые оказываются слышны
человеческому уху.
Владимир Александрович Котельников и
Гарри Найквист независимо показали, что
аналоговые сигналы, в силу того, что
измеряемые показатели меняются плавно,
обладают тем свойством, что по своей форме
кривые
изменений
могут
быть
восстановлены
не
только
при
непрерывном снятии показаний, но и по
некоторым
выборочным
точкам
(отсчётам). Они показали, что не имеет
смысла снимать точки чаще, чем происходят
«изменения в графике».

10. Кодирование звуковой и аналоговой информации

Теорема В.А. Котельникова (теорема Найквиста, теорема Шеннона–
Найквиста, теорема об отсчётах) гласит, что любой аналоговый сигнал с
ограниченным спектром может быть представлен конечным числом
дискретных отсчётов взятых в 2 раза чаще чем максимальная частота
спектра сигнала.
Указанная теорема позволила свести задачу представления звуковой
информации в памяти ЭВМ к измерению интенсивности звука через
заданный интервал времени (например, 48 раз за 0,001 секунды).
В предложенном примере
каждое измеренное значение
представлено
в
виде
«столбика» шириной в 0,001
секунды
и
высотой
пропорциональной
уровню
сигнала в момент считывания
показаний.

11. Кодирование звуковой и аналоговой информации

По факту же, как аудио-редакторы при отображении формы сигнала на
экран,
так
и
цифро-аналоговые
преобразователи
(ЦАП),
при
воспроизведении сигнала на аудиовыход используют интерполяцию, в
результате чего мы видим более естественную и красивую картинку

12. Этапы преобразования аналогового сигнала в цифровой (АЦП)

Первый этап. На выходе каждого измерения получается некоторое числовое
(аналоговое) значение амплитуды. Непрерывная звуковая волна разбивается на
отдельные участки по времени, для каждого устанавливается своя величина
амплитуды. Каждой ступеньке присваивается свой уровень громкости звука, который
можно рассматривать как набор возможных аналоговых состояний. Этот процесс
называется дискретизацией.
Дискретизация – преобразование непрерывной функции в дискретную. (Получение из
непрерывной функции значений её отсчётов, взятых в отдельные моменты времени,
определяемые частотой дискретизации.)
T
t

13. Этапы преобразования аналогового сигнала в цифровой (АЦП)

Второй этап. Так как информация в ЭВМ не хранится в аналоговом виде, то
значения измерений (амплитуды отсчётов) квантуются (по факту
измеряются с конечной точностью, которая определяется разрядностью
аналого-цифрового преобразователя, – АЦП). Результат этих измерений уже
можно представить в виде некоторого конечного числа (которое и является
значением указанного отсчёта), представимого в памяти ЭВМ в цифровом
виде.
Квантование (англ. quantization) – в информатике – разбиение диапазона
значений непрерывной или дискретной величины (например, амплитуды
уровня сигнала) на конечное число интервалов.
Третий этап – это кодирование. В ряде случаев кодирование как таковое
отсутствует и все полученные на этапе квантования значения записываются
в память одно за другим по мере проведения измерений.

14. Терминология АЦП

Основные характеристики качества звука:
1) Точность выборки, или глубина кодирования звука – количество бит на
одно измерение величины звукового сигнала или количество возможных
значений амплитуды (поскольку это связанные вещи).
Современные недорогие звуковые карты обеспечивают 16-битную глубину
кодирования звука. Количество уровней (градаций амплитуды) можно
рассчитать по формуле:
N = 2I= 216 = 65 536 уровней сигнала (градаций амплитуды).
2) Частота выборки (англ. sampling rate), или частота дискретизации – это
количество измерений уровня звукового сигнала за 1 секунду. Одно
измерение в 1 секунду соответствует частоте 1 Гц. 1000 измерений в 1 секунду
– 1 кГц. Количество измерений обычно находится в диапазоне от 8000 до 48
000 (8 кГц – 48 кГц).

15. Кодирование графической информации Растровое кодирование

пиксель
!
дискретизация
Рисунок искажается!
Пиксель – это наименьший элемент рисунка, для
которого можно задать свой цвет.
Растровое изображение – это изображение,
которое кодируется как множество пикселей.

16. Растровое кодирование

0 0 0 1
0 0 1 0
0 1 0 0
1 0 1 0
0 1 1 0
0 0 1 0
1A
26
42
1 1 1 1
0 1 0 0
0 1 0 1
1 1 1 1
0 0 1 0
1 0 1 0
FF
42
5A
0 1 0 1
0 1 1 1
1 0 1 0
1 1 1 0
5A
7E
1A2642FF425A5A7E16

17. Разрешение

Разрешение – это количество пикселей,
приходящихся на дюйм размера
изображения.
ppi = pixels per inch, пикселей на дюйм
1 дюйм = 2,54 см
300 ppi
печать
96 ppi
экран
48 ppi
24 ppi

18. Кодирование цвета Теория цвета Юнга-Гельмгольца

чувствительность
три типа
«колбочек»
0
400
500
600
700 , нм
Свет любой длины волны можно заменить на
красный, зелёный и синий лучи!

19. Цветовая модель RGB

цвет = ( R,
G,
B )
green
red
blue
красный зеленый синий
0..255 0..255
0..255
(0, 0, 0)
(0, 255, 0)
(255, 255, 255)
(255, 255, 0)
(255, 0, 0)
(255, 150, 150)
(0, 0, 255)
(100, 0, 0)
256·256·256 = 16 777 216 (True Color, «истинный цвет»)
! RGB – цветовая модель для устройств,
излучающих свет (мониторов)!

20. Цветовая модель RGB

(255, 255, 0) #FFFF00
RGB
Веб-страница
(0, 0, 0)
#000000
(255,255,255)
#FFFFFF
(255, 0, 0)
#FF0000
(0, 255, 0)
#00FF00
(0, 0, 255)
#0000FF
(255, 255, 0)
#FFFF00
(204,204,204)
#CCCCCC

21. Кодирование цвета при печати (CMYK)

Белый – красный = голубой C = Cyan
Белый – зелёный = пурпурный M = Magenta
Белый – синий = желтый
C M Y
0 0 0
255 255 0
255 0 255
0 255 255
255255 255
Y = Yellow
Модель CMY

22. RGB и CMYK

видит человек
RGB
CMYK
• не все цвета, которые показывает
монитор (RGB), можно напечатать
(CMYK)
• при переводе кода цвета из RGB в
CMYK цвет искажается

23. Цветовая модель HSB (HSV)

HSB = Hue (тон, оттенок)
Saturation (насыщенность)
Brightness (яркость) или Value (величина)
Тон (H)
0 /360
100
Яркость (B)
270 0
90
100
0
180
насыщенность –
добавить белого
яркость –
добавить чёрного

24. Растровое кодирование: итоги

• универсальный метод (можно закодировать
любое изображение)
• единственный метод для кодирования и
обработки размытых изображений, не имеющих
чётких границ (фотографий)
• есть потеря информации (почему?)
• при изменении размеров цвет и форма
объектов на рисунке искажается
• размер файла не зависит от сложности
рисунка

25. Векторное кодирование

Рисунки из геометрических фигур:
• отрезки, ломаные, прямоугольники
• окружности, эллипсы, дуги
• сглаженные линии (кривые Безье)
Для каждой фигуры в памяти хранятся:
• размеры и координаты на рисунке
• цвет и стиль границы
• цвет и стиль заливки (для замкнутых фигур)

26. Векторное кодирование

Кривые Безье:
угловой узел
А
Д
В
гладкий узел
Б
Г
Хранятся координаты узлов и концов «рычагов»
(3 точки для каждого узла, кривые 3-го порядка).

27. Векторное кодирование (итоги)

• лучший способ для хранения чертежей, схем, карт
• при кодировании нет потери информации
• при изменении размера нет искажений
растровый
векторный
рисунок
рисунок
• меньше размер файла, зависит от сложности рисунка
• неэффективно использовать для фотографий и
размытых изображений
English     Русский Правила