Цель урока познакомиться:
1.94M
Категория: ИнформатикаИнформатика

Кодирование текстовой информации на компьютере

1.

Автор разработки Меркулова Светлана Михайловна

2. Цель урока познакомиться:

• с кодированием текстовой информации в компьютере;
• с понятие кодовая таблица;
• с различными кодировками знаков.
Задачи урока:
• освоить приемы работы с кодовыми таблицами.
Автор разработки Меркулова Светлана Михайловна

3.

Кодирование текстовой информации в компьютере
Информация, выраженная с помощью естественных и формальных языков
в письменной форме, обычно называется текстовой информацией.
Для представления текстовой информации (прописные и строчные буквы
русского и латинского алфавитов, цифры, знаки и математические символы)
достаточно 256 различных знаков. По формуле можно вычислить, какое
количество информации необходимо, чтобы закодировать каждый знак:
N = 2i => 256 = 2i => 28 = 2i => I = 8 битов.
Для обработки текстовой информации на компьютере
необходимо представить ее в двоичной знаковой системе.
Для кодирования каждого знака требуется количество
информации, равное 8 битам, т. е. длина двоичного кода
знака составляет восемь двоичных знаков. Каждому знаку
необходимо поставить в соответствие уникальный
двоичный код из интервала от 00000000 до 11111111 (в
десятичном коде от 0 до 255)
Автор разработки Меркулова Светлана Михайловна

4.

Кодирование текстовой информации в компьютере
Для обработки текстовой информации на компьютере необходимо
представить ее в двоичной знаковой системе. Для кодирования каждого
знака требуется количество информации, равное 8 битам, т. е. длина
двоичного кода знака составляет восемь двоичных знаков. Каждому
знаку необходимо поставить в соответствие уникальный двоичный код
из интервала от 00000000 до 11111111 (в десятичном коде от 0 до 255)
Человек различает знаки по их начертанию, а компьютер - по их двоичным
кодам. При вводе в компьютер текстовой информации происходит ее
двоичное кодирование, изображение знака преобразуется в его
двоичный код. Пользователь нажимает на клавиатуре клавишу со
знаком, и в компьютер поступает определенная последовательность из
восьми электрических импульсов (двоичный код знака). Код знака
хранится в оперативной памяти компьютера, где занимает одну ячейку.
Автор разработки Меркулова Светлана Михайловна

5.

Двоичный
код
00000000
К
о
д
и
р
о
в
к
а
Десятичны
й код
КОИ-8
Windows
MS-DOS
Mac
ISO
0

з
н
а
к
о
в
00001000
8
удаление последнего символа (клавиша {Backspace})
13
перевод строки (клавиша {Enter})
00100000
32
клавиша{пробел}
00100001
33
!
90
Z
01111111
127
0
10000000
128
-
255
ь

00001101


01011010

ъ
А
А
к

11111111
я
нераз. пробел
нераз. пробел
п
В процессе вывода знака на экран компьютера производится
обратное перекодирование, т. е. преобразование двоичного кода
знака в его изображение.
Автор разработки Меркулова Светлана Михайловна

6.

Различные кодировки знаков
Кодовая таблица — это внутреннее представление символов в
компьютере. Очень долго во всем мире в качестве стандарта была принята
таблица ASCII (American Standard Code for Informational Interchange —
Американский стандартный код информационного обмена).
При таком кодировании для хранения двоичного кода одного символа
выделялся 1 байт = 8 бит.
Количество символов, которое можно закодировать с помощью двоичного
кода т.е. комбинаций 0 и 1 равно 28 = 256
Автор разработки Меркулова Светлана Михайловна

7.

Различные кодировки знаков
Присваивание знаку конкретного двоичного кода - это вопрос соглашения, которое
фиксируется в кодовой таблице. В стандарте ASCII коды первые 33 кода
(десятичные коды с 0 по 32) соответствуют не знакам, а операциям (перевод
строки, ввод пробела и т. д.).
Десятичные коды с 33 по 127 являются интернациональными и соответствуют
знакам латинского алфавита, цифрам, знакам арифметических операций и знакам
препинания.
Десятичные коды с 128 по 255 являются национальными, т. е. в различных
национальных кодировках одному и тому же коду соответствуют разные знаки.
К сожалению, в настоящее время существуют пять различных кодовых таблиц для
русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO ), поэтому тексты, созданные в
одной кодировке, не будут правильно отображаться в другой.
Автор разработки Меркулова Светлана Михайловна

8.

Кодовая таблица – это соглашение, которое фиксирует
присвоение знаку двоичного кода.
Символы
Операции (перевод строки, возврат каретки, пробел и т. д.)
Десятичные коды
символов
0-32
Интернациональные – соответствуют знакам латинского
алфавита, цифрам, знакам арифметических операций,
знакам препинания.
33 - 127
Национальные, т. е. в различных национальных кодировках
одному и тому же коду соответствуют разные знаки.
128 - 255
Автор разработки Меркулова Светлана Михайловна

9.

В последние годы широкое распространение получил новый международный
стандарт кодирования текстовых символов Unicode, который отводит на каждый
символ 2 байта (16 битов). По формуле можно определить количество символов,
которые можно закодировать согласно этому стандарту:
N = 2i = 216 = 65 536.
Такого количества символов оказалось достаточно, чтобы закодировать не только
русский и латинский алфавиты, цифры, знаки и математические символы, но и
греческий, арабский, иврит и другие алфавиты.
Автор разработки Меркулова Светлана Михайловна

10.

Десятичные коды некоторых знаков в различных кодировках
Итак, в настоящее время имеется шесть различных кодировок букв русского
алфавита, в которых один и тот же знак имеет различные коды.
К счастью, в большинстве случаев пользователь не должен заботиться о
перекодировках текстовых документов, так как это делают специальные программыконверторы, встроенные в операционную систему и в приложения.
Символ
Windows
MS-DOS
КОИ-8
Mac
ISO
Unicode
А
192
128
225
128
176
1040
В
194
130
247
130
178
1042
М
204
140
237
140
188
1052
Э
221
257
252
157
205
1069
я
255
239
241
223
239
1103
Например, в кодировке Windows последовательность числовых
кодов 221, 194, 204 образует слово "ЭВМ", тогда как в других
кодировках это будет бессмысленный набор символов.
Автор разработки Меркулова Светлана Михайловна

11.

Задание на закрепление материала
1. В текстовом режиме экран монитора компьютера обычно разбивается
на 25 строк по 80 символов в строке. Определить объем текстовой
информации, занимающей весь экран монитора, кодировке Unicode.
2. Пользователь компьютера, хорошо владеющий навыками ввода
информации с клавиатуры, может вводить в минуту 100 знаков. Какое
количество информации может ввести пользователь за одну минуту в
кодировке Windows? В кодировке Unicode ?
Проверка
Автор разработки Меркулова Светлана Михайловна

12.

1. В текстовом режиме экран монитора компьютера обычно разбивается на 25
строк по 80 символов в строке. Определить объем текстовой информации,
занимающей весь экран монитора, кодировке Unicode.
V=25*80*2байта=4000байта
2. Пользователь компьютера, хорошо владеющий навыками ввода информации с
клавиатуры, может вводить в минуту 100 знаков. Какое количество информации
может ввести пользователь за одну минуту в кодировке Windows? В кодировке
Unicode ?
N=
English     Русский Правила