КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ
Ключевые слова
Компьютерное представление текстовой информации
Кодировка ASCII
Расширение кодировки ASCII
Расширение кодировки ASCII
Стандарт Unicode
Клавиатуры некоторых стран мира
Кодировки стандарта Unicode
Информационный объем сообщения
Вопросы и задания
Самое главное
Самое главное
Вопросы и задания
Подходы к расположению русских букв в различных кодировках
Вопросы и задания
Информационные источники
4.03M
Категория: ПрограммированиеПрограммирование

Кодирование текстовой информации

1. КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ

МК
КОДИРОВАНИЕ
ТЕКСТОВОЙ
ИНФОРМАЦИИ
ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В КОМПЬЮТЕРЕ

2. Ключевые слова

МК
Ключевые слова
• текстовая информация
• кодирование
• кодовые таблицы

3. Компьютерное представление текстовой информации

МК
Компьютерное представление
текстовой информации
Для компьютерного представления текстовой информации
достаточно:


Определить алфавит
(множество всех
символов)

64
01000000
65
01000001
66
01000010
67
01000011
68
01000100
Присвоить каждому
символу алфавита
порядковый номер
Перевести номер
символа в двоичную
систему счисления

4. Кодировка ASCII

МК
Кодировка ASCII
American Standard Code for Information Interchange –
американский стандартный код для обмена информацией,
разработанный в 1960-х годах в США.
00 0 1 0 02 0 30 04 0 5
6
7Изображаемые
8
9 A B
символы
C D
E
F
(буквы
цифры,
0 NUL SOH STX ETX EOT ENQ ACK
BEL латинского
BS HT алфавита,
LF VT FF
CR знаки
SO SI
1
препинания и арифметических операций,
скобки
некоторые
специальные
символы)
DLE
DC40 NAK SYN
ETBиCAN
EM SUB
ESC FS GS
RS US
0 0DC1
1 DC2
0 0 DC3
0 0
2
!
3
0
4
@
5

#
1Первые
2
3
AA
B
C
$
%
&

(
)
324символа
5
6 и
7 128-й
8
9–
управляющие
D
E
F
G
H
* 0 + 0 0, 1 -1 1 . 1 /1
:
;
<
=
>
?
I
J
K
L
M
N
O
P
(при выводе текста они
не отображаются графически)
Q
W X
0 1 R0 0S 0 T0 0U 1 V
Y
Z
[
\
]
^
_
6
`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
7
p
q
r
s
t
u
v
w
x
y
z
{
|
}
~
DEL
0 1 1 1 1 1 1 0

5. Расширение кодировки ASCII

МК
Расширение кодировки ASCII
00 0 1 0 02 0 30 04 0 5
6
7
8
9 A B
C D
E
F
0 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
кода
127)
1 DLE DC1 DC2 DC3 DC4 NAK Стандартная
SYN ETB CAN EM часть
SUB ESC
FS (0
GS… RS
US
2
!

#
$ % &

(
)
*
+
,
.
/
3
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
4 @ A B
C D
E
F
G H
I
J
K
L M N O
5
P Q R
S
T U V W X
Y
Z
[
\
]
^
_
6
`
a
b
c
d
e
f
g
h
i
j
k
l
m n
o
7
p1 0 q 0 0r 0 s0 0t 0 u
v w x
y
z
{Windows-1251
| КОИ-8
}
~ DEL
† ┤
‡ ┬
€ ‰
‹1 Њ
Ќ1 1▌
Ћ1 ▐
Џ1
8 Ђ

│Ѓ
┌‚
┐ѓ
└„ …
┘ ├
┴ Љ
┼ 0▀

1 1█
ђ ▒‘

•∙
–√ —
њ
ќ²
ћ∙
џ
9 ░
⌠“

≤ ™
≥ љ ⌡›

°
÷
▓’
Ў ╒
ў
¤ ╔
Ґ ╕
¦ ╖
Ё ©
Є ╚
« ╛
¬ ╜ ╝
® ╞Ї
A ═ ║
ёЈ
§ ╗

╘ ╙
ґ
µ ╤
¶ ╥∙
ё №
є ╩
» ╪ј
Ѕ ╬
ѕ ©
ї
B ╟
°
± ╡І
Ёі




╧ ╨

А Б
В
Д
Зг
И
Й
К
Н О
C ю
а
б
цГ
д
еЕ Ж
ф
х
и
й Л
к М
л м
н П
о
С
Т
Ус Ф
Ху ж
Э Ю
Я
D Р
п
я
р
т
ь Щ
ы Ъ
з Ы
ш Ьэ щ
ч
ъ
Расширение
ASCII
(Ц128Чв… Ш
255)
а
б
в
д
еЕ Ф
ж
зГ
и
й Й
к
л м
н Н
о О
п
E Ю
А
Б
Цг
Д
Х И
К
Л М
р
ф
цалфавита,
ч ш
щ ъ
ы Э
ь Щ
э ю
я
F
П
Яс (буквы
Рт
Сунационального
Т
Ух Ж
В
Ь Ы
З Ш
Ч Ъ
символы национальной валюты и т.п.)
1 1 1 1 1 1 1 1

6. Расширение кодировки ASCII

МК
Расширение кодировки ASCII
0
1
2
0 NUL SOH STX
1 DLE DC1 DC2
2
!

3
0
1
2
4 @ A B
5
P Q R
6
`
a
b
7
p
q
r
8 Ђ─ Ѓ │ ‚ ┌
9 ђ░ ‘ ▒ ’ ▓
A
═ Ў║ ў╒
B ° ╟ ±╠ І ╡
C Аю Б а В б
D Рп Ся Тр
E аЮ б А в Б
F рП сЯ т Р
3
ETX
DC3
#
3
C
S
c
s
ѓ ┐
“⌠
Ј ё
і Ё
Гц
Ус
гЦ
уС
4
5
EOT ENQ
DC4 NAK
$ %
4
5
D
E
T U
d
e
t
u
„ └ …┘
”■ • ∙
¤╓ Ґ╔
ґ ╢ µ╣
Дд Е е
Фт Ху
дД е Е
фТ хУ
6
7
8
9 A
ACK BEL BS HT LF
SYN ETB CAN EM SUB
&

(
)
*
6
7
8
9
:
F
G H
I
J
V W X
Y
Z
f
g
h
i
j
Windows-1251
v w x
y
z
† ├ ‡ ┤ € ┬ ‰┴ Љ ┼
≤ ™≥ љ
– √ —≈
¦ ╕ § ╖ Ё ╗ ©╘ Є ╙
¶ ╤ ∙ ╥ ё ╦ №╧ є ╨
Жф З г И х Й и К й
Ц ж Ч в Ш ь Щы Ъ з
жФ з Г и Х й И к Й
ц Ж ч В ш Ь щЫ ъ З
B
VT
ESC
+
;
K
[
k
{
‹▀
› ⌡
«╚
»╩
Лк
Ыш
лК
ыШ
C D
E
FF CR SO
FS GS RS
,
.
<
=
>
L M N
\
]
^
l
m n
| КОИ-8
}
~
Њ▄ Ќ █ Ћ ▌
њ° ќ ² ћ ∙
¬╛ ╜ ®╝
ј ╪ Ѕ╫ ѕ╬
Мл Нм О н
Ь э Эщ Юч
м Л нМ о Н
ь Э эЩ юЧ
F
SI
US
/
?
O
_
o
DEL
Џ▐
џ÷
Ї╞
ї©
По
Яъ
пО
яЪ

7. Стандарт Unicode

МК
Стандарт Unicode
!
Unicode — это «уникальный код для любого символа,
независимо от платформы, независимо от программы,
независимо от языка» (www.unicode.org).
Стандарт Unicode был разработан в 1991
году и описывает алфавиты всех известных, в том числе и «мертвых», языков. Для
языков, имеющих несколько алфавитов
или вариантов написания (японского и
индийского), закодированы все варианты.
В кодировку Unicode внесены все математические и иные научные символьные
обозначения и даже некоторые придуманные языки (язык эльфов из трилогии
Дж. Р. Р. Толкина «Властелин колец»).

8. Клавиатуры некоторых стран мира

МК
Клавиатуры некоторых стран мира
РУССКАЯ
АМЕРИКАНСКАЯ
АРАБСКАЯ
АРМЯНСКАЯ
ЯПОНСКАЯ

9. Кодировки стандарта Unicode

МК
Кодировки стандарта Unicode
Для представления символов в памяти компьютера в
стандарте Unicode имеется несколько кодировок.
Кодировка
UTF-16
Кодировка
UTF-8
Часто используемые
символы:
2 байта (16 бит)
Символы, входящие
в таблицу ASCII:
1 байт (8 бит)
Редко используемые
символы:
4 байта (32 бит)
Символы, не входящие
в таблицу ASCII:
2-4 байта (16-32 бит)
Кодировки Unicode позволяют включать в один
документ символы самых разных языков, но их
использование ведёт к увеличению размеров
текстовых файлов.
!

10. Информационный объем сообщения

МК
Информационный объем сообщения
!
Информационным объёмом текстового сообщения называется количество бит (байт, килобайт,
мегабайт и т. д.), необходимых для записи этого
сообщения путём заранее оговоренного способа
двоичного кодирования.
Количество символов
в сообщении
ASCII, КОИ-8,
Windows-1251, …
1 символ = 1 байт
Unicode
1 символ = 2 байта

11. Вопросы и задания

МК
Вопросы и задания
?
В Советском энциклопедическом словаре
(1983 года издания) 1600 страниц. На одной
странице размещается в среднем 100 строк по
140 символов (включая пробелы) в каждой.
Найдите объем (в Мбайтах) текстовой
информации в словаре, если при записи
используется кодировка «один символ — один
байт».
Дано:
1600·100·140
i = 1 байт
I = K·i I =
Мб ≈ 21,36 Мб
1024·1024
K = 1600·100·140
I-?
Ответ: 21,36 Мбайта

12. Самое главное

МК
Самое главное
Текстовая информация по своей природе дискретна, так как
представляется последовательностью отдельных символов.
В памяти компьютера хранятся специальные кодовые
таблицы, в которых для каждого символа указан его двоичный
код. Все кодовые таблицы, используемые в любых
компьютерах и любых операционных системах, подчиняются
международным стандартам кодирования символов.
Основой для компьютерных стандартов кодирования
символов послужил код ASCII, рассчитанный на передачу
только английского текста. Расширения ASCII-кодировки, в
которых первые 128 символов кодовой таблицы совпадают с
кодировкой ASCII, а остальные (с 128-го по 255-й) используются
для кодирования букв национального алфавита, символов
национальной валюты и т. п.

13. Самое главное

МК
Самое главное
В 1991 году был разработан новый стандарт кодирования
символов,
получивший
название
Unicode
(Юникод),
позволяющий использовать в текстах любые символы любых
языков мира. Кодировки Unicode позволяют включать в один
документ символы самых разных языков, но их использование
ведёт к увеличению размеров текстовых файлов.

14. Вопросы и задания

МК
?
Вопросы и задания
Задание 1. Представьте в кодировке ASCII текст
Happy New Year!
а) шестнадцатеричным кодом
48 61 70 70 79 20 4E 65 77 20 59 65 61 72 21
б) десятичным кодом
72 97 112 112 121 32 78 101 119 32 89 101 97 114 33
0
1
2
0 NUL SOH STX
1 DLE DC1 DC2
2
!

3
0
1
2
4 @ A
B
5
P Q R
6
`
a
b
7
p
q
r
3
ETX
DC3
#
3
C
S
c
s
4
EOT
DC4
$
4
D
T
d
t
5
ENQ
NAK
%
5
E
U
e
u
6
ACK
SYN
&
6
F
V
f
v
7
8
9 A B
C
BEL BS HT LF VT FF
ETB CAN EM SUB ESC FS

(
)
*
+
,
7
8
9
:
;
<
G H
I
J
K
L
W X
Y
Z
[
\
g
h
i
j
k
l
w x
y
z
{
|
D
E
F
CR SO SI
GS RS US
.
/
=
>
?
M N O
]
^
_
m n
o
}
~ DEL
ОТВЕТ

15. Подходы к расположению русских букв в различных кодировках

МК
Подходы к расположению русских
букв в различных кодировках
?
Задание 2. Сравните подходы к расположению русских букв
в кодировках Windows-1251 и КОИ-8.

4
5
6
7
0
1
2

P п
` Ю

П
A а

a А
q Я
B б
R р
b Б
rr РР
3
C
S
c
s
ц
с
Ц
С
4
5
6
7

T т

tt ТТ
E е

ee Е
u У
F ф

f Ф

G г

g Г


C
D
E
F
8
H
X
h
x
х
ь
Х
Ь
9
I и
Y ы
ii ИИ
y Ы
A
J
Z
j
z
й
з
Й
З
B
K к
[ ш
k К
{ Ш
Windows-1251
Аю
Рп
аЮ
рП
Ба
Ся
бА
сЯ
В
Т
в
т
б
р
Б
Р
Гц
Ус
гЦ
уС
Дд
Фт
дД
фТ
Е
Х
е
х
е
у
Е
У
Жф
Цж
жФ
цЖ
З
Ч
з
ч
г
в
Г
В
Их
Шь
иХ
шЬ
Йи
Щы
йИ
щЫ
ПОДСКАЗКА - 1
Кй
Ъз
кЙ
ъЗ
C
L
\
l
|
D
л
э
Л
Э

] щ

} Щ
E
F
Nн Oо
^ ч _ ъ
nН oО
~ Ч Ъ
КОИ-8
Лк
Ыш
лК
ыШ
Мл
Ьэ
мЛ
ьЭ
Нм
Эщ
нМ
эЩ
Он
Юч
оН
юЧ
ПОДСКАЗКА - 2
По
Яъ
пО
яЪ

16. Вопросы и задания

МК
Вопросы и задания
?
Задание 3. В 15-м издании энциклопедии Britannica 32 тома,
в каждом из которых порядка 1000 страниц. На одной
странице размещается в среднем 70 строк по 120 символов
(включая пробелы) в каждой. Найдите объем текстовой
информации в энциклопедии, если при записи используется
кодировка Unicode («один символ — два байта»).
Дано:
32·1000·70·120·2
i = 2 байта
I = K·i I =
Мб ≈ 513 Мб
1024·1024
K = 32·1000·70·120
I-?
Ответ: 513 Мбайт

17. Информационные источники

МК
Информационные источники
http://dev.bowdenweb.com/a/i/cons/utilities/unicode/unicode-2000px.png
https://openclipart.org/image/2400px/svg_to_png/177279/Blank-Generic-Keyboard-Remix-by-Merlin2525.png
http://arstyle.org/uploads/posts/2010-07/1278744192_1274782943_dreamstime_9113949-converted.jpg
http://www.businesstoday.net.my/wp-content/uploads/2015/04/Computer-Programmer-Coding-Camp-shutterstock.jpg
http://static.ozone.ru/multimedia/1005976053.jpg
http://gimnnik.narod.ru/open-office/TextProcessor/p5aa1.html
http://media.washtimes.com.s3.amazonaws.com/media/image/2012/03/14/encyclopaedia-britann_lea.jpg
http://www.novilist.hr/var/novilist/storage/images/sci-tech/tehnologija/encyclopaedia-britannica-prekida-tiskanje-postaje-digitalna/1306075-1cro-HR/Encyclopaedia-Britannica-prekida-tiskanje-postaje-digitalna.jpg
English     Русский Правила