КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ
ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В КОМПЬЮТЕРЕ
Ключевые слова
- текстовая информация
- кодирование
- кодовые таблицы
Компьютерное представление текстовой информации
Для компьютерного представления текстовой информации достаточно:
…
…
…
64
01000000
65
01000001
01000010
66
67
01000011
68
01000100
Перевести номер символа в двоичную систему счисления
Определить алфавит (множество всех символов)
Присвоить каждому символу алфавита
порядковый номер
z k M / \ N l ] ? { | ^ O m n } _ ~ o DEL 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 1 1 1 Первые 32 символа и 128-й – управляющие (при выводе текста они не отображаются графически) A 0 1 0 0 0 0 0 1 0 1 1 1 1 1 1 0 " width="640"
Кодировка ASCII
A merican S tandard C ode for I nformation I nterchange – американский стандартный код для обмена информацией, разработанный в 1960-х годах в США.
Изображаемые символы
(буквы латинского алфавита, цифры, знаки препинания и арифметических операций, скобки и некоторые специальные символы)
0
0
1
NUL
1
DLE
2
SOH
2
3
DC1
STX
3
4
DC2
0
ETX
!
4
“
@
EOT
DC3
5
1
5
6
DC4
P
2
#
A
ENQ
6
7
$
NAK
ACK
B
`
7
3
Q
SYN
8
4
a
p
BEL
R
%
C
D
b
9
&
ETB
BS
q
S
5
CAN
A
c
r
E
HT
T
‘
6
F
LF
(
d
EM
B
7
U
s
SUB
C
G
V
8
e
)
t
VT
f
FF
D
*
ESC
H
u
W
9
E
FS
+
X
:
I
g
CR
v
SO
F
GS
,
h
J
Y
w
;
RS
-
x
K
SI
Z
i
US
.
L
j
y
=
[
z
k
M
/
\
N
l
]
?
{
|
^
O
m
n
}
_
~
o
DEL
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
1
1
1
1
Первые 32 символа и 128-й – управляющие
(при выводе текста они не отображаются графически)
A
0
1
0
0
0
0
0
1
0
1
1
1
1
1
1
0
\ z k N { ] ? l ^ m O | n _ } ~ o DEL Windows-1251 КОИ-8 1 0 0 0 0 0 0 0 Ђ ђ Ѓ ‚ ‘ ’ ѓ Ў ° “ ў А „ ± Ј ” Б … Р І † С і • а ¤ В – б ‡ Ґ Г Т р ґ У ¦ в — с € µ Д § г Е ‰ Ф т ¶ ™ Љ · Х Ё д Ж у љ ‹ Ц З е © ф ё Ч ж › Є х Њ № И « з ц є Й Ш Ќ њ К ч ќ Ћ » Щ ¬ и ћ й Ъ Џ Л ј ш ® џ Ы к М щ Ѕ л Ї Н Ь ъ ѕ м ї О Э ы Ю П н ь Я о э ─ п │ ░ ю я ┌ ═ ▒ ┐ ║ ▓ ╟ ╒ ⌠ ю └ ╠ ё а п ┘ ╡ ■ я Ю б ├ ╓ Ё ∙ √ р ┤ ╔ ц А П ╢ с ╕ ≈ Б ╣ Я д ┬ ╖ Ц е Р ≤ ┴ т ╤ ≥ ф ┼ у ╗ Д ╥ С Е г ж ╘ ▀ ╦ Т в ╙ Ф ⌡ ╧ х ▄ У Г ╚ и ь ╨ ° Ж █ ² й ▌ В ╛ ╩ ы Х И ╜ к з ▐ · ╪ Ь Й ╝ ÷ ш ╫ Ы л ╞ К м э З ╬ Л Ш н © щ ч о М Э ъ Н Щ О Ч Ъ 0 1 1 1 1 1 1 1 Расширение ASCII ( 128 … 255) (буквы национального алфавита, символы национальной валюты и т.п.) 1 1 1 1 1 1 1 1 " width="640"
Расширение кодировки ASCII
Стандартная часть кода (0 … 127)
0
0
0
0
0
0
0
0
0
0
NUL
1
1
2
SOH
DLE
2
3
3
STX
DC1
!
DC2
4
0
4
ETX
1
@
“
5
5
EOT
DC3
6
P
A
6
#
ENQ
DC4
2
ACK
NAK
`
$
B
Q
7
3
7
C
4
8
%
R
a
p
8
BEL
SYN
D
S
5
q
9
b
BS
&
ETB
9
c
E
‘
CAN
T
6
r
A
A
HT
d
U
F
s
(
B
7
EM
B
LF
e
t
V
G
8
VT
SUB
C
C
)
W
H
f
u
ESC
9
FF
D
D
*
X
v
g
:
E
+
CR
E
I
FS
w
h
SO
F
,
;
F
J
Y
GS
x
K
RS
-
SI
i
Z
y
j
US
.
=
L
[
/
M
\
z
k
N
{
]
?
l
^
m
O
|
n
_
}
~
o
DEL
Windows-1251
КОИ-8
1
0
0
0
0
0
0
0
Ђ
ђ
Ѓ
‚
‘
’
ѓ
Ў
°
“
ў
А
„
±
Ј
”
Б
…
Р
І
†
С
і
•
а
¤
В
–
б
‡
Ґ
Г
Т
р
ґ
У
¦
в
—
с
€
µ
Д
§
г
Е
‰
Ф
т
¶
™
Љ
·
Х
Ё
д
Ж
у
љ
‹
Ц
З
е
©
ф
ё
Ч
ж
›
Є
х
Њ
№
И
«
з
ц
є
Й
Ш
Ќ
њ
К
ч
ќ
Ћ
»
Щ
¬
и
ћ
й
Ъ
Џ
Л
ј
ш
®
џ
Ы
к
М
щ
Ѕ
л
Ї
Н
Ь
ъ
ѕ
м
ї
О
Э
ы
Ю
П
н
ь
Я
о
э
─
п
│
░
ю
я
┌
═
▒
┐
║
▓
╟
╒
⌠
ю
└
╠
ё
а
п
┘
╡
■
я
Ю
б
├
╓
Ё
∙
√
р
┤
╔
ц
А
П
╢
с
╕
≈
Б
╣
Я
д
┬
╖
Ц
е
Р
≤
┴
т
╤
≥
ф
┼
у
╗
Д
╥
С
Е
г
ж
╘
▀
╦
Т
в
╙
Ф
⌡
╧
х
▄
У
Г
╚
и
ь
╨
°
Ж
█
²
й
▌
В
╛
╩
ы
Х
И
╜
к
з
▐
·
╪
Ь
Й
╝
÷
ш
╫
Ы
л
╞
К
м
э
З
╬
Л
Ш
н
©
щ
ч
о
М
Э
ъ
Н
Щ
О
Ч
Ъ
0
1
1
1
1
1
1
1
Расширение ASCII ( 128 … 255)
(буквы национального алфавита, символы национальной валюты и т.п.)
1
1
1
1
1
1
1
1
k M \ / z ? l ] { N | ^ m O } n _ o ~ DEL Windows-1251 КОИ-8 ─ │ ░ ┌ ═ ▒ ┐ ▓ ║ ╟ ╒ ⌠ └ ю ╠ ё ┘ п ■ а ╡ я б Ё ╓ Ю ├ ∙ ┤ ц А р ╔ √ ╢ П ╕ с ≈ Б Я ┬ д ╣ ╖ Ц е т ≤ ┴ Р ╤ ╥ ┼ у Д С ф ╗ ≥ ж г Е ▀ ╘ Т ╦ ⌡ Ф в ╙ х У ╧ ▄ Г ╚ ь ° и Ж █ ╨ ² Х ╛ й ы В ╩ ▌ И ▐ к · з ╜ Ь ╪ ÷ ш Й ╝ ╫ Ы л К ╞ З ╬ м э Ш © щ Л н о ч М Э Н ъ Щ О Ч Ъ Ђ ђ Ѓ ‘ ‚ ѓ ’ Ў ° ў “ „ ± А Ј І … Р ” Б ¤ а і † В С • Т Ґ б Г – ‡ ґ р У ¦ в — с Д µ € г § Е ¶ Ф ‰ т ™ Ж Љ · д Х Ё у З ‹ © Ц љ е ф ё ж Ч › Є И Њ х № з « Й Ќ ц є Ш њ и ч ќ Щ ¬ » К Ћ й Ъ ћ Џ Л ш ј Ы ® к џ М Ѕ щ л Ї ъ ѕ Н Ь О ї Э м ы П Ю н ь Я о э п ю я " width="640"
Расширение кодировки ASCII
0
0
NUL
1
1
2
2
SOH
DLE
3
3
DC1
STX
0
DC2
4
ETX
!
4
5
EOT
1
DC3
5
@
“
2
DC4
6
#
6
A
ENQ
P
7
3
$
7
B
Q
ACK
NAK
`
8
%
a
4
R
C
p
8
SYN
BEL
9
BS
q
5
S
&
ETB
D
b
9
6
CAN
c
E
T
‘
A
r
A
HT
U
F
B
7
d
s
(
LF
B
EM
e
G
8
t
V
VT
)
C
SUB
C
W
f
H
u
D
D
9
ESC
FF
*
X
g
v
FS
I
CR
+
E
E
:
h
w
GS
,
F
SO
Y
;
J
F
x
SI
-
Z
RS
i
K
y
=
US
j
L
[
.
k
M
\
/
z
?
l
]
{
N
|
^
m
O
}
n
_
o
~
DEL
Windows-1251
КОИ-8
─
│
░
┌
═
▒
┐
▓
║
╟
╒
⌠
└
ю
╠
ё
┘
п
■
а
╡
я
б
Ё
╓
Ю
├
∙
┤
ц
А
р
╔
√
╢
П
╕
с
≈
Б
Я
┬
д
╣
╖
Ц
е
т
≤
┴
Р
╤
╥
┼
у
Д
С
ф
╗
≥
ж
г
Е
▀
╘
Т
╦
⌡
Ф
в
╙
х
У
╧
▄
Г
╚
ь
°
и
Ж
█
╨
²
Х
╛
й
ы
В
╩
▌
И
▐
к
·
з
╜
Ь
╪
÷
ш
Й
╝
╫
Ы
л
К
╞
З
╬
м
э
Ш
©
щ
Л
н
о
ч
М
Э
Н
ъ
Щ
О
Ч
Ъ
Ђ
ђ
Ѓ
‘
‚
ѓ
’
Ў
°
ў
“
„
±
А
Ј
І
…
Р
”
Б
¤
а
і
†
В
С
•
Т
Ґ
б
Г
–
‡
ґ
р
У
¦
в
—
с
Д
µ
€
г
§
Е
¶
Ф
‰
т
™
Ж
Љ
·
д
Х
Ё
у
З
‹
©
Ц
љ
е
ф
ё
ж
Ч
›
Є
И
Њ
х
№
з
«
Й
Ќ
ц
є
Ш
њ
и
ч
ќ
Щ
¬
»
К
Ћ
й
Ъ
ћ
Џ
Л
ш
ј
Ы
®
к
џ
М
Ѕ
щ
л
Ї
ъ
ѕ
Н
Ь
О
ї
Э
м
ы
П
Ю
н
ь
Я
о
э
п
ю
я
Стандарт Unicode
Unicode — это «уникальный код для любого символа, независимо от платформы, независимо от программы, независимо от языка» (www.unicode.org).
!
Стандарт Unicode был разработан в 1991 году и описывает алфавиты всех извест-ных, в том числе и «мертвых», языков. Для языков, имеющих несколько алфавитов или вариантов написания (японского и индийского), закодированы все варианты.
В кодировку Unicode внесены все матема-тические и иные научные символьные обозначения и даже некоторые придуман-ные языки (язык эльфов из трилогии Дж. Р. Р. Толкина «Властелин колец»).
65536
Клавиатуры некоторых стран мира
АМЕРИКАНСКАЯ
РУССКАЯ
Комментарии
Интерактивные элементы - кнопки – выбор раскладок клавиатуры (на усмотрение учителя)
ЯПОНСКАЯ
АРМЯНСКАЯ
АРАБСКАЯ
8
Кодировки стандарта Unicode
Для представления символов в памяти компьютера в стандарте Unicode имеется несколько кодировок.
Кодировка UTF-16
Кодировка UTF-8
Часто используемые символы: 2 байта (16 бит)
Символы, входящие
в таблицу ASCII: 1 байт (8 бит)
Редко используемые символы: 4 байта (32 бит)
Символы, не входящие в таблицу ASCII: 2-4 байта (16-32 бит)
Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.
!
Информационный объем сообщения
Информационным объёмом текстового сообще-ния называется количество бит (байт, килобайт, мегабайт и т. д.), необходимых для записи этого сообщения путём заранее оговоренного способа двоичного кодирования.
!
Количество символов в сообщении
ASCII, КОИ-8, Windows-1251, …
1 символ = 1 байт
Unicode
1 символ = 2 байта
Вопросы и задания
В Советском энциклопедическом словаре (1983 года издания) 1600 страниц. На одной странице размещается в среднем 100 строк по 140 символов (включая пробелы) в каждой. Найдите объем (в Мбайтах) текстовой информации в словаре, если при записи используется кодировка « один символ — один байт ».
Дано :
i = 1 байт
K = 1600·100·140
1600·100·140
Комментарии
Задача с разобранным решением
I =
I = K·i
Мб ≈ 21,36 Мб
1024·1024
I - ?
Ответ : 21,36 Мбайта
11
Самое главное
Текстовая информация по своей природе дискретна, так как представляется последовательностью отдельных символов.
В памяти компьютера хранятся специальные кодовые таблицы, в которых для каждого символа указан его двоичный код. Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.
Основой для компьютерных стандартов кодирования символов послужил код ASCII, рассчитанный на передачу только английского текста. Расширения ASCII-кодировки, в которых первые 128 символов кодовой таблицы совпадают с кодировкой ASCII, а остальные (с 128-го по 255-й) используются для кодирования букв национального алфавита, символов национальной валюты и т. п.
Самое главное
В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode (Юникод), позволяющий использовать в текстах любые символы любых языков мира. Кодировки Unicode позволяют включать в один документ символы самых разных языков, но их использование ведёт к увеличению размеров текстовых файлов.
/ M k \ z N ] { ? l ^ O m | _ } n ~ o DEL ОТВЕТ " width="640"
Вопросы и задания
Задание 1. Представьте в кодировке ASCII текст
Happy New Year!
а) шестнадцатеричным кодом
б) десятичным кодом
48 61 70 70 79 20 4E 65 77 20 59 65 61 72 21
72 97 112 112 121 32 78 101 119 32 89 101 97 114 33
0
0
1
NUL
1
2
SOH
DLE
2
3
DC1
STX
3
4
DC2
ETX
0
!
4
5
DC3
@
1
5
“
EOT
DC4
#
6
P
A
ENQ
6
2
7
Q
ACK
NAK
7
3
B
$
`
BEL
R
SYN
C
4
8
p
a
%
ETB
S
q
D
&
b
5
BS
9
r
6
T
E
HT
c
‘
CAN
A
F
s
U
7
EM
LF
B
(
d
VT
SUB
V
G
C
e
)
8
t
ESC
W
*
D
H
u
9
f
FF
X
FS
CR
:
g
I
v
E
+
w
SO
;
GS
J
Y
F
,
h
Z
RS
SI
K
-
x
i
[
US
=
y
.
L
j
/
M
k
\
z
N
]
{
?
l
^
O
m
|
_
}
n
~
o
DEL
ОТВЕТ
Подходы к расположению русских букв в различных кодировках
Задание 2. Сравните подходы к расположению русских букв в кодировках Windows-1251 и КОИ-8.
0
…
1
4
2
@
5
3
P
A
6
4
B
Q
7
`
p
5
C
R
…
a
D
6
b
C
q
S
T
E
7
r
c
D
8
F
E
U
s
d
9
G
V
t
e
F
A
H
u
f
W
I
B
X
v
g
C
J
h
Y
w
K
D
Z
x
i
L
E
j
y
[
M
\
z
F
k
N
]
{
l
O
|
^
m
}
n
_
~
o
ю
п
а
б
я
Ю
р
ц
П
А
с
д
Б
Я
т
Ц
Р
е
ф
у
Д
С
ж
Е
г
Т
х
Ф
в
У
ь
и
Г
Ж
Х
й
ы
В
з
Ь
к
И
л
Й
ш
Ы
э
З
м
К
щ
н
Л
Ш
ч
М
о
Э
ъ
Н
Щ
Ч
О
Ъ
e Е
i И
w В
r Р
p П
t Т
Windows-1251
КОИ-8
Комментарии.
В таблице Windows-1251 русские буквы расположены в алфавитном порядке (кроме Ё). Благодаря такому расположению компьютерным программам очень просто осуществлять сортировку по алфавиту.
А вот в КОИ-8R порядок русских букв кажется случайным. Но на самом деле это не так. Во многих старых программах при обработке или передаче текста терялся 8-й бит. (Сейчас такие программы практически “вымерли”, но в конце 80-х – начале 90-х годов они были широко распространены). Чтобы получить из 8-битного значения 7-битное, достаточно отнять от старшей цифры 8; например, E1 превращается в 61.
Сравним КОИ-8R с таблицей ASCII: русские буквы поставлены в чёткое соответствие с латинскими. Если исчезнет 8-й бит, строчные русские буквы превращаются в заглавные латинские, а заглавные русские – в строчные латинские. Так, E1 в КОИ-8 – это русское “А”, тогда как 61 в ASCII – латинское “a”.
Итак, КОИ-8 позволяет сохранять читаемость русского текста при потере 8-го бита. «ПРИВЕТ» превращается в «priwet».
В последнее время и алфавитный порядок расположения символов в таблице кодировки, и читаемость при потере 8-го бита потеряли решающее значение. Восьмой бит в современных компьютерах не теряется ни при передаче, ни при обработке. А сортировка по алфавиту производится с учётом кодировки, а не простым сравнением кодов. (http://gimnnik.narod.ru/open-office/TextProcessor/p5aa1.html)
А
Р
Б
В
С
а
Т
Г
р
б
У
в
Д
с
т
г
Ф
Е
Ж
у
Х
д
Ц
З
е
ф
Ч
х
И
ж
з
Ш
ц
Й
ч
Щ
К
и
Л
Ъ
й
ш
Ы
М
щ
к
Н
л
ъ
Ь
О
ы
Э
м
Ю
П
ь
н
Я
э
о
п
ю
я
ю
а
п
я
б
Ю
р
ц
П
А
с
д
Я
Б
е
Р
т
Ц
ф
С
у
Д
ж
г
Е
Т
в
Ф
х
У
и
ь
Ж
Г
ы
В
й
Х
з
к
И
Ь
ш
л
Ы
Й
м
К
э
З
н
щ
Ш
Л
о
ч
Э
М
ъ
Щ
Н
Ч
О
Ъ
ПОДСКАЗКА - 2
ПОДСКАЗКА - 1
Вопросы и задания
Задание 3. В 15-м издании энциклопедии Britannica 32 тома, в каждом из которых порядка 1000 страниц. На одной странице размещается в среднем 70 строк по 120 символов (включая пробелы) в каждой. Найдите объем текстовой информации в энциклопедии, если при записи используется кодировка Unicode (« один символ — два байта »).
Дано :
i = 2 байта
K = 32·1000·70·120
32·1000·70·120·2
I =
I = K·i
Мб ≈ 513 Мб
1024·1024
Комментарии
Задача с разобранным решением
I - ?
Ответ : 513 Мбайт
16
Информационные источники
- http://dev.bowdenweb.com/a/i/cons/utilities/unicode/unicode-2000px.png
- https://openclipart.org/image/2400px/svg_to_png/177279/Blank-Generic-Keyboard-Remix-by-Merlin2525.png
- http://arstyle.org/uploads/posts/2010-07/1278744192_1274782943_dreamstime_9113949-converted.jpg
- http://www.businesstoday.net.my/wp-content/uploads/2015/04/Computer-Programmer-Coding-Camp-shutterstock.jpg
- http://static.ozone.ru/multimedia/1005976053.jpg
- http://gimnnik.narod.ru/open-office/TextProcessor/p5aa1.html
- http://media.washtimes.com.s3.amazonaws.com/media/image/2012/03/14/encyclopaedia-britann_lea.jpg
- http://www.novilist.hr/var/novilist/storage/images/sci-tech/tehnologija/encyclopaedia-britannica-prekida-tiskanje-postaje-digitalna/1306075-1-cro-HR/Encyclopaedia-Britannica-prekida-tiskanje-postaje-digitalna.jpg
16