Кодирование и декодирование информации.
Кодирование и декодирование
Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными языками были разработаны формальные языки для профессионального применения их в какой-либо сфере. Представление информации с помощью какого-либо языка часто называют кодированием.
Код — набор символов (условных обозначений) для представления информации.
Код — система условных знаков (символов) для передачи, обработки и хранения информации(со общения).
Кодирование — процесс представления информации (сообщения) в виде кода.
Все множество символов, используемых для кодирования, называется алфавитом кодирования . Например, в памяти компьютера любая информация кодируется с помощью двоичного алфавита, содержащего всего два символа: 0 и1.
Декодирование - процесс обратного преобразования кода к форме исходной символьной системы, т.е. получение исходного сообщения. Например: перевод с азбуки Морзе в письменный текст на русском языке.
В более широком смысле декодирование — это процесс восстановления содержания закодированного сообщения. При таком подходе процесс записи текста с помощью русского алфавита можно рассматривать в качестве кодирования, а его чтение — это декодирование.
Способы кодирования информации
Для кодирования одной и той же информации могут быть использованы разные способы; их выбор зависит от ряда обстоятельств: цели кодирования, условий, имеющихся средств .
Если надо записать текст в темпе речи — используем стенографию; если надо передать текст за границу — используем английский алфавит; если надо представить текст в виде, понятном для грамотного русского человека, — записываем его по правилам грамматики русского языка.
« Здравствуй, Саша! »
« Zdravstvu y , Sa s ha! »
Двоичное кодирование в компьютере
Вся информация, которую обрабатывает компьютер должна быть представлена двоичным кодом с помощью двух цифр: 0 и 1 . Эти два символа принято называть двоичными цифрами или битами .
С помощью двух цифр 0 и 1 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организованно два важных процесса: кодирование и декодирование.
Кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код.
Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.
Привет! 1001011
Почему двоичное кодирование
С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента:
0 – отсутствие электрического сигнала;
1 – наличие электрического сигнала.
Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды . Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных.
Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.
Представление (кодирование) чисел
- Для записи информации о количестве объектов используются числа. Числа записываются с помощью набора специальных символов.
- Система счисления — способ записи чисел с помощью набора специальных знаков, называемых цифрами.
Виды систем счисления
СИСТЕМЫ СЧИСЛЕНИЯ
ПОЗИЦИОННЫЕ
НЕПОЗИЦИОННЫЕ
В непозиционных системах счисления величина, которую обозначает цифра, не зависит от положения в числе.
XXI
В позиционных системах счисления величина , обозначаемая цифрой в записи числа, зависит от её положения в числе ( позиции ).
211
Непозиционные системы счисления
Каноническим примером фактически непозиционной системы счисления является римская , в которой в качестве цифр используются латинские буквы:
I обозначает 1, V - 5, X - 10, L - 50, C - 100, D - 500, M -1000.
Натуральные числа записываются при помощи повторения этих цифр.
Например, II = 1 + 1 = 2, здесь символ I обозначает 1 независимо от места в числе.
Для правильной записи больших чисел римскими цифрами необходимо сначала записать число тысяч, затем сотен, затем десятков и, наконец, единиц.
Пример: число 1988. Одна тысяча M, девять сотен CM, восемьдесят LXXX, восемь VIII. Запишем их вместе: MCMLXXXVIII.
MCMLXXXVIII = 1000+(1000-100)+( 50+ 10 +10+10 )+5+1+1+1 = 19 8 8
Для изображения чисел в непозиционной системе счисления нельзя ограничится конечным набором цифр. Кроме того, выполнение арифметических действий в них крайне неудобно.
Позиционные системы счисления
В позиционных системах счисления величина, обозначаемая цифрой в записи числа, зависит от её положения в числе (позиции).
Количество используемых цифр называется основанием системы счисления .
Например, 11 – это одиннадцать, а не два: 1 + 1 = 2 (сравните с римской системой счисления). Здесь символ 1 имеет различное значение в зависимости от позиции в числе.
Десятичная система счисления
Десятичная система счисления — позиционная система счисления по основанию 10.
Предполагается, что основание 10 связано с количеством пальцев рук у человека.
Наиболее распространённая система счисления в мире.
Для записи чисел используются символы 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , называемые арабскими цифрами.
Двоичная система счисления
Двоичная система счисления — позиционная система счисления с основанием 2. Используются цифры 0 и 1.
Двоичная система используется в цифровых устройствах, поскольку является наиболее простой и удовлетворяет требованиям:
- Чем меньше значений существует в системе, тем проще изготовить отдельные элементы.
- Чем меньше количество состояний у элемента, тем выше помехоустойчивость и тем быстрее он может работать.
- Простота создания таблиц сложения и умножения — основных действий над числами
Числа в компьютере
Числа в компьютере хранятся и обрабатываются в двоичной системе счисления . Последовательность нулей и единиц называют двоичным кодом.
Специфической особенности представления чисел в памяти компьютера рассмотрим на других уроках по теме « системы счисления ».
Основание системы счисления
Количество различных символов, используемых для изображения числа в позиционных системах счисления, называется основанием системы счисления .
Система счисления
Десятичная
Основание
Двоичная
10
Алфавит цифр
0, 1, 2, 3, 4, 5, 6, 7, 8, 9
Восьмеричная
2
Шестнадцатеричная
0, 1
8
0, 1, 2, 3, 4, 5, 6, 7
16
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F
Соответствие систем счисления
Десятичная
0
Двоичная
1
0
Восьмеричная
2
0
1
Шестнадцате-ричная
3
10
0
1
4
1
11
2
5
3
2
100
6
4
101
3
7
5
110
4
6
111
5
7
6
7
Десятичная
Двоичная
8
Восьмеричная
9
1000
10
Шестнадцате-ричная
1001
10
11
11
1010
8
1011
12
12
9
13
13
A
1100
1101
B
14
14
1110
15
15
C
1111
16
D
16
17
10000
E
20
F
10
Двоичное кодирование текстовой информации
Информация и информационные процессы
1 символ – 1 байт (8 бит)
Для кодирования одного символа требуется один байт информации.
Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов.
2 8 =256
Двоичное кодирование текстовой информации
Кодирование заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).
Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей.
Таблица кодировки
Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки .
Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII ( A merican S tandart C ode for I nformation I nterchange ) – Американский стандартный код для информационного обмена.
Таблица кодировки ASCII
Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.
Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита.
В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251 , СР866, Mac, ISO ).
В настоящее время получил широкое распространение новый международный стандарт Unicode , который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (2 16 = 65536 ) различных символов.
- Таблица расширенного кода ASCII Кодировка Windows-1251 (CP1251)
Информационный объем текста
Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы . Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов .
В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации , то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.
Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.