Попробуйте готовые материалы учителя на каждый урок для работы в классе и дистанционно.

СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Выбрать материалы

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Был в сети 09.02.2024 08:06

Храмушин Михаил Васильевич

Преподаватель

32 года

4 674

9 112

Подписчики

Подписки

Местоположение

Россия, с. Починки

Специализация

Информатика

Всем учителям

Обо мне Блог Файлы Тесты Галерея Активность Награды

Кодирование и сжатие информации

Категория: Информатика

21.10.2021 11:19

Просмотр содержимого документа
«Кодирование и сжатие информации»

Для удобства представления информации в компьютере все возможные виды информации переводятся в числовую форму, и эти числа хранятся в компьютере в двоичном виде, т. е. кодируются.

Кодирование информации — процесс преобразования информации из формы, удобной для непосредственного использования, в форму, удобную для передачи, хранения или автоматической переработки.

Кодирование текстовой информации

Для записи текстовой (знаковой) информации всегда используется какой-либо язык (естественный или формальный).

Всё множество используемых в языке символов называется алфавитом. Полное число символов алфавита N называют его мощностью. При записи текста в каждой очередной позиции может появиться любой из N символов алфавита, т. е. может произойти N событий. Следовательно, каждый символ алфавита содержит i бит информации, где i определяется из неравенства (формула Хартли): 2i ≥ N. Тогда общее количество информации в тексте определяется формулой:

V = k * i ,

где V – количество информации в тексте; k – число знаков в тексте (включая знаки препинания и даже пробелы), i- количество бит, выделенных на кодирование одного знака.

Так как каждый бит – это 0 или 1, то любой текст может быть представлен последовательностью нулей и единиц. Именно так текстовая информация хранится в памяти компьютера. Присвоение символу алфавита конкретного двоичного кода - это вопрос соглашения, зафиксированного в кодовой таблице. В настоящее время широкое распространение получили кодовые таблицы ASCII и Unicode.

ASCII (American Standart Code for Informational Interchange - Американский стандартный код информационного обмена) используется достаточно давно. Для хранения кода одного символа выделено 8 бит, следовательно, кодовая таблица поддерживает до 28 = 256символов. Первая половина таблицы (128 символов) - управляющие символы, цифры и буквы латинского алфавита. Вторая половина отводится под символы национальных алфавитов. К сожалению, в настоящее время существует целых пять вариантов кодовых таблиц для русских букв (КОИ-8, Windows-1251, ISO, DOS, MAC), поэтому тексты созданные в одной кодировке неверно отображаются в другой. (Наверное, Вы встречали русскоязычные сайты, тексты которых выглядят как бессмысленный набор знаков?).

Unicode - получил распространение в последние годы. Для хранения кода одного символа выделено 16 бит, следовательно, кодовая таблица поддерживает до 216 = 65536 символов. Такого пространства достаточно, чтобы в одном стандарте объединить все "живые" официальные (государственные) письменности. Кстати, стандарт ASCII вошел в состав Unicode.

Если кодирование – это перевод информации с одного языка на другой (запись в другой системе символов, в другом алфавите), то декодирование – обратный перевод.

При кодировании один символ исходного сообщения может заменяться одним символом нового кода или несколькими символами, а может быть и наоборот – несколько символов исходного сообщения заменяются одним символом в новом коде (китайские иероглифы обозначают целые слова и понятия), поэтому кодирование может быть равномерное и неравномерное. При равномерном кодировании все символы кодируются кодами равной длины, при неравномерном кодировании разные символы могут кодироваться кодами разной длины, что затрудняет декодирование.

Закодированное сообщение можно однозначно декодировать с начала, если выполняется условие Фано: никакое кодовое слово не является началом другого кодового слова. Закодированное сообщение можно однозначно декодировать с конца, если выполняется обратное условие Фано: никакое кодовое слово не является окончанием другого кодового слова. Условие Фано – это достаточное, но не необходимое условие однозначного декодирования.

Решение задач на кодирование текстовой информации

1.Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке длиной в 20 символов, первоначально записанного в 2-байтном коде Unicode, в 8-битную кодировку КОИ-8. На сколько бит уменьшилась длина сообщения? В ответе запишите только число.

Решение:

1) при 16-битной кодировке объем сообщения – 16*20 бит

2) когда его перекодировали в 8-битный код, его объем стал равен– 8*20 бит

3) таким образом, сообщение уменьшилось на 16*20 – 8*20 = 8*20 = 160 бит

Ответ: 160

2. Определите информационный объем текста в битах

Бамбарбия! Кергуду!

Решение:

1) в этом тексте 19 символов (обязательно считать пробелы и знаки препинания)

2) если нет дополнительной информации, считаем, что используется 8-битная кодировка (чаще всего явно указано, что кодировка 8- или 16-битная), поэтому в сообщении 19*8 = 152 бита информации

Ответ: 152

Кодирование звуковой информации

Звук – непрерывный сигнал. При двоичном кодировании аналогового звукового сигнала непрерывный сигнал дискретизируется, т.е. заменяется серией отдельных выборок с заданной периодичностью. Качество двоичного кодирования зависит от двух параметров: количества распознаваемых дискретных уровней сигнала и количества выборок в секунду. Периодичность выборок определяется частотой дискретизации. Оцифрованный звуковой сигнал соответствует исходному аналоговому сигналу в том случае, если частота дискретизации не меньше удвоенной частоты наивысшей гармоники этого исходного сигнала. Человек слышит звуки в диапазоне от 20 Гц до 20 кГц, поэтому максимальная частота дискретизации должна быть не менее 40 кГц.

Одновременно с дискретизацией осуществляется квантование отсчетов по амплитуде – измерение мгновенных значений амплитуды и преобразование их в цифровой код. Точность измерения зависит от количества разрядов кодового слова. При длине кодового слова 8 бит количество градаций амплитуды составляет 256, при 16 битах – 65 536. На рис. 1.2 показан процесс дискретизации и квантования аналогового сигнала 3-разрядными числами.

Для стереозвука дискретизация и квантование выполняются отдельно и независимо для левого и правого каналов. Для записи и воспроизведения звука в компьютерах исполь-

Рис. 1.2. Дискретизация по времени и квантование по уровню аналогового сигнала

зуются звуковые карты, которые обеспечивают 8- или 16-битные выборки.

Качество звука в дискретной форме может быть плохим (качество радиотрансляции) при 8 битах и 5,5 кГц и достаточно высоким (качество аудио-CD) при 16 битах и 44 кГц. Объем аудиофайла с длительностью звучания 1 с при хорошем качестве звука составит V = 16 бит • 44 000 = 88 Кбайт. Для уменьшения объема хранения аудиоинформации применяют методы компрессии (сжатия), уменьшающие объем без ухудшения качества до 20% первоначального.

При генерировании звучания различных музыкальных инструментов используются синтезаторы, применяющие такие методы, как метод частотной модуляции (FM-синтез) и таблицы волн (WT-синтез).

Кодирование видеоинформации

Видеоинформация формируется в результате организации потокового видео – последовательности "движущихся изображений". Оцифровка видеофрагмента связана с проблемами обеспечения очень больших скорости обмена и объема данных. Проблема повышения скорости обмена решается путем разработки быстродействующих накопителей данных. Для уменьшения объема данных, содержащихся в видеопотоке (до 9 Мб/с), для записи информации в ЭВМ обычно применяют кодирование со сжатием потока данных. Размер файла сжатого дискретного неподвижного изображения зависит от четырех параметров: площади изображения, разрешения, числа битов, необходимых для представления пикселя, и коэффициента сжатия. В видеофильме к этому еще добавляется число образующих его неподвижных изображений. Выбор коэффициента сжатия – компромисс между пропускной способностью системы и качеством восстанавливаемого изображения. Чем выше коэффициент сжатия, тем ниже качество изображения. Поэтому выбор указанных параметров обосновывается технико-экономическим анализом и алгоритмом сжатия.

Существует немало технологий сжатия/восстановления изображений. Наиболее популярная предложена объединенной группой экспертов в области фотографии (Joint Photographic Experts Group, JPEG) и позволяет сократить размеры графического файла в 10–12 раз. Для сжатия видеоинформации применяют технологию стандарта MPEG

(Motion Picture Expert Group). Алгоритм MPEG преобразует изображение η поток сжатых данных, учитывая то, что человек, видящий движущийся объект, сосредоточивает внимание на нем, а неподвижный фон воспринимает в меньшей степени. Это позволяет выделять меняющиеся и "замороженные" фрагменты в кадре: актер движется, а декорация не меняется, что позволяет экономить на размере информации, основную картинку оцифровать один раз, а далее фиксировать и передавать только изменения. Видеоформат MPEG-1, созданный в конце 1980-х гг. и использовавшийся в Video-CD, уступил место более качественному MPEG-2, а новый стандарт MPEG-4, разработанный фирмой Microsoft в 1999 г., и его модификация DivX позволили размещать видеофильм хорошего качества на обычном компакт-диске.

Мультимедиаинформация – сочетание текстовой, звуковой, графической, видеоинформации, представляемой на экране компьютера или мультимедиапроектора. Мультимедиаинформация обладает огромными объемами, поэтому сжимается программами сжатия, а перед воспроизведением восстанавливается, как говорят, "на лету" по мере поступления потока данных. Мультимедийные компьютерные программы позволяют формировать параллельные потоки информации: текстовой, визуальной и звуковой.