Кодирование информации. Способы кодирования



Двоичное кодирование текстовой информации;

Различные кодировки кириллицы

Представление информации в различных формах происходит в процессе восприятия окружающей среды живыми организмами и человеком, в процессах обмена информацией между человеком и человеком, человеком и компьютером, компьютером и компьютером и т.д. Преобразование информации из одной формы в другую (кодирование) необходимо для того, чтобы живой организм, человек или компьютер мог хранить и обрабатывать информацию в удобной для него форме, на понятном для него языке.

В процессе преобразования информации из одной формы представления (знаковой системы) в другую происходит кодирование. Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.

В процессе обмена информацией часто приходится производить операции кодирования и декодирования информации. При вводе знака алфавита в компьютер путем нажатия соответствующей клавиши на клавиатуре происходит его кодирование, т.е. преобразование в компьютерный код. При выводе знака на экран монитора или принтер происходит обратный процесс – декодирование, когда из компьютерного кода знак преобразуется в графическое его изображение.

Кодирование – это операция преобразования знаков или групп знаков одной знаковой системы в знаки или группы другой знаковой системы.

Компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Возникает вопрос: как, каким образом компьютер обрабатывает столь различающиеся по восприятию человеком виды информации? Все эти виды информации кодируются в последовательности электрических импульсов: есть импульс (1), нет импульса (0), т.е. в последовательности нулей и единиц. Такое кодирование информации в компьютере называется двоичным кодированием, а логические последовательности нулей и единиц – машинным языком. Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1). Эти цифры можно рассматривать как два равновероятных состояния (события). При записи двоичной цифры реализуется выбор одного из двух возможных состояний (одной из двух цифр) и, следовательно, она несет количество информации, равное 1 биту. Важно, что каждая цифра машинного двоичного кода несет информацию в 1 бит. Таким образом, две цифры несут информацию 2 бита, три разряда – 3 бита и т.д. Количество информации в битах равно количеству цифр двоичного машинного кода. Каждаяцифра машинного двоичного кода несет количество информации, равное одному биту.

В компьютере для представления числовой информации используется двоичная система счисления. Компьютер использует две цифры, т. к. до сих пор не удается создать надежно работающие технические устройства, которые могли бы со стопроцентной надежностью сохранять и распознавать большее, чем два, количество различных состояний (цифр). Для двух состояний такие устройства существуют: электромагнитные реле (замкнуто/разомкнуто), они широко использовались в конструкциях первых ЭВМ; участок поверхности магнитного носителя информации (намагничен/размагничен); участок поверхности лазерного диска (отражает/не отражает); триггер, может устойчиво находиться в одном из двух состояний, широко используется в оперативной памяти компьютера.

Основание в системе счисления определяет перенос в старший разряд числа. Чем меньше основание, тем быстрее растет разрядность числа. Человеку очень трудно воспринимать многоразрядные числа, и поэтому он с трудом воспринимает числа, записанные в двоичном коде.

В процессе обработки информации на компьютере широкое распространение получили также восьмеричная и шестнадцатеричная системы счисления. Программисты часто используют эти системы на этапах отладки программ или просмотра содержимого файлов, т.к. информация представляется в этом случае в более удобной для просмотра сжатой форме (используется меньшее количество разрядов).

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации и в настоящее время большая часть персональных компьютеров в мире (и наибольшее время) заняты обработкой именно текстовой информации.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т.е. I=1 байт=8 бит.

Для кодирования одного символа требуется 1 байт информации.

Если рассматривать символы как возможные события, то по формуле можно вычислить, какое количество различных символов можно закодировать:

N = 2I= 28 = 256.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0до 255 или соответствующий ему двоичный кодот 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер – по их коду.

При вводе в память компьютера текстовой информации происходит ее двоичное кодирование, символ преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом и в память компьютера поступает последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.

В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т.е. преобразование кода символа в его изображение.

Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т.д.).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды со 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ-8, СР1251, СР866, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

Каждая кодировка задается своей собственной кодовой таблицей Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

В последнее время появился новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 216 = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows&Office (начиная с 1997 года).

 


Дата добавления: 2018-02-28; просмотров: 536; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!