Измерение количества информации



 

Термин «информация» имеет корень -form- (форма), что разумно трактовать как «информирование - придание формы, вывод из состояния неопределенности, бесформенности», поэтому следует подходить к определению понятия «количество информации», исходя из того, что информацию, содержащуюся в сообщении, можно трактовать в смысле ее воздействия на объект, или, иначе, уменьшения неопределенности знаний «приемника информации» об объекте.

В свое время К. Шеннон в качестве единицы информации предложил принять один бит (от англ. BIT − BInary digiT − двоичная цифра). Это такое количество информации, которое уменьшает неопределенность знаний об объекте в 2 раза[2]. Сегодня в вычислительной технике битом является наименьшая порция памяти компьютера, необходимая для хранения одного из двух знаков – «0» и «1», используемых для представления данных и команд.

Поскольку бит - слишком малая единица, на практике обычно применяется байт, равный восьми битам. В частности, восемь бит требуется для того, чтобы закодировать любой из 256 символов основного компьютерного кода ASCII (256 = 28).

Используются также более крупные производные единицы информации:

- килобайт (Кбайт, KB) = 1000 байт = 103 байт;

- мегабайт (Мбайт, MB) = 1000 Кбайт = 106 байт;

- гигабайт (Гбайт, GB) = 1000 Мбайт = 109 байт.

С увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

- терабайт (Тбайт, TB) = 1000 Гбайт = 1012 байт;

- петабайт (Пбайт, PB) = 1000 Тбайт = 1015 байт;

- экзобайт = 1018 байт и пр.

Это так называемые десятичные единицы. В качестве альтернативной IEC предложила в 1998 г. двоичные единицы:

- KiB (KibiByte) – 210 = 1024 байт;

- MiB (MibiByte) = 1024 KiB = 220 байт;

- GiB (GibiByte) = 1024 MiB = 230 байт и т. д.

Кодирование символьной информации

Код (code) - совокупность знаков, символов и правил представления информации. Рассмотрим методы дискретного представления информации, или кодирования (которые, надо сказать, появились задолго до вычислительных машин).

В табл. 1.1 приводится перечень наиболее известных кодов, некоторые из них использовались первоначально для связи, кодирования данных, а затем для представления информации в ЭВМ.

 

Т а б л и ц а 1.1

Характеристики некоторых наиболее известных кодов

Наименование кода Расшифровка/ перевод Другие названия Разрядность Комментарий
1 2 3 4 5
  ASCII-7   American Standard Code for Information Interchange   ISO-7 IA-5, USASCII, ANSI X3.4 7 Код для передачи данных, поддерживает 128 символов, включающих прописные и строчные символы латиницы, цифры, специальные значки и управляющие символы. После добавления некоторых национальных символов (10 бинарных комбинаций), был принят Международной организацией по стандартизации (ISO) как стандарт ISO-7

О к о н ч а н и е т а б л. 1.1

 

1 2 3 4 5
  ASCII-8   − “ −     8   Для внутреннего и внешнего представления данных в вычислительных системах. Включает стандартную часть (128 символов) и национальную              (128 символов). В зависимости от национальной части, кодовые таблицы различаются
  UNICODE   UNIversal Code     16   Поскольку в 16-разрядном UNICODE можно закодировать 65536 символов вместо 128 в ASCII, то отпадает необходимость в создании модификаций таблиц кодов. UNICODE охватывает 28 000 букв, знаков, слогов, иероглифов национальных языков мира

 

Присваивание символу конкретного двоичного кода – вопрос соглашения, которое фиксируется в кодовой таблице. В существующих сейчас кодовых таблицах первые 33 кода (десятичные коды с 0 по 32) соответствуют не символам, а управляющим командам (перевод строки, возврат каретки, очистка экрана, звуковой сигнал и т. д.).

Десятичные коды с 33 по 127 являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Десятичные коды с 128 по 255 являются национальными, т. е. в различных национальных кодировках одному и тому же коду соответствуют разные знаки. В настоящее время действуют несколько различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO) (табл. 1.2), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

 

Т а б л и ц а  1.2

Десятичные коды некоторых символов в различных кодировках

Символ Windows MS-DOS КОИ-8 Mac ISO Unicode
А 192 128 225 128 176 1040
В 194 130 247 130 178 1042
М 204 140 237 140 188 1052
Э 221 157 252 157 205 1069
я 255 239 241 223 239 1103

 

Например, в кодировке Windows последовательность числовых кодов 221, 194, 204 образует слово «ЭВМ», тогда как в других кодировках это будет бессмысленный набор символов.


Дата добавления: 2018-05-12; просмотров: 307; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!