Измерение количества информации
Термин «информация» имеет корень -form- (форма), что разумно трактовать как «информирование - придание формы, вывод из состояния неопределенности, бесформенности», поэтому следует подходить к определению понятия «количество информации», исходя из того, что информацию, содержащуюся в сообщении, можно трактовать в смысле ее воздействия на объект, или, иначе, уменьшения неопределенности знаний «приемника информации» об объекте.
В свое время К. Шеннон в качестве единицы информации предложил принять один бит (от англ. BIT − BInary digiT − двоичная цифра). Это такое количество информации, которое уменьшает неопределенность знаний об объекте в 2 раза[2]. Сегодня в вычислительной технике битом является наименьшая порция памяти компьютера, необходимая для хранения одного из двух знаков – «0» и «1», используемых для представления данных и команд.
Поскольку бит - слишком малая единица, на практике обычно применяется байт, равный восьми битам. В частности, восемь бит требуется для того, чтобы закодировать любой из 256 символов основного компьютерного кода ASCII (256 = 28).
Используются также более крупные производные единицы информации:
- килобайт (Кбайт, KB) = 1000 байт = 103 байт;
- мегабайт (Мбайт, MB) = 1000 Кбайт = 106 байт;
- гигабайт (Гбайт, GB) = 1000 Мбайт = 109 байт.
С увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
- терабайт (Тбайт, TB) = 1000 Гбайт = 1012 байт;
|
|
- петабайт (Пбайт, PB) = 1000 Тбайт = 1015 байт;
- экзобайт = 1018 байт и пр.
Это так называемые десятичные единицы. В качестве альтернативной IEC предложила в 1998 г. двоичные единицы:
- KiB (KibiByte) – 210 = 1024 байт;
- MiB (MibiByte) = 1024 KiB = 220 байт;
- GiB (GibiByte) = 1024 MiB = 230 байт и т. д.
Кодирование символьной информации
Код (code) - совокупность знаков, символов и правил представления информации. Рассмотрим методы дискретного представления информации, или кодирования (которые, надо сказать, появились задолго до вычислительных машин).
В табл. 1.1 приводится перечень наиболее известных кодов, некоторые из них использовались первоначально для связи, кодирования данных, а затем для представления информации в ЭВМ.
Т а б л и ц а 1.1
Характеристики некоторых наиболее известных кодов
Наименование кода | Расшифровка/ перевод | Другие названия | Разрядность | Комментарий |
1 | 2 | 3 | 4 | 5 |
ASCII-7 | American Standard Code for Information Interchange | ISO-7 IA-5, USASCII, ANSI X3.4 | 7 | Код для передачи данных, поддерживает 128 символов, включающих прописные и строчные символы латиницы, цифры, специальные значки и управляющие символы. После добавления некоторых национальных символов (10 бинарных комбинаций), был принят Международной организацией по стандартизации (ISO) как стандарт ISO-7 |
О к о н ч а н и е т а б л. 1.1
|
|
1 | 2 | 3 | 4 | 5 |
ASCII-8 | − “ − | 8 | Для внутреннего и внешнего представления данных в вычислительных системах. Включает стандартную часть (128 символов) и национальную (128 символов). В зависимости от национальной части, кодовые таблицы различаются | |
UNICODE | UNIversal Code | 16 | Поскольку в 16-разрядном UNICODE можно закодировать 65536 символов вместо 128 в ASCII, то отпадает необходимость в создании модификаций таблиц кодов. UNICODE охватывает 28 000 букв, знаков, слогов, иероглифов национальных языков мира |
Присваивание символу конкретного двоичного кода – вопрос соглашения, которое фиксируется в кодовой таблице. В существующих сейчас кодовых таблицах первые 33 кода (десятичные коды с 0 по 32) соответствуют не символам, а управляющим командам (перевод строки, возврат каретки, очистка экрана, звуковой сигнал и т. д.).
Десятичные коды с 33 по 127 являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Десятичные коды с 128 по 255 являются национальными, т. е. в различных национальных кодировках одному и тому же коду соответствуют разные знаки. В настоящее время действуют несколько различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO) (табл. 1.2), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
|
|
Т а б л и ц а 1.2
Десятичные коды некоторых символов в различных кодировках
Символ | Windows | MS-DOS | КОИ-8 | Mac | ISO | Unicode |
А | 192 | 128 | 225 | 128 | 176 | 1040 |
В | 194 | 130 | 247 | 130 | 178 | 1042 |
М | 204 | 140 | 237 | 140 | 188 | 1052 |
Э | 221 | 157 | 252 | 157 | 205 | 1069 |
я | 255 | 239 | 241 | 223 | 239 | 1103 |
Например, в кодировке Windows последовательность числовых кодов 221, 194, 204 образует слово «ЭВМ», тогда как в других кодировках это будет бессмысленный набор символов.
Дата добавления: 2018-05-12; просмотров: 307; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!