Единицы количества информации



Лекция: Основы теории информации

Сущность понятия информация

Несмотря на то, что с понятием информация мы сталкиваемся каждый день, однако строгого и общепризнанного её определения до сих пор не существует. Это одно из наиболее общих понятий науки, которое обозначает некоторые, сведения, совокупность каких-либо данных, знаний и т.п.

Другими словами информация является первичным и неопределенным в рамках науки понятием. Мы можем лишь предполагать, что это понятие предполагает наличие материального носителя информации, источника информации, передатчика информации, приемника и канала связи между приемником и источником.

В широком смысле информация – это отражение реального мира, выражаемого в виде сигналов и знаков; в узком смысле информация – это любые сведения, являющиеся объектом хранения, передачи и преобразования.

Особенность этого понятия в том, что оно используется во всех без исключения сферах: философии, естественных и гуманитарных науках, социологии, искусстве, в технике и экономике и, наконец, в повседневной жизни. Поэтому конкретное толкование понятия информация зависит от метода конкретной науки, цели исследования или просто от наших житейских представлений.

В информатике понятие информация рассматривают как совокупность полезных сведений об окружающем мире, которые циркулируют в природе и обществе, их параметрах, свойствах, уменьшающих имеющуюся о них степень неопределённости. По определению К. Шеннона, информация – это снятая неопределенность.

Практически около 90% информации человек получает при помощи органов зрения (визуальный), примерно 9% — при помощи органов слуха и только 1% при помощи остальных органов чувств (обоняния, вкуса, осязания).

Информация может существовать в самых разнообразных формах. Информация может быть представлена в виде:

  • текстов, рисунков, чертежей, фотографий;
  • световых или звуковых сигналов;
  • радиоволн;
  • электрических и нервных импульсов;
  • магнитных записей;
  • жестов и мимики;
  • запахов и вкусовых ощущений и т.д.

Существуют различные виды классификации информации: по способам восприятия, по форме представления, по общественному назначению и по сфере возникновения.

Рассмотрим данные классификации.

1. По способам восприятия:

Как известно у человека пять органов чувств, с помощью которых человек получает информацию о внешнем мире: зрение, слух, обоняние, вкус, осязание. В таблице 1 представлены виды информации, которые соответствуют органам чувств.

Таблица 1

Виды информации, получаемые посредством органов чувств

Органы чувств Вид информации
Зрение Визуальная
Слух Аудиальная
Обоняние Обонятельная
Вкус Вкусовая
Осязание Тактильная

 

2. По форме представления:

В соответствии с формами представления информации существуют различные виды информации. Однако нас, в данном случае, интересуют только те виды информации, которые связаны с вычислительной техникой. В этой связи рассматривают информацию:

- текстовую;

- числовую;

- графическую;

- музыкальную;

- комбинированную.

3. По общественному значению информацию подразделяют на:

- массовую (общественная, обыденная, эстетическая);

- специальную (научная, производственная, техническая, управленческая);

- личную (знания, умения, навыки, интуиция).

4. По сфере возникновения информация может рассматриваться как:

- элементарная (в неживой природе);

- биологическая;

- социальная;

- формальная;

- неформальная.

Для того чтобы информация была понятна потребителю, и на её основе можно было бы принимать правильные решения, она должна характеризоваться такими свойствами, как:

· Релевантность - способность информации соответствовать нуждам потребителя.

· Полнотаэто исчерпывающая характеристика отображаемого объекта или процесса.

· Своевременность - соответствие нуждам потребителя в нужный момент времени.

· Достоверность - отсутствие скрытых ошибок.

· Доступность - возможность получения информации данным потребителем.

· Защищенностьневозможность несанкционированного использования или изменения информации.

· Эргономичность - удобство формы или объёма информации с точки зрения данного потребителя.

· Адекватностьоднозначное соответствие отображаемому объекту или явлению.

Единицы количества информации

Далее встает вопрос об объеме полученной информации. В компьютерной технологии применяется простейшая единица измерения информации – бит, т.е. такое количество информации, посредством которого определяется одно из двух равновероятных состояний объекта.

Значение бита может быть 0 или 1. Это значение можно толковать, как альтернативу «лож – истина», «вкл. – выкл.». А поскольку компьютер – сложная техническая система, понимающая язык электрических сигналов, очень удобно оказалось использование такой знаковой системы, в которой всего две цифры: 0 и 1. Любая из этих цифр становится эталонной единицей количества информации. Таким образом, бит – минимальная единица количества информации.

Каждый бит несет в себе информацию, количество которой ровно 1 бит. С помощью набора битов можно представить любой знак или любое число. При этом число символов, составляющих кодовую комбинацию, называют длиной кода. Договорились, что вполне достаточно число знаков в комбинации – 8.

Восемь двоичных знаков называют байтом. Число кодовых комбинаций вычисляется так: 28= 256. Этого вполне достаточно, чтобы закодировать строчные и прописные буквы русского и латинского алфавитов, цифры, знаки препинания, знаки математических операций и специальные символы.

Существуют и более крупные единицы измерения информации:

1 Килобайт (Кбайт) – 1024 байта - 210 байт;

1 Мегабайт (Мбайт) – 1024 Кбайта - 220 байт;

1 Гигобайт (Гбайт) – 1024 Мбайта - 230 байт;

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

  • 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
  • 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

Один разряд двоичного числа содержит объём информации в 1 бит.

Возможность представления информации с помощью двоичного алфавита и её обработки по правилам двоичной системы счисления объясняет, почему Кбайт образует 1024 байта. 210 = 1024, т.е. умножая на степень двоичной системы. (210 = 1 Кбайт, 220 = 1 Мбайт; 230 = 1 Гбайт; 240 = 1 Тбайт).

Над информацией можно выполнять различные операции. Процессы, связанные с определенными операциями над информацией, называются информационными процессами. Одной из основных операций, выполняемых над информацией, является обработка информации.

Обработка информации – получение одних информационных объектов из других информационных объектов путем выполнения некоторых алгоритмов.

Для обработки информации существуют различные устройства и системы, но основным устройством является компьютер, как универсальная машина для обработки информации.

Компьютеры обрабатывают информацию в соответствии с некоторыми алгоритмами.

 

Меры информации

Важный вопрос теории информации установление меры, количества и качества информации.

В определенных условиях можно пренебречь качественными особенностями информации, выразить её количество числом.

В настоящее время получили распространение подходы к определению понятия «количество информации», основанные на теории К. Шеннона о том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте.

Для измерения информации вводятся два параметра: количество информации I и объем данных Vд. В зависимости от аспекта рассмотрения информационной меры эти параметры имеют разные выражения и интерпретацию.

Информационные меры, как правило, рассматриваются в трёх аспектах: структурном, статистическом и семантическом.

В структурномаспекте рассматривается строение массивов информации и их измерение простым подсчетом информационных элементов или комбинированным методом. Структурный подход применяется для оценки возможностей информационных систем вне зависимости от условий их применения.

При статистическом подходе используется понятие энтропии как меры неопределённости, учитывающей вероятность появления, информированность того или иного сообщения. Статистический подход учитывает конкретные условия применения информационных систем.

Семантическийподход позволяет выделить полезность или ценность информационного сообщения.

 

Структурная мера информации

При использовании структурных мер информации учитывается только дискретное строение сообщения, количество содержащихся в нём информационных элементов, связей между ними. При структурном подходе различаются: геометрическая, комбинаторная и аддитивная меры информации.

Геометрическая мера предполагает измерение параметра геометрической модели информационного сообщения (длины, площади, объёма и т.п.) в дискретных единицах. Определяет максимально возможное количество информации в заданных объемах, которая определяется как сумма дискретных значений по всем измерениям (координатам).

Мера может быть использована для определения информационной емкости памяти компьютера. В этом случае в качестве информационного элемента выступает минимальная единица хранения - бит.

Пример:

Пусть сообщение 5555 6666 888888 закодировано одним из специальных методов эффективного кодирования - кодирование повторений - и имеет вид: 5(4) 6(4) 8(6). Требуется измерить информацию в исходном и закодированном сообщениях геометрической мерой и оценить эффективность кодирования.

В качестве информационного элемента зададимся символом сообщения. Тогда: I(исх) = L(исч)- 14 символов; I(закод) = L(закод) = 12 символов, где I(исх) , I(закод) - количества информации, соответственно, в исходном и закодированном сообщениях; L(исч) , L(закод) - длины (объёмы) тех же сообщений, соответственно.

Эффект кодирования определяется как разница между I(исх) и I(закод) и составляет 2 символа. Очевидно, геометрическая мера не учитывает, какими символами заполнено сообщение. Так, одинаковыми по количеству информации, измеренной геометрической мерой, являются, например, сообщения «компьютер» и «программа».

В комбинаторной мере оценивается возможность представления информации при помощи различных комбинаций информационных элементов в заданном объеме.

Использует типы комбинаций элементов и соответствующие математические соотношения, которые приводятся в одном из разделов дискретной математики - комбинаторике.

Комбинаторная мера может использоваться для оценки информационных возможностей некоторого автомата, который способен генерировать дискретные сигналы (сообщения) в соответствии с определенным правилом комбинаторики.

Пусть, например, есть автомат, формирующий двузначные десятичные целые положительные числа (исходное множество информационных элементов {0, 1, 2, 3, 4, 5. 6, 7, 8, 9}). В соответствии с положениями комбинаторики, данный автомат генерирует размещения (различаются числа, например, 34 и 43) из 10 элементов (используются 10 цифр) по 2 (по условию задачи, формируются двузначные числа) с повторениями (очевидно, возможны числа, состоящие из одинаковых цифр, например, 33).

Тогда можно оценить, сколько различных сообщений (двузначных чисел) может сформировать автомат, иначе говоря, можно оценить информационную емкость данного устройства: Рп(102) = 102 = 100.

Комбинаторная мера используется для определения возможностей кодирующих систем, которые широко используются в информационной технике.

Пример:

Определить емкость ASCII-кода, представленного в двоичной или шестнадцатеричной системе счисления. ASCII-код - это сообщение, которое формируется как размещение с повторениями:

• для двоичного представления — из информационных элементов {0, 1}, сообщение длиной (объемом) 8 символов;

• для шестнадцатеричного представления - из информационных элементов {0, 1, 2, ...., А, В, С, …, F}, сообщение длиной (объемом) 2 символа.

Тогда в соответствии с положениями комбинаторики; I(двоичное) = Рп(28) = 28 = 256; I(шестнадцатеричное) = Рп(162) = 162 = 256; где I(двоичное), I(шестнадцатеричное) – количество информации, соответственно, для двоичного и шестнадцатеричного представления ASCII-кода. Таким образом, емкость ASCII-кода для двоичного и шестнадцатеричного представления одинакова и равна 256.

Следует отметить, что все коды постоянной длины формируются по правилам комбинаторики или их комбинациям. В случае, когда сообщения формируются как размещения с повторениями из элементов алфавита мощности h и, известно количество сообщений М, можно определить требуемый объем сообщения (т.е. его длину L) для того, чтобы в этом объеме представить все сообщения: L = log h М.

Например, есть 4 сообщения - а, b, с, d. Выполняется двоичное кодирование этих сообщений кодом постоянной длины. Для этого требуются 2 двоичных разряда. В самом деле: L = log 2 4 = 2.

Очевидно, комбинаторная мера является развитием геометрической меры, так как помимо длины сообщения учитывает объем исходного алфавита и правила, по которым из его символов строятся сообщения.

Особенностью комбинаторной меры является то, что ею измеряется информация не конкретного сообщения, а всего множества сообщений, которые могут быть получены. Единицей измерения информации в комбинаторной мере является число комбинаций информационных элементов.

Аддитивная мера (мера Хартли),наиболее распространена.

Хартли впервые ввел специальное обозначение для количества информации - I и предложил следующую логарифмическую зависимость между количеством информации и мощностью исходного алфавита:

I = L log2N, (1)

где I – количество информации, L – длина сообщения, N – число возможных выборов (мощность исходного алфавита).

При исходном алфавите {0,1}; L = 1; h = 2 и основании логарифма, равном 2, имеем I = 1*log22 = 1. Данная формула даёт аналитическое определение бита по Хартли: это количество информации, которое содержится в двоичной цифре. Единицей измерения информации в аддитивной мере является бит.

Пример:

Какое количество вопросов достаточно задать вашему собеседнику, чтобы наверняка определить месяц, в котором он родился?

Чтобы выбрать один из месяцев, существует 12 возможностей, которые характеризуют исходную неопределенность ситуации. Если при равной вероятности уже выбран какой-то месяц, то неопределенности нет. Таким образом, число 12 можно было бы считать количеством информации, заложенным в одном выборе из 12-ти возможных.

В соответствии с формулой (1), I характеризует число вопросов (двоичных), ответы на которые позволяют выбрать одну из альтернатив. В данном случае необходимо и достаточно получить ответы «да» или «нет» на 4 вопроса, например: «Вы родились во второй половине года?».

Правильная стратегия состоит в том, что вопросы нужно задавать так, чтобы количество возможных вариантов каждый раз уменьшилось в двое.

Тогда количество возможных событий в каждом из полученных подмножеств будет одинаково и их отгадывание равновероятно. В этом случае на каждом шаге ответ «Да» или «Нет» будет нести максимальное количество информации – 1 бит.

По формуле Хартли (1) получаем: I = log2 12 ≈ 3,6 бит.

Количество полученных бит информации соответствует количеству заданных вопросов. Однако количество вопросов не может быть дробным числом. Округляет результат до ближайшего целого числа и получаем ответ: при правильной стратегии необходимо задать не более 4-х вопросов.

Пример. Рассчитаем количество информации, которое содержится в шестнадцатеричном и двоичном представлении ASCII-кода для числа 1. В соответствии с таблицей ASCII-кодов имеем: шестнадцатеричное представление числа 1 – 31. двоичное представление числа 1 – 00110001. Тогда по формуле Хартли получаем: для шестнадцатеричного представления I = 2 log2 16 = 8 бит; для двоичного представления I = 8 Iog22 = 8 бит. Таким образом, разные представления ASCII-кода для одного символа содержат одинаковое количество информации, измеренной аддитивной мерой.

 


Дата добавления: 2021-03-18; просмотров: 287; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!