ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИ И КОДИРОВАНИЯ



 

I . Сообщения.

Система связи предназначена для передачи сообщений от отправителя к получателю. Подлежащее передаче сообщение преобразуется в сигнал, который поступает в канал связи, а после приема подвергается обратному преобразо­ванию в сообщение. Внешние помехи, воздействующие,на канал связи, вносят в передаваемые сигналы искажения. Главная задача системы связи состоит в том, чтобы с достаточной точностью обеспе­чить взаимно-однозначное соответствие между переданным и приня­тым сообщением. Типичными примерами систем связи являются: те­лефонные сети, радиорелейные линии, телеметрические системы, кос­мическая связь, радиовещание, телевидение. В общем случае любая передача сообщений может рассматриваться как система связи.

Сообщение называется дискретным, если оно представляет собой последовательность отдельных элементов (букв, цифр, символов). Дискретное сообщение, состоящее из л элементов, можно рассмат­ривать как слово длины п, элементы которого принимают значения из конечного алфавита. Обычно буквы алфа­вита кодируются числами, преимущественно в двоич­ной системе счисления, а соответствующие им сигналы представляют собой последовательности импульсов определенной длительности. Используются равномерные коды, в которых буквы алфавита пред­ставляются комбинациями из одинакового числа элементов, и неравномерные коды, составленные из комбинаций различной дли­ны. Примером равномерного кода может служить телетайпный код Бодо, а неравномерного — азбука Морзе

Непрерывное сообщение, в отличие от дискретного, представля­ется непрерывной функцией времени (например, при передаче зву­ков или изображений). Однако на практике спектр функций обыч­но ограничивается, т. е. считается, что спектральное разложение не содержит частот выше некоторой граничной частоты ю. В соот­ветствии с теоремой Котельникова такие функции вполне определя­ются конечным числом значений, отсчитанных через интервалы времени. Таким образом, передача непрерывного сообще­ния в том практически важном случае, когда оно может быть представлено функцией с ограниченным спектром, сводится, как и в случае дискретного сообщения, к передаче последователь­ности чисел.

Из-за неизбежных помех передаваемая последовательность зна­чений непрерывной функции претерпевает в системе связи искаже­ния. Поэтому обычно используют дискретную шкалу передаваемых значений с таким расчетом, чтобы помеха не превосходила половины интервала между двумя соседними уровнями. Замена непрерывной шкалы дискретной называется квантованием, а представляемый последователь­ностью дискретных значений сиг­нал называется квантованным.

 

 

2. Статистическая мера информа­ции.

В качестве основной характе­ристики сообщения теория связи принимает величину, называемую количеством информации. Это по­нятие не затрагивает смысла и важности передаваемого сообще­ния, а связано со степенью его неопределенности.

Пусть алфавит состоит из m букв, каждая из которых может служить элементом сообщения. Количество возможных сообщений длины п равно числу перестановок с неограниченными повторе­ниями. Для получателя все N сообщений являются равновероятными, а получение конкретного сообщения равносильно для него случайному выбору одного из N объектов с некоторой вероятностью. Ясно, что чем больше N, тем большая степень неопределенности характеризует этот выбор и тем более информативным можно считать сообщение. Итак, число N могло бы служить мерой информации. Однако с по­зиций техники связи естественно наделить эту меру свойством аддитивности, т. е. определить ее так, чтобы она была пропорцио­нальна длине п сообщения (ведь при передаче и оплате сообщения, например телеграммы, важно не его содержание, а общее число элементов). Этому требованию отвечает логарифмическая функция, которая и принимается в качестве количества информации

Количество информации, приходящееся на один элемент сооб­щения, называется энтропией. В принципе безразлично, какое основание логарифма исполь­зуется для определения количества информации и энтропии, так как переход от одного основания другому сводится лишь к изменению единицы измерения. Чаще зсего используют двоичные логарифмы,

При этом единицу количества информации на рдин элемент сообщения называют двоичной единицей или битом. 1 бит — это количество информации, которым характеризуется один двоич­ный элемент при равновероятных состояниях 0 и 1. Двоичное сообщение длины п содержит п бит информации. Единица количества иформации, равная 8 битам, называется байтом. Если основание логарифма выбрать равным десяти, то энтропия выражается в деся­тичных единицах на элемент сообщения (дитах), причем 1 дит = Iog10, 1  бит = 3,32 бит.

Определим, например, количество информации, которое со­держится в телевизионном сигнале, соответствующем одному кадру развертки. В кадре 625 строк, а сигнал, соответствующий одной строке, представляет собой последовательность из 600 случайных амплитуде импульсов, причем амплитуда каждого импульса ложет принять любое из 8 значений с шагом в I В. Искомое коли­чество 'информации 625 • 600 Iog8 = 1125 106 бит.

Приведенная выше количественная оценка информации оснона на предположении о равновероятности всех букв алфавита. В общем случае каждая из букв появляется в сообщениях с различной вероятностью.

Если элементы сообщения могут принимать значения на непре­рывном интервале, то вместо конечного алфавита необходимо рас­сматривать бесконечное множество возможных состояний элементов, определяемое непрерывным распределением плотности вероятнос­тей w(x). Итак, энтропия и количество информации зависят от распре­деления w(x). В теории связи большое значение имеет решение вопроса о том, при каком распределении обеспечивается макси­мальная энтропия Н(х). Можно показать, что при заданной дисперсии наибольшей информативностью сообщение обладает тогда, когда состояния элементов распределены по нормальному закону:

Так как дисперсия определяет среднюю мощность сигнала, то отсюда следуют практически важные выводы. Передача наиболь­шего количества информации при заданной мощности сигнала (или наиболее экономичная передача данного количества информации) достигается при такой обработке сигнала, которая приближает распределение к нормальному. В то же время, приписывая нор­мальное распределение помехе, обеспечивают ее наибольшую «информативность», т. е. учитывают ее пагубное воздействие на прохождение сигналов в самом худшем случае. Если дисперсия не ограничена, то, как показывает анализ, энтропия максимальна при условии, что состояния элементов внутри интервала их существования а < х < Ъ распределены по равно­мерному закону, т. е.

Это значит, что при одинаковой информативности сообщений средняя мощность сигналов для равновероятного распределения их амплитуд должна быть на 42% больше, чем при нормальном рас­пределении.

Избыточность сообщений.

Чем больше энтропия, тем большее количество информации содержит в среднем каждый элемент сооб­щения.

При передаче одинакового количества информации сообщение тем длиннее, чем меньше его энтропия. Величина r, называемая коэффициентом сжатия, характеризует степень уко­рочения сообщений при переходе к кодированию состояний эле­ментов, характеризующимся большей энтропией. При этом доля излишних элементов оценивается коэффициентом избыточности

Русский алфавит, включая пропуск между словами, содержит 32 элемента, следовательно, Н = Iog32 = 5 бит. Анализ показы­вает, что с учетом неравномерности появления различных букв алфавита Н = 4,35 бит, а с учетом зависимости двухбуквенных сочетаний Н = 3,52 бит.

На самом деле вследствие зависимости между сочетаниями, содержащими две и больше букв, а также смысловой зависимости между словами, избыточность русского языка (как и других евро­пейских языков) превышает 50% . Избыточность устраняется по­строением оптимальных кодов, которые укорачивают сообщения по сравнению с равномерными кодами. В то же время избыточность играет и положительную роль, так как благодаря ей сообщения менее уязвимы со стороны помех. Это обстоятельство используется при помехоустойчивом кодировании.

3 . Эффективное кодирование. При кодировании каждая буква исходного алфавита представляется различимыми последователь­ностями, состоящими из кодовых букв (цифр). Если исходный ал­фавит содержит т букв, то для построения равномерного кода с использованием k кодовых букв необходимо удовлетворить соот­ношение т < kq, где q — количество элементов в кодовой после­довательности. Отсюда

Для построения равномерного кода достаточно пронумеровать буквы исходного алфавита и записать их коды как q –разрядные числа в k-ичной системе счисления. Например, при двоичном коди­ровании 32 букв русского алфавита используется q — Iog32 = 5 разрядов, на чем и основан телетайпный код. Кроме двоичных, наибольшее распространение получили восьмеричные коды. Пусть, например, необходимо закодировать алфавит, состоящий из 64 букв. Для этого потребуется 6 двоичных или 2 восьмеричных раз­ряда. Буква с номером 13 получит соответственно коды 001 101 или 15. Часто используются также двоично-десятичные коды, в которых цифры десятичного номера буквы представляются двоичными ко­дами. Так, для нашего примера буква с номером 13 кодируется как 0001 0011.

Ясно, что при различной вероятности появления букв исход­ного алфавита равномерный код является избыточным, так как его энтропия всегда больше энтропии данного алфавита, т. е. информационные возможности такого кода используются не полностью. Устранение избыточности достигается применением неравномерных кодов, в которых буквы, имеющие наибольшую вероятность, кодируются наиболее короткими кодовыми последова­тельностями, а более длинные комбинации присваиваются редким буквам.

При построении неравномерных кодов необходимо обеспечить возможность их однозначной расшифровки. В равномерных кодах такая проблема не возникает, так как при расшифровке достаточно кодовую последовательность разделить на группы, каждая из кото­рых состоит из q элементов. В неравномерных кодах можно использо­вать разделительный символ между буквами алфавита (так посту­пают, например, при передаче сообщений с помощью азбуки Морзе). Если же отказаться от разделительных символов, то следует запре­тить такие кодовые комбинации, начальные части которых уже использованы в качестве самостоятельной комбинации. Например, если 101 означает код какой-то буквы, то нельзя использовать ком­бинации 1, 10 или 10101.

Практические методы оптимального кодирования просты и ос­нованы на очевидных соображениях. Прежде всего, буквы (или любые сообщения, подлежащие ко­дированию) исходного алфавита записываются в порядке убываю­щей вероятности. Упорядоченное таким образом множество букв разбивается на два подмножества так, чтобы суммарные вероятности этих подмножеств были пример­но равны. Затем каждое подмно­жество снова разбивается на два подмножества с соблюдением того же условия равенства вероят­ностей. Такое разбиение продолжается до тех пор, пока в под­множествах не окажется только по одной букве кодируемого ал­фавита. При каждом разбиении буквам верхнего подмножества присваивается кодовый элемент 1, а буквам нижнего подмноже­ства — 0.

4 . Корректирующие коды. Для защиты от помех в связи и вы­числительной технике используются корректирующие коды, ко­торые основаны на введении избыточности. Обычно корректирую­щие коды являются двоичными и равномерными.

Ошибка в кодовой комбинации появляется вследствие замены одних элементов другими, причем r-кратная ошибка возникает при искажении г элементов. Например, если кодовая комбинация 0110111 принята как 0100110, то имеет место двукратная ошибка. Вообще различие между парой кодовых комбинаций выражается расстоянием, которое равно числу несовпадающих двоичных раз­рядов. Его можно также определить как число единиц в сумме этих комбинаций по модулю два: 0110111 +0100110 = 0010001. Если двоичным комбинациям длины q (равномерный код) сопоставить вершины q-мерного куба, то расстояние означает число ребер, от­деляющих одну вершину от другой.

Корректирующие коды позволяют обнаруживать и исправлять ошибки. Ясно, что при использовании для кодирования букв исход­ного алфавита (или любых сообщений) всех комбинаций любая ошибка останется незамеченной, так как искажающая буква будет воспринята как некоторая другая буква алфавита. Поэтому необ­ходимо располагать избыточным набором кодовых комбинаций, что обычно достигается применением кодов большей длины по сравне­нию с минимально необходимой. Использованные для кодирования комбинации называют разрешенными, а избыточные—запрещенными.

Наименьшее расстояние между комбинациями данного кода называют кодовым расстоянием. Более полное представление о свойствах кода дает матрица расстояний D, элементы которой равны расстояниям между каждой парой из всех т разрешенных комбинаций. Например, код 000; 001; 010; 111, кодовое расстояние которого d = 1, представ­ляется симметричной матрицей четвертого порядка:

Ошибка может быть обнаружена, если разрешенная комбинация вследствие ее искажения переходит в запрещенную и не может совпасть с какой-либо другой разрешенной комбинацией. Ясно, что для обнаружения однократной ошибки данной комбинации необхо­димо, чтобы ее расстояние от любой другой комбинации было не мень­ше двух. Ошибка будет не только об­наружена, но и исправлена, если искаженная комбинация остает­ся ближе к первоначальной, чем к любой другой разрешенной комбинации.

 


Дата добавления: 2022-01-22; просмотров: 32; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!