Формальное представление знаний.



Лекция 1. Предмет теории информации.

 

Понятие информации.

 

Термин "информация" происходит от латинского слова "informatio", что означает сведения, разъяснения, изложение.

Информация - это настолько общее и глубокое понятие, что его нельзя объяснить одной фразой. В это слово вкладывается различный смысл в технике, науке и в житейских ситуациях.

В обиходе информацией называют любые данные или сведения, которые кого-либо интересуют. Например, сообщение о каких-либо событиях, о чьей-либо деятельности и т.п. "Информировать" в этом смысле означает "сообщить нечто, неизвестное раньше".

Информация - сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые воспринимают информационные системы (живые организмы, управляющие машины и др.) в процессе жизнедеятельности и работы.

Одно и то же информационное сообщение (статья в газете, объявление, письмо, телеграмма, справка, рассказ, чертёж, радиопередача и т.п.) может содержать разное количество информации для разных людей - в зависимости от их предшествующих знаний, от уровня понимания этого сообщения и интереса к нему.

Так, сообщение, составленное на японском языке, не несёт никакой новой информации человеку, не знающему этого языка, но может быть высокоинформативным для человека, владеющего японским. Никакой новой информации не содержит и сообщение, изложенное на знакомом языке, если его содержание непонятно или уже известно.

Информация есть характеристика не сообщения, а соотношения между сообщением и его потребителем. Без наличия потребителя, хотя бы потенциального, говорить об информации бессмысленно.

В случаях, когда говорят об автоматизированной работе с информацией посредством каких-либо технических устройств, обычно в первую очередь интересуются не содержанием сообщения, а тем, сколько символов это сообщение содержит.

Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объём сообщения.

Теория информации рассматривается как существенная часть кибернетики.

Кибернетика – это наука об общих законах получения, хранения, передачи и переработки информации.

Под информацией понимается интересующая получателя сообщения совокупность сведений о каких-либо явлениях, объектах, событиях. Для передачи (или хранения) информации используются различные знаки или символы. В качестве таковых могут служить буквы, цифры, жесты и рисунки, математические или музыкальные символы, слова и фразы человеческой речи и т.д.

Родоначальниками кибернетики считаются американские ученые Норберт Винер и Клод Шеннон.

Винер ввел основную категорию кибернетики – управление, показал существенные отличия этой категории от других, например, энергии, описал несколько задач.

В основу теории информации Шенноном было положено измерение количества информации, содержащейся в сообщениях, на базе статистического описания источников сообщения и каналов связи, по которым эти сообщения передаются.

В нашей стране значительный вклад в развитие кибернетики внесли академики Берг А.И. и Глушков В.М.

Теория информации тесно связана с такими разделами математики как теория вероятностей и математическая статистика, а также прикладная алгебра, которые представляют для нее математический фундамент. С другой стороны теория информации исторически и практически представляет собой математический фундамент теории связи. Часто теория информации вообще рассматривают как одну из ветвей теории вероятностей или как часть теории связи. Таким образом, предмет «Теория информации» весьма узок, так как зажат м/у «чистой» математикой и прикладными (техническими) аспектами теории связи.

Теория информации представляет собой математическую теорию, посвященную измерению информации, ее потока, «размеров» канала связи и т.п. особенно применительно к радио, телеграфии, телевидению и к другим средствам связи.

 

Передача информации.

 

Всякое событие, всякое явление служит источником информации.

Информация передаётся в виде сообщений от некоторого источника информации к её приёмнику посредством канала связи между ними. Источник посылает передаваемое сообщение, которое кодируется в передаваемый сигнал. Этот сигнал посылается по каналу связи. В результате в приёмнике появляется принимаемый сигнал, который декодируется и становится принимаемым сообщением. Передача информации по каналам связи часто сопровождается воздействием помех, вызывающих искажение и потерю информации.

Любое событие или явление может быть выражено по-разному, разным способом, разным алфавитом. Чтобы информацию более точно и экономно передать по каналам связи, ее надо соответственно закодировать.

Информация не может существовать без материального носителя, без передачи энергии. Закодированное сообщение приобретает вид сигналов-носителей информации. Они-то и идут по каналу. Выйдя на приемник, сигналы должны обрести вновь общепонятный вид.

С этой целью сигналы пробегают декодирующее устройство, приобретая форму, удобную для абонента. Система связи сработала, цель достигнута. Когда говорят о каналах связи, о системах связи, чаще всего для примера берут телеграф. Но каналы связи - понятие очень широкое, включающее множество всяких систем, самых разных.

Чтобы ясен был многоликий характер понятия "канал связи", достаточно привести несколько примеров.

При телефонной передаче источник сообщения - говорящий. Кодирующее устройство, изменяющее звуки слов в электрические импульсы, - это микрофон. Канал, по которому передается информация - телефонный провод. Та часть трубки, которую мы подносим к уху, исполняет роль декодирующего устройства. Здесь электрические сигналы снова преобразуются в звуки. И, наконец, информация поступает в "принимающее устройство"- ухо человека на другом конце провода. А вот канал связи совершенно другой природы - живой нерв. Здесь все сообщения передаются нервным импульсом. Но в технических каналах связи направление передачи информации может меняться, а по нервной системе передача идет в одном направлении.

Еще один пример - вычислительная машина. И здесь те же характерные черты. Отдельные системы вычислительной машины передают одна другой информацию с помощью сигналов. Ведь вычислительная машина -автоматическое устройство для обработки информации, как станок - устройство для обработки металла. Машина не создает из "ничего" информацию, она преобразует только то, что в нее введено.

 

                          

Измерение информации.

 

Какое количество информации содержится, к примеру, в тексте романа "Война и мир", в фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро.

А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является вывод:

В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте.

Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определяет как двоичный логарифм N.

Формула Хартли: I = log2N.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = Iog2100 " 6,644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.

Приведем другие примеры равновероятных сообщений:

при бросании монеты: "выпала решка", "выпал орел";

на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = - (p1 log2 p1 + p2 log2 р2 + . . . + pN log2 pN ), где pi — вероятность того, что именно i-e сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации условились принять один бит (англ. bit — binary, digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений.

А в вычислительной технике битом называют наименьшую "порцию" памяти, необходимую для хранения одного из двух знаков "О" и "1", используемых для внутримашинного представления данных и команд.

Бит - слишком мелкая единица измерения. На практике чаще применяется более крупная единица - байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 210 байт, 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт, 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт, 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

 

Формальное представление знаний.

 

При формальном представлении знаний каждому описываемому объекту или понятию ставиться в соответствие некоторый числовой код. Связи между кодируемыми сущностями также представляются кодами (адресами и указателями). Для такого перевода неформальных данных в формальный, цифровой вид должны использоваться специальные таблицы, сопоставляющие кодируемым сущностям их коды и называемые таблицами кодировки. Простейший пример такой таблицы – это ASCII (American Standart Code for Information Interchange), используемые повсеместно с вычислительной техникой. Она сопоставляет печатным и управляющим символам (управляющими являются, например символы, отмечающие конец строки или страницы) числа от 0 до 127. Следующая программа на языке Паскаль выведет на экран все печатные символы этой таблицы и их коды:

var i: byte;

begin

for i := 32 to 126 do

write (i: 6, chr (i): 2);

writeln

end.

На практике обычно используют не сам исходный ASCII, а так называемый расширенный ASCII (ASCII +), описывающий коды 256 символов (от 0 до 255). Первые 128 позиций расширенного ASCII совпадают со стандартом, а дополнительные 128 позиций определяются производителем оборудования или системного программного обеспечения.

Например, коду 65 в ASCII соответствует заглавная латинская буква А, но не конкретная, а любая. Этому коду будет соответствовать буква А, набранная жирным прямым шрифтом, и буква А, набранная нежирным с наклоном вправо на 9,50 шрифтом, и даже буква £ готического шрифта.

 

Виды информации.

 

Информация может быть двух видов: дискретная (цифровая) и непрерывная (аналоговая). Дискретная информация характеризуется последовательными точными значениями некоторой величины, а непрерывная - непрерывным процессом изменения некоторой величины. Непрерывную информацию может, например, выдавать датчик атмосферного давления или датчик скорости автомашины.

Дискретную информацию можно получить от любого цифрового индикатора: электронных часов, счетчика магнитофона и т.п.

Дискретная информация удобнее для обработки человеком, но непрерывная информация часто встречается в практической работе, поэтому необходимо уметь переводить непрерывную информацию в дискретную (дискретизация) и наоборот. Модем (это слово происходит от слов модуляция и демодуляция) представляет собой устройство для такого перевода: он переводит цифровые данные от компьютера в звук или электромагнитные колебания - копии звука и наоборот.

При переводе непрерывной информации в дискретную важна так называемая частота дискретизации ν, определяющая период (Т= 1/ν) определения значения непрерывной величины (рис. 1).

 

Чем выше частота дискретизации, тем точнее происходит перевод непрерывной информации в дискретную. Но с ростом этой частоты растет и размер дискретных данных, получаемых при таком переводе, и, следовательно, сложность их обработки, передачи и хранения. Однако для повышения точности дискретизации необязательно безграничное увеличение ее частоты. Эту частоту разумно увеличивать только до предела, определяемого теоремой о выборках или законом Найквиста.

Любая непрерывная величина описывается множеством наложенных друг на друга волновых процессов, называемых гармониками, определяемых функциями вида Asin (ωt +φ), где А - это амплитуда, ω - частота, t - время, φ - фаза.

Теорема о выборках гласит, что для точной дискретизации ее частота должна быть не менее чем в два раза выше наибольшей частоты гармоники, входящей в дискретизируемую величину.

Примером использования этой теоремы являются лазерные компакт-диски, звуковая информация на которых хранится в цифровой форме. Чем выше будет частота дискретизации, тем точнее будут воспроизводиться звуки и тем меньше их можно будет записать на один диск, но ухо обычного человека способно различать звуки с частотой бессмысленно. Согласно теореме о выборках частоту дискретизации нужно выбрать не меньше 40 КГц (в промышленном стандарте на компакт-диске используется частота 44,1 КГц).

При преобразовании дискретной информации в непрерывную, определяющей является скорость этого преобразования: чем она выше, с тем более высокочастотными гармониками получится непрерывная величина. Например, обычные телефонные линии предназначены для передачи звуков частотой до 3 КГц.

Устройства для преобразования непрерывной информации в дискретную обобщающе называются АЦП (аналого-цифровой преобразователь), а устройства для преобразования дискретной информации в аналоговую - ЦАП (цифро-аналоговый преобразователь).


Дата добавления: 2022-01-22; просмотров: 52; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!