Понятия и основные системы кодирования экономической информации



Лабораторная работа № 2.

Проектирование классификаторов

Технико-экономической информации

Целью проведения лабораторной работы является отработка на практике теоретических знаний, полученных студентами при изучении курса «Проектирование экономических информационных систем», по вопросам проектирования классификаторов технико-экономической информации.

Задание:

· ознакомиться с основными понятиями классификации и кодирования экономической информации;

· рассмотреть понятие и состав Единой системы классификации и кодирования (ЕСКК);

· изучить состав и содержание операций проектирования классификаторов;

· провестиклассификацию и кодирование экономической информации выбранной предметной области.

 

Краткие теоретические сведения.

Основные понятия классификации экономической системы

 

В условиях рыночной экономики возрастает роль информации как одного из наиболее важных ресурсов предприятия, необходимого для принятия эффективных и своевременных управленческих решений. Одним из наиболее существенных компонентов этого ресурса является экономическая информация, основные особенности которой следующие:

- проектирование классификаторов технико-экономической информации;

- большие объемы (до нескольких сотен млн. символов в год для среднего предприятия); 

- большая ее часть имеет символьное представление, слабо приспособленное для логической и арифметической обработки;

- высокий уровень стоимостных и трудовых затрат на ее поиск и обработку.    

Для того чтобы приспособить экономическую информацию для эффективного поиска, обработки на компьютере и передачи по каналам связи, ее необходимо представить в цифровом коде. С этой целью ее нужно сначала упорядочить (классифицировать), а затем формализовать (закодировать) с использованием классификатора.

Классификатор это документ, с помощью которого осуществляется формализованное описание экономической информации в ЭИС, содержащей наименования объектов, наименования классификационных группировок и их кодовые обозначения.

Экономическая информация существует в двух формах: эко­номических показателей и документов.

Экономический показатель является составной единицей информации, отражающей количественную характеристику некоторого процесса предметной области, т.е. реквизитом-основанием вместе с однозначно определяющими его качество реквизитами-признаками.

Реквизиты-основания подразделяются по типу алгоритмов их получения на количественные, стоимостные, проценты, удельные веса и др. Множество реквизитов-признаков по степени формализации делятся на два подмножества:

- справочные  -  как правило, наименования предназначены для понимания показателя пользователем-экономистом;

-  групппировочные  -  это закодированные аналоги справочных признаков, предназначенные для логической обработки информации на компьютере.

Основными объектами классификации и кодирования являются справочные реквизиты-признаки, описывающие объекты, процессы, место, время выполнения процессов, субъекты и объекты действия, отражаемые в показателе. Например, к числу наименований объектов можно отнести наименования материальных, трудовых, денежных, энергетических ресурсов, основных средств, готовой продукции и услуг. К числу наименований процессов — наименования операций поступления сырья и материалов, отпуска их в производство, производства и выпуска готовой продукции или оказания услуг, выполнения заказов, обслуживания клиентов, хранения, реализации готовой продукции, расчетов с поставщиками и покупателями, получения оплаты за реализованную продукцию и т.д.

К объектам классификации и кодирования относятся также наименования показателей и документов. Помимо этого, к объектам классификации и кодирования относят также наименования компонентов проекта ЭИС, в т.ч. файлов, задач, подсистем, программных модулей и др.        

Целью разработки классификаторов является установление соответствия между значениями справочных или описательных признаков какого-либо элемента или процесса и значениями группировочных признаков, например между значениями реквизитов «Фамилия И.О. рабочего» и «Табельный номер» рабочего или «Наименование материала» и «Код материала».

Для кодирования объектов необходимо их упорядочить по некоторым признакам. Результат упорядоченного распределения объектов заданного множества носит название классификации, а совокупность правил разбиения множества на подмножества называется системой классификации. Распределение объектов классификации в соответствии с принятой системой классификации носит название процесса классифицирования. Свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации, называется признаком классификации. Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки.

Основанием классификации называется признак, по которому ведется разбиение множества на подмножества на определенной ступени классификации. Ступень классификации — это результат очередного распределения объектов одной классификационной группировки, расположенных на одних и тех же ступенях классификации. Глубина системы классификации — это количество уровней классификации, допустимое в данной системе.

Каждая система классификации характеризуется следующими свойствами:

·  гибкостью системы;

·  емкостью системы;

·  степенью заполненности системы (коэффициент заполненноти).

Гибкость системы — это способность допускать включение новых признаков, объектов без разрушения структуры классификатора. Гибкость определяется временем жизни (Тж) системы.

Емкость системы — это наибольшее количество классификационных группировок, допускаемое в данной системе классификации (Р).

Степень заполненности системы (Kзап) определяется как частное от деления фактического количества группировок (Q ф) на величину емкости системы (Р):

Kзап = Q ф/ Р

В настоящее время чаще всего применяются два типа систем классификации: иерархическая и многоаспектная.

Характерными особенностями иерархической системы являются:

·  наличие в системе ограниченного количества признаков классификации;

·  соподчиненность признаков классификации, что выражается разбиением каждой классификационной группировки, образованной по одному признаку, на их множество по нижестоящему (подчиненному) признаку.

При построении иерархической системы классификации сначала выделяется некоторое множество объектов, подлежа­щее классифицированию, Мо, для которого определяются пол­ное множество признаков классификации G и их соподчиненность друг другу, затем производится разбиение исходного множества объектов на классификационные группировки на каждой ступени классификации.

При использовании иерархической системы классификации необходимо соблюдать следующие ограничения:

· получающиеся на каждом уровне классификационные груп­пировки должны составлять исходное множество объектов М;

· классификационные группировки Хjк на каждой ступени не должны пересекаться;

· классификация на каждой ступени должна проводиться только по одному признаку (G).

К положительным сторонам данной системы следует от­нести логичность, простоту ее построения и удобство логи­ческой и арифметической обработки.

Однако эта система характеризуется жесткой структурой классификации, не позволяющей вносить новые признаки или изменять их последовательность. Гибкость этой системы обес­печивается только за счет ввода большой избыточности в вет­вях, что приводит к слабой заполненности структуры класси­фикатора.

Недостатки, отмеченные в иерархической, отсутствуют в других системах, которые относятся к классу многоаспект­ных.

Аспект — точка зрения на объект классификации, кото­рый характеризуется одним или несколькими признаками.

 Многоаспектная система — это система классификации, кото­рая использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации.

Существуют два типа многоаспектных систем: фасетная и дескрипторная.

Фасет — это аспект классификации, который используется для образования независимых классификационных группировок.

Дескриптор — ключевое слово, определяющее некоторое по­нятие, которое формирует описание объекта и обозначающее принадлежность этого объекта к классу, группе и т.д.

Фасетная система характеризуется следующими особенно­стями построения:

· имеется некоторое множество классифицируемых объектов Мо;

· это множество можно рассматривать в нескольких аспектах, каждый из которых может характеризоваться одним или не­сколькими признаками, образующими фасет Фr;

· устанавливается некоторый порядок следования фасетов с помощью фасетной формулы (при этом последователь­ность фасетов определяется по частоте обращения к этим фасетам на некотором множестве заданных задач):

F = (Ф1,…, Ф2 ,…,Фr ,…, ФR );

· определяется количество подмножеств классификацион­ных группировок, число которых определяется числом за­дач, обращающихся при своем решении к тем или иным фасетам.

Внутри фасета значения признаков могут просто перечис­ляться в некотором порядке или образовывать сложную иерар­хическую структуру, если существует соподчиненность выде­ленных признаков.

К преимуществам данной системы следует отнести боль­шую емкость и высокую степень гибкости, поскольку при необходимости можно вводить дополнительные фасеты и изменять их место в формуле. К недостаткам, характерным для данной системы, можно отнести сложность структуры и низкую сте­пень заполненности.

Рассмотренные выше системы классификации хорошо приспособлены для организации поиска с целью последую­щей логической и арифметической обработки информации на компьютере и лишь частично решают проблему содержа­тельного поиска экономической информации при принятии управленческих решений. Это объясняется далеко не полным охватом этими системами всех понятий и терминов, исполь­зуемых для выражения смысла экономических показателей и документов. Помимо этого, в этих системах не решается проблема обеспечения однозначности используемой термино­логии, идентификации роли отдельных терминов в их общей последовательности при формировании наименований эконо­мических показателей. К недостаткам этих систем классифи­кации можно отнести также и то, что в них не отражаются все отношения между терминами, необходимые для форма­лизации содержания показателей и документов и установ­ления взаимосвязей между показателями и документами, которые используются на этапе принятия управленческих решений.

Для поиска показателей и документов по набору содержа­тельных признаков используется информационный язык дескрипторного типа, который характеризуется совокупностью терминов, дескрипторов или лексикой и набором отношений между терминами. Существуют два типа данных отношений:

· постоянные логические - между терминами, вытекающие из отношений между отображаемыми объектами, которые называются парадигматическими;

· переменные - между понятиями, возникающие в процессе построения конкретного высказывания, например показате­ля, называемые синтагматическими.

Парадигматические отношения между терминами отражают структуру понятий языка. К ним относятся, например, родо­видовые отношения. При этом родовым называется термин или понятие, выражающий существенные признаки класса предметов, в состав которого входят предметы, являющиеся видами этого рода. Видовое понятие выражает существенные признаки подкласса предметов, являющегося видом какого-либо другого класса предметов и входящего в его состав. На­пример, понятие «машинный носитель» является родовым по отношению к понятиям «жесткий диск», «мягкий диск», «маг­нитная лента» и т.д. Отношения этого типа отражаются в клас­сификаторах экономической информации.

Синтагматические отношения составляют грамматику этого языка, т.е. правила построения высказываний из набора терми­нов или понятий. Такие отношения используются в динамике при вводе данных и формировании запросов.

В зависимости от того, на каком этапе фиксируются все возможные выражения, языки делятся на предкоординированные и посткоординируемые. Предкоординированными называ­ются языки, в которых на стадии разработки выделяются все высказывания в терминах этих языков и тем самым заранее определяются постоянные отношения между терминами. Для посткоординируемых языков характерна предварительная фик­сация лишь постоянных отношений. Все высказывания образу­ются при использовании лексики данного языка и его грамма­тики. Языки предкоординированного типа менее гибки при использовании, т.к. с их помощью можно описать только те выражения, которые были ранее зафиксированы. Использование посткоординируемых языков позволяет образовывать с их помощью значительно большее число выражений.

Наиболее типичным примером предкоординированных языков являются классификационные, основанные на исполь­зовании иерархической и многоаспектной систем классифика­ции, преимущества и недостатки которых были рассмотрены ранее. К языкам классификационного типа можно отнести разработанный ныне Общесистемный классификатор технико-экономических показателей (ОКТЭП). Он содержит способ упорядоченного представления системы показателей и сред­ства их взаимной увязки на основе многоаспектной классифи­кации этих показателей, которая должна отражать наиболее существенные с точки зрения народного хозяйства методоло­гические особенности их расчета, взаимосвязи, наиболее важ­ные признаки их группировки и поиска в ЭИС.

Общим недостатком информационных языков классифици­рованного типа являются их слабая приспособленность к но­вым, заранее не предусмотренным условиям функционирова­ния систем, возможность составления запросов на этих языках только регламентированного содержания. Эти недостатки от­сутствуют у языков посткоординированного типа, к которым относятся дескрипторные языки, основанные на применении метода координатного или ассоциативного индексирования.

Согласно идее координатного индексирования предпола­гается, что содержание документов или показателей можно до­статочно полно отразить с помощью списка ключевых слов — дескрипторов. Дескриптор — это термин естественного языка (слово или словосочетание), используемый при описании до­кументов или показателей. Он имеет самостоятельный смысл и неделим без изменения своего значения. Например, показа­тель «Количество продукции, выработанное фактически цехом за смену», записанный на естественном языке, при использо­вании метода координатного индексирования будет иметь вид: «Количество, продукция, выработка, фактический, цех, смена».

Для того чтобы обеспечить точность и однозначность поиска с помощью такого языка, необходимо предварительно опреде­лить все постоянные отношения между терминами: родовидо­вые, синонимии, омонимии и полисемии, а также ассоциатив­ные отношения. Характеристика родовидовых отношений была дана выше. Особый вид парадигматических отношений пред­ставляют отношения синонимии, омонимии и полисемии, кото­рые всегда присутствуют в естественных языках.

Синонимия - это отношения между двумя и более различ­ными ключевыми словами, которые имеют одинаковое значе­ние, обозначают один и тот же предмет или понятие. Можно выделить синонимы с одним корнем, но с различным морфо­логическим составом (например, «производство» и «про­изведено»), с различными корнями (например, «издержки» и «расходы»). К синонимам также относятся термины, ко­торые могут существовать как в полном, так и в сокращен­ном виде, например «научно-исследовательские работы» и «НИР» и пр.

Омонимия - это такое отношение между одинаковыми по звучанию и написанию ключевыми словами, когда они имеют разное значение и обозначают разные предметы и понятия. Можно выделить термины, обозначающие такие разные поня­тия, объемы которых не пересекаются, и называемые полными омонимами. Например, термин «прокат» используется в двух различных смыслах: «прокат тонкой листовой стали» и «сдача предметов во временное пользование», поэтому он относится к числу полных омонимов. Однако встречаются термины, обозначающие разные понятия, объемы которых пересекаются. Такие термины называются частичными омонимами. Явление частичной омонимии носит название полисемии.

Большое значение для построения дескрипторного языка имеют выявление и фиксирование ассоциативных отношений между терминами, которые позволяют выдавать более точные ответы на запросы пользователей. К числу ассоциативных от­носят отношения: части и целого (например, «цех» — «учас­ток»), причины и следствия (например, «прогул» — «невы­полнение»), связи предмета и процесса (например, «план» — «планирование») и др.

Все выделенные отношения явно описываются в системати­ческом словаре понятий — тезаурусе, который разрабатыва­ется с целью проведения индексирования документов, показа­телей и информационных запросов.

В свою очередь дескрипторные языки различаются по се­мантической силе, которая определяется тем, какой объем сведений может индексироваться с их применением. Семанти­ческая сила языка зависит от числа типов постоянных отноше­ний, фиксируемых в тезаурусе, а также от наличия средств грамматики и степени их сложности. В соответствии с этим признаком дескрипторные языки подразделяются на языки: без грамматики, с неполной грамматикой и с развитой грам­матикой. При этом языки первого вида содержат только сло­вари используемых ключевых слов и тезаурусы. В языках с неполной грамматикой, помимо словарей и тезаурусов, име­ются правила взаимосвязи только некоторых категорий тер­минов. Языки с развитой грамматикой позволяют описывать с помощью всех средств сложные высказывания.

Если объектом поиска в ЭИС является документ, для этих целей используют информационные языки дескрипторного типа без грамматики. При необходимости хранения и осуществления поиска экономических показателей проектировщики отдают предпочтение языкам второго и третьего типов.

 

Понятия и основные системы кодирования экономической информации

 

Для полной формализации экономической информации не­достаточно простой классификации, поэтому проводят следую­щую процедуру — кодирование.

Кодирование -  это процесс присвоения условных обозначений объектам и классификаци­онным группам по соответствующей системе кодирования.

Система кодирования — это совокупность правил обозначе­ния объектов и группировок с использованием кодов.

 Код — это условное обозначение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой. Код базируется на определенном алфавите (некоторое множе­ство знаков). Число знаков этого множества называется осно­ванием кода.

Различают следующие типы алфавитов: цифро­вой, буквенный и смешанный.

Код характеризуется следующими параметрами:

· длиной (L);

· основанием кодирования (А);

· структурой, под которой понимают распределение знаков по признакам и объектам классификации;

· степенью информативности (I), рассчитываемой как част­ное от деления общего количества признаков (R) на длину кода (L):

I = R / L;

· коэффициентом избыточности изб), который определяется как отношение максимального количества объектов (Qмах) к фактическому количеству объектов (Qфа к)

Кизб  = Qмах / Qфа к

Все системы кодирования можно сгруппировать в два под­множества: регистрационные и классификационные системы.

Особенностью регистрационных систем кодирования яв­ляется их независимость от применяемых систем классифика­ции. Регистрационные коды используются для идентификации объектов и передачи информации об объектах на расстояние, поэтому они должны удовлетворять следующим требовани­ям: минимальности длины кода, однозначности соответствия наименования объекта и его кода в течение длительного пери­ода времени и защищенности кода от помех и ошибок.

Регистрационные коды состоят из двух частей: инфор­мационной и контрольной, предназначенной для защиты пе­редаваемой информации от ошибок. Контрольная часть мо­жет рассчитываться по различным алгоритмам, в частности наиболее употребляемыми являются следующие формулы их расчета:

К = М - [∑ Хi /М],

К = М - [∑Хi * Вi / М],

где М - модуль (простое число, делящееся на единицу и на само себя);

  Хi - информационные разряды,

  i  -  номер разряда;

  Вi   - вес информационного разряда.

К регистрационным системам относятся порядковая и се­рийная.

Порядковая — это наиболее простая по своему построению система кодирования, суть использования которой заключается в последовательном присвоении каждому объекту кодируемо­го множества Мо номера его порядка, т.е. в присвоении цифр натурального ряда в порядке расположения объектов. Этот по­рядок может быть случайным или определяться после предва­рительной группировки объектов, например по алфавиту.

Как правило, порядковую систему применяют для кодирова­ния малозначных, устоявшихся и простых множеств объектов, не требующих предварительной классификации.

Серийная (серийно-порядковая) система кодирования отличается от порядковой тем, что номенклатура кодируе­мых объектов Мо предварительно должна быть разбита на группировки по одному признаку и каждой группировке должна быть отведена серия кодовых обозначений, в преде­лах которой каждому элементу присваивается свой код по порядку. Серия обозначений для каждой группировки опре­деляется таким образом, чтобы после присваивания кодов элементам этой группы в ней оставались бы еще свободные номера на случай появления новых объектов.

Классификационные коды используют для отражения классификационных взаимосвязей объектов и группировок и применяются в основном для сложной логической обработки экономической информации на компьютере, отсюда вытекают требования: однозначности отображения классификационных взаимосвязей объектов и их группировок и обеспечения мак­симальной простоты программирования. Группу классифика­ционных систем кодирования можно разделить на две под­группы в зависимости от того, какую систему классификации используют для упорядочения объектов.

Последовательные системы кодирования характеризуют­ся тем, что они базируются на предварительной классифика­ции по иерархической системе классификации, в результате использования которой коды нижестоящих группировок обра­зуются путем добавления кодов к кодам вышестоящих груп­пировок.

Параллельные системы кодирования характеризуются тем, что они строятся на основе использования фасетной системы классификации и коды группировок по фасетам формируются независимо друг от друга.

Последовательные и параллельные системы кодирования строятся на базе разрядной или комбинированной системы ко­дирования.

Разрядная система применяется для кодирования объек­тов, определяемых несколькими соподчиненными признака­ми, используемыми для решения экономических задач. Коди­руемые объекты систематизируются по классификационным признакам на каждой ступени классификации, каждому при­знаку отводится определенное число разрядов, в пределах которых кодирование группировок начинается с единицы. При разрядной системе кодирования имеет место т.н. «зави­симое» кодирование. Это значит, что классификационные группировки по младшим признакам кодируются в зависи­мости от кода группировки, образованной по старшему при­знаку. Запас свободных позиций определяется структурой кода.

Код объекта, построенный по этой системе, состоит из та­кого числа позиций (или числа групп разрядов), соответ­ствующих количеству учтенных признаков для объектов, по­этому разрядная система кодирования называется иногда по­зиционной системой. Конкретное значение признака, характе-

ризующего объект, определяется позицией и значением опре­деленного числа в структуре кода. Длина кода зависит от чис­ла ступеней классификации, от числа классификационных группировок на каждой ступени и от основания кодирования.

Комбинированная система кодирования, обладая всеми преимуществами разрядного кода, применяется для кодирова­ния больших номенклатур (перечней) объектов, которые харак­теризуются многими соподчиненными или независимыми признаками. Эта система базируется на сочетании принципов построения таких систем кодирования, как разрядная, серийная, порядковая и кода повторения.

Код повторения (мнемокод) — это буквенные или буквенно-цифровые коды, которые характеризуются тем, что в структуру кода переносят часть символьных обозначений объектов с целью повышения мнемоничности кода или для сокращения его длины.

Выбор конкретной системы кодирования зависит от объема кодируемой номенклатуры, ее стабильности, от задач, стоя­щих перед системой, и от показателей эффективности обра­ботки информации при использовании какой-либо системы.

 


Дата добавления: 2018-02-15; просмотров: 382; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!