Годун В.М. , Орленко Н.С.. Информационные системы и технологии в статистике (2003)

3.1.2 Системы классификации и кодирования

Использование систем классификации и кодирования - необходимый элемент автоматизированной обработки даних.
Классификация является одним из средств изучения природы исследуемых объектов путем их упорядочивания и систематизации.
Система правил, согласно которой осуществляется разбиение множества объектов, изучаемых на подмножество по значению тех или иных характеристик и признаков, и результаты, получаемые при их использовании, называется системой классификации, а процесс ранжирования объектов по этой системе - классификации .
Классификация является одним из важнейших этапов проектирования информационного обеспечения систем автоматизации, она также обеспечивает основу анализа и моделирования информационных потокив.
Чтобы классифицировать объекты любой природы, необходимо определить набор классификационных признаков, определяющих основание деления объектов.
Любая классификация информации должен соответствовать следующим требованиям:
обеспечения полноты охвата объектов множества, изучается;
неперетинання групп объектов, выделяемых;
возможность включения новых групп объектов;
лаконичность, четкость и ясность классификационных признаков;
неизменность принятой классификационного признака на всех уровнях класификации.
К основным систем классификации экономической информации относятся иерархическая, Фасетная и смешанная. Иерархическая система классификации - это система, в которой разделение множества объектов на подмножества выполняется последовательно по заданным признакам. Первичная множество объектов сначала разделяется на подмножества, образованные по одному признаку, которая может принимать различные значения. Далее каждая добытая подмножество делится на группы по значениям следующей признаки. Эти группы в свою очередь делятся на подгруппы по следующим признакам и т. д. Между выделенными группами объектов устанавливается определенная иерархия. При этом каждое подмножество принадлежит только одной высшей множестве. Иерархическая система классификации характеризуется глубиной, т.е. количеством ступеней разделения первичной множества, или, что то же, количеством заданных признаков классификации. Иерархической системе классификации присущи простота, наглядность, логичность построения, добра приспособленность к ручному обработки. Недостатками такой системы является жесткость структуры через фиксированность признаков и порядка их размещения, сложность включения новых признаков, необходимость большого резерва мисткости.
Фасетная классификация основана на параллельном разделении множества объектов на независимые подмножества (классификационные группировки). Последовательность создания фасетной группировок задается фасетной формулою
Ф = (ф1, ф2, ..., фn).
Одни и те же объекты могут входить в различных подмножеств Xi.
Например
X1 = (ф1, ф2, ..., Фr)
X2 = (ф1, ..., Фr - 1);
...
Xn = (ф1, ф2).
Преимущества фасетной системы классификации заключаются в гибкости ее структуры, возможности включения новых фасет и исключения старих.
К недостаткам такой системы можно отнести нетрадиционность и сложность ее использования в случае ручного обработки данных и недостаточно полное использование вместимости учитывая, что многие возможных комбинаций фасет не имеют практического применения. Изменение системы классификации предполагает использование обоих упомянутых систем.
В иерархической системе классификации на любом уровне подмножества элементы не должны пересекаться. Сумма элементов всех множеств каждого уровня равно количеству элементов первичной (начальной) множества. Для фасетной классификации это не является обязательным, сумма элементов подмножества может быть больше числа элементов начальной множества. Для фасетной системы обязательно неповторюванисть ознак.
Выбранный метод классификации должно удовлетворять следующие требования:
быть достаточно вместительным и полным;
характеризоваться достаточной экономически обоснованной глубиной;
количество признаков должно быть оправданной;
обеспечивать решение всех комплексов задач;
характеризоваться лаконичностью, гибкостью и качеством классификационных признаков.
При проектировании информационных систем возможно применение различных систем кодирования: порядковой, серийно-порядковой, последовательной, кодирование с повторением и инши.
Порядковый средство кодирования - это формирование кода из чисел натурального ряда и его присвоение. Это наиболее полный и простое средство. Применяется для однопризначних номенклатур.
Серийно-порядковый средство - формирование кода из чисел натурального ряда и закрепление отдельных серий или диапазонов этих чисел за объектами классификации с одинаковыми признаками, и его присвоения. Применяется для двопризначних номенклатур.
Последовательный способ - формирование кода классификационного группировки или объекта классификации с использованием кодов последовательно расположенных подчиненных группировок, получающих при иерархическом средстве классификации, и его присвоення.
Параллельный средство - формирование кода классификационного группировки или объекта классификации с использованием кодов независимых группировок, полученных при фасетного средства классификации, и его присвоення.
При образовании системы классификации и кодирования для объекта применяются различные комбинации методов классификации и кодирования, выбор которых зависит от назначения классификатора, специфики решаемых задач и выбора вычислительной техники.
Кодам предъявляются следующие требования:
обеспечения решения всех задач системы по их минимальной длины кодов;
единство кодов на всех уровнях;
структура кода должна обеспечить группировки информации в необходимых размерах;
коды могут быть как внутрiшньомашинни, так и зовнишни.
Внутрiшньомашинни коды используются вычислительной системой, а внешние, кроме этого, и пользователем.

<- 3.1.1. Общая характеристика информационного обеспечения 3.1.3. Национальные статистические классификаторы ->