Годун В.М. , Орленко Н.С.. Информационные системы и технологии в статистике (2003)

6.2. Информационные источники и технология их использования для информационного наполнения КАБСД

Оценка информационной среды основывается на анализе применяемых в процессе обработки структур данных и определенных ими информационных технологий - систем файлового обработки и АБД.
Технология файлового обработки распространена в виде решения отдельных задач и комплексов задач на основе автоматизированных систем обработки данных. Структуры данных, которые применяются в автоматизированных системах обработки данных, принадлежат большей частью к линейного типа. Целый ряд задач экономического характера являются задачами «прямого расчета», поэтому организация их массивов базируется на данных линейной последовательной структуры, в большинстве случаев благоустроенной за определенными значениями ключевых признаков. Такая структура данных с позиции их логического преобразования является найпростишою.
Однако многие автоматизированных систем обработки данных оперируют с более сложной строчной линейной структурой данных, которая является разновидностью списочного структуры. Применение списочных структур позволяет унифицировать процесс кодирования данных, облегчает организацию условно-постоянной информации, сокращает дублирование данных в массивах, обеспечивает выигрыш во времени при поиске конкретных данных.
Обоим типам названных структур присуща признак: формат записи известен заранее и твердо фиксированный, что позволяет разработать в каждом конкретном случае средство для конвертирования в принятый формат КАБСД. Однако из-за универсальности этого подхода расходы на конвертирование могут быть значними.
Перспективными с этой точки зрения источниками информации можно считать АБД, на основе которых достигается интеграция информационной системы за счет единообразия организации данных на машинных носителях и плотности функциональных связей задач через информационные массивы. В общем случае это означает замену многих локальных массивов с линейной структурой на недублированные по элементам базы со сложной иерархической или сетевой структурой данных. Преобразование информации из такого технологической среды эффективнее, особенно если этот процесс в связи с актуализацией КАБСД является периодичним.
При использовании зарубежных баз данных рекомендуется применять Международные автоматизированные каталоги, которые содержат около 4 тыс. БД, доступных через сети ЭВМ. Технологической основой международной автоматизированной базы данных CVAD служит информационно-поисковая система, основными поисковыми полями в которой есть: ключевое поле; поле AG - перечень АБД, которые содержат данную информацию; поле PT-тип - тип информации (текстовая, цифровая, смешанная); поле NT - условия доступа поле AV - география комплектации, ретроспектива, актуализация и т. д.
Базы данных, содержащие информацию относительно фирм, делятся на три категории: с общими данными о фирм; информацией о финансовом состоянии фирм и аналитическим данным об их деятельности (информация о новых продуктах и ​​услугах фирм, их контрактно-лицензионную деятельность, создание дочерних и совместных предприятий и т.п.).
К категории баз данных, содержащих общие данные относительно фирм, принадлежит большинство БД. У них, как правило, содержится следующая информация: полное наименование фирмы; год основания; почтовый и телеграфный адрес, телетекс, телефакс, телефон, адрес в Internet; обладатели фирмы или материнская компания; руководящий состав фирмы; банки, через которые фирмы осуществляют свои операции ; отрасль, к которой относится фирма, основные товары или виды услуг; торговые марки или товарные знаки; страны, в которые экспортируются товары или где есть торговые представительства, численность работников; годовой объем продаж; собственный капитал; членство в торговых асоциациях.
В БД этого типа поиск производится по двум основным направлениям: по названию компании и по номенклатуре производимых товаров или оказываемых услуг. Первый вид поиска не доставляет трудностей. Второй, который предусматривает получение информации о компании в одной или нескольких странах, которые занимаются производством тех или иных видов продукции, в определенной мере сложнее, поскольку создатели базы данных индексирования документов применяются чаще всего отраслевую классификацию, принятую в их стране. Поэтому код продукции, который используется для поиска информации, например, по компаниям Великобритании, не может быть использован при поиске информации по компаниям США.
Следует отметить, что наряду с цифровым кодом промышленной классификации есть поле с текстовым описанием кода. Поэтому можно проводить поиск по свободному тексту, поскольку информация о кодах не всегда доступна.
Типичным представителем БД, содержащие, кроме установочных данных, полную информацию о финансовом состоянии фирмы (а некоторые и данные анализа деятельности компании), является DISCLOSURE. База данных DISCLOSURE - это полная финансовая информация о 11 тыс. компаний, которые предоставляют в Комиссию по ценным бумагам и биржам США годовые отчеты о финансовом стан.
Документ в БД DISCLOSURE имеет 250 полей, которые можно разделить на три группы: установочные сведения о компании; текстовая информация справочного характера, данные, представленные в табличной форме, которые характеризуют финансовое и экономическое положение компании (баланс фирмы, отчет о прибылях и убытках) и позволяют судить о результатах ее хозяйственной деятельности. В документе указываются объемы продаж, издержки производства, прибыль и другие поступления средств за финансовый год от различных источников: чистая прибыль, амортизационные отчисления, поступления от реализации активов, увеличение долгосрочной и краткосрочной задолженности, эмиссия акций, субсидии и дотации.
К БД, которые хранят информацию по компаниям, можно отнести библиографическая-реферативные базы данных, в которых содержатся статьи из общеэкономических и отраслевых газет и журналов, информационных сообщений. К наиболее характерным БД Этот тип БД PROMT, в которой индексированной более 2,5 тыс. наименований источников информации. Она обновляется ежедневно и содержит информацию практически по всем товарам, которые производятся в мире, технологиях, мировых товарных рынках, отраслях промышленности. Информация охватывает следующие аспекты: история деятельности компании, отдельные показатели финансового состояния фирмы; контрольно-лицензионная деятельность, данные о создании совместных предприятий, сведения о продуктах или услугах компании, доля внутреннего и международного рынков, сведения о поглощении и слиянии компаний; стратегия маркетинга; рекламная деятельности компании; международная дияльнисть.
Географию охвата фирм в БД PROMT можно охарактеризовать так: 47% - США, 24% - Европа, 11% - Юго-Восточная Азия, Австралия и Океания, 9% - Канада и страны Латинской Америки, 5% - Африка и Ближний Восток.
Дополнительно к БД PROMT обычно используют еще одну базу - BIS INFORMAT NEWSFILE, содержание документов в которой значительной мере аналогичный PROMT, но охватывает исключительно страны Западной Европи.
Наличие многочисленных источников для ведения КАБСД вызывает потребность в совершенной технологии получения данных и их преобразования в форматы среды КАБСД. Процесс получения информации осуществляется путем реализации запросов к источникам информации, в том числе в иностранных АБД через международные сети ЭВМ. Запросы к зарубежным источникам информации реализуются сеансами (т.е. в течение определенных отрезков времени), в которых выделяют три стадии: присоединение к ресурсу, работа с ресурсом, отсоединения от ресурсу.
На первой стадии сеанса выполняются процедуры установление логической связи между терминальной аппаратурой и ресурсом, а также присоединение к АБД и далее к БД. Эти процедуры требуют закрепления за сеансом некоторых аппаратных, программных средств и других ресурсив.
На второй стадии сеанса осуществляется преобразование информационных потоков, передаваемых между отдельными компонентами, и собственно передачи информации.
На последней стадии выполняется разрыв логического соединения, а также освобождение закрепленных за сеансом ресурсов. Во время сеанса осуществляется контроль за работой, а также сбор статистической информации об использовании в сеансе тех или иных ресурсив.
Весь процесс работы с ресурсом отображается в протоколе сеанса работы. Порядок взаимодействия с зарубежными АБД аналогичный используемому в отечественной практике и заключается в такому.
Каждой базе данных присваивается своя чотирьохсимвольна метка, совпадает с ее сокращенной назвою.
Присоединение к необходимой БД осуществляется следующим образом:
ENTER DATA BASE NAME-: при работе с АБД применяется, как правило, командный язык, каждая из команд которой может быть представлена ​​в вигляди
... Поиск осуществляется с использованием команды ... SEARCH .. (S) с помощью поисковых терминов: сроков свободного текста (ключевых слов, имен и т. д.), кодов, номеров. Команда ... SEARCH может явно не сдаваться (например, 1 -: statistics). При этом поиск может проводиться: по полю (задается ключевое слово или код) по ключевому слову или кода всей информационной части документа; по метке поля.
После получения положительных результатов поиска вывода документов на экран осуществляется с помощью команды ... РRINT в нужном для пользователя формате видачи.
Во время сеанса можно выполнять подключения нескольких БД, для чего используется команда ... CHANGE.
Окончания поиска и вывода необходимой информации осуществляется с помощью команды отключения от системы ... OFF (... O).
Следовательно, информация, которая может быть получена из зарубежных АБД, содержит как информационные данные, так и служебную и протокольную информацию, которая не подлежит загрузке. Эта информация имеет разную, отличную от КАБСД, логическую структуру и не может быть прямо перенесена во входной формат КАБСД. Поэтому для наполнения КАБСД информации, полученной в процессе реализации запросов к зарубежным АБД через международные сети, необходимо ее конвертувати.
Преобразование - это три самостоятельных этапа:
согласования логических структур;
собственно конвертирования и перекодирования информации;
перезапись информации с технической среды ПЭВМ в среду центральной ЕОМ.
Задача согласования логических структур в КАБСД тесно связана с вариантами организации информации, полученной из иностранных источников. При этом возможны два варианта: создание специальной базы данных для наполнения информацией из зарубежных источников со своей логической структурой и объединения действующей базы данных КАБСД информации из зарубежных источников. Каждый из этих вариантов имеет свои преимущества и вади.
В случае первого варианта, когда данные загружаются в заново создаваемую БД, логическая структура документа должна определяться перечнем полей из выбранных для загрузки зарубежных баз данных за счет чего задача преобразования может быть существенно упрощена. Логическая структура будет представлять собой простую сумму логических структур соответствующих баз данных. Если для наполнения используется одна БД, то это обстоятельство не имеет существенного значения, а если несколько БД, то структура документа будет сложной и неудобной для пользователя. Кроме того, если процесс наполнения происходит последовательно, а номенклатура иностранных баз не определена заранее, то расширение логической структуры превращается в самостоятельную проблему, поскольку в таком случае усложняется логика пользовательского диалогу.
В случае второго варианта логическая структура базы данных и логика пользовательского диалога определены требованиями КАБСД, имеющий лучшую преимущество. Однако задача преобразования усложняется, поскольку должна быть предусмотрена возможность подачи полей входных записей из разных БД в соответствующие по содержанию и структуре поля документа КАБСД.
С целью согласования логических структур необходимо совместное использование нескольких общих полей. Такое согласование позволяет выполнять физическую слияния информации с различной логической структурой.

<- 6.1. Политика Госкомстата Украины относительно коммерческой деятельности органов государственной статистики 6.3. Компьютерные технологии распространения статистической информации ->