Годун В.М. , Орленко Н.С.. Информационные системы и технологии в статистике (2003)

3.3.4. Специализированные статистические пакеты

На сегодня существует около 1000 распространенных на мировом рынке пакетов, решающих задачи статистического анализа данных в среде DOS, OS / 2 или Wиndows.
Статистические приложения делятся на универсальные, напивспециализовани, специализированные пакеты и статистические экспертные системи.
Из западных универсальных пакетов наиболее известные и хорошо отработанные компьютерные системы SAS, SPSS, STATISTIKA, STATGRAPHICS (STSC) и др..
Напивспециализованимы считают российские пакеты STAD, ОЛИМП, белорусский пакет Ростана и американские пакеты ODA, WиnSTAT, Statиt, UNИSTAT, Multиvarиance 7, JMP, SOLO, STATlab. В специализированных пакетов по классификации и снижения размерности принадлежат русские пакеты КЛАСС-МАСТЕР, КВАЗАР, PALMODA, Stat-Media, STARC. Достаточно известны специализированные пакеты, решающих смежные классификации задачи. Это американские системы BMDP / W, SиgmaStat, Statиstиx, TURBO Sprиng-Stat-Wиn, MVSP. Кроме того, на рынке программного обеспечения представлены статистические экспертные системы, в частности, СТАТЭКС, Statиstиcal Navиgator Pro.
Рассмотрим некоторые из этих пакетив.
Система SAS существует и развивается с 1976 г. Сегодня - это мощный комплекс с более чем двадцатью различными программными продуктами, объединенными друг с другом «средствами доставки информации» (Иnformatиon Delиvery System, ИDS, иногда весь пакет обозначается как SAS / ИDS). SAS отличает непревзойденная мощность по набору статистических алгоритмов. Система предоставляет пользователю возможность присоединения его оригинальных алгоритмов. Основными пользователями системы являются предприятия ВПК, крупные банки, биржи, торговые фирмы, некоторые атомные станции, крупнейшие медицинские и геофизические центры, крупные государственные структуры.
Под понятием «ИDS» разработчик системы понимает, что ее пользователю для 100-процентной информатизации деятельности любой фирмы достаточно поставить на свой компьютер ОС и систему SAS - все другие функции (типа задач, решаемых на основе Excel, Word, каждой из СУБД и т.п.) полностью возьмет на себя SAS / ИDS.
SAS имеет встроенные язык программирования 4GL и язык работы с базами данных SQL; содержит деловую, научную, рекламную графику, различные шрифты и карты, многофункциональный набор статистических процедур анализа данных, обеспечивает пользователю экспертную поддержку. В частности, система подсказывает пользователю, выполняются или нет предположения, лежащие в основе определенного метода анализа даних.
Система SAS позволяет строить отдельные интерфейсы для связи SAS / ИDS с самыми CУБД (ADABAS, DB2, ORACLE, SQL / DS и т.п.).
Основные недостатки системы: громоздкость, сложность освоения, высокие требования к статистической квалификации пользователя, жесткие требования к аппаратной части ПЭВМ, ее большой размер на диске.
Пакет SPSS известный в научном и деловом мире со времени реализации на больших машинах. В последние годы переориентирован на платформу Windows. Пакет SPSS требователен к техническому обеспечению: процессор должен быть 486DX-2 и выше, для его использования рекомендуется 16 Мб оперативной памяти, 65-80 Мб дисковой памяти. Пакет имеет очень большой набор статистических (их более 60) и графических процедур, а также процедур создания отчетов. Имеет удобный интерфейс SPSS. Отличается высокой точностью вычислений.
Статистический анализ с помощью пакета SPSS доступен как опытным, так и рядовым пользователям. Помимо меню и диалоговых окон, в нем есть язык команд, которую можно использовать для создания и запуска рабочих задач. Находясь в диалоговом окне можно вставлять команды в окно синтаксиса, где их можно хранить и редактировать. Система подсказки содержит краткие статистические диаграммы в дополнение к полной системе помощи за графическим пользовательским интерфейсом.
SPSS имеет дополнительные программные средства, которые работают на нескольких платформах и позволяют расширять возможности базового модуля. Наряду с расширением статистических процедур базового модуля изменено содержание модулей Professional Statistics, Advanced Statistics.
Модуль SPSS Professional Statistics содержит методы регрессионного анализа, в частности взвешенный, двухэтапный метод наименьших квадратов, логическую регрессию и нелинейную регрессию, а также многомерное шкалирование и анализ надийности.
Модуль SPSS Advanced Statistics позволяет провести анализ с помощью сложных статистических методов, таких как общее линейное моделирование, анализ компонент дисперсии, логлинийний, а также анализ виживання.
Модуль SPSS Таbles является инструментом для создания разнообразных высококачественных таблиц, включая таблицы, вложенные друг в друга и таблицы для представления многовариантных видповидей.
Модуль SPSS Trends выполняет любые виды прогнозирования и анализа временных рядов с помощью моделей отбора кривых, моделей сглаживания и методов оценки авторегрессионных функций.
Модуль SPSS Categories осуществляет совместный анализ и процедуры оптимального шкалирования, в том числе и анализ видповидностей.
Модуль SPSS CHAID упрощает и ускоряет анализ дискретных данных, разрабатывает прогностические модели, отфильтровывает лишние факторы и строит несложные дереподибни диаграммы, которые разделяют выборку на подгруппы, имеющих сходные характеристики.
Neural Connektion с помощью мощной нейронной сети и через свою чрезвычайную гибкость вносит творческий элемент в функции прогнозирования, классификации, анализа временных рядов, а также сегментации даних.
Mapln fo создает тематические карты для визуализации данных и картографические файли.
Allclear является полной графической программой, которая позволяет создавать причинно-следственные диаграммы, динамические блок-схемы, сети, деревья решений, организационные схеми.
Базовый модуль SPSS разработан для систем, работающих на платформах Windows 95 или Windows NT.
Для обработки статистической информации широко используется интегрированная система статистического анализа и обработ-ния данных STATISTIKA. Основными компонентами системы STATISTIKA являются: электронные таблицы для ввода входных данных, а также специальные таблицы вывода числовых результатов анализа; мощная графическая система для визуализации данных и результатов статистического анализа; набор специализированных статистических модулей, в которых собраны группы логически связанных между собой статистических процедур ; специальный инструментарий для подготовки отчетов; встроенные языки программирования SCL (STATISTICA Command Language) и STATISTICA BASIC, позволяющие пользователю расширить стандартные возможности системы. STATISTICA работает с четырьмя различными типами документов, соответствующих основным структурным компонентам системы. Это:
электронная таблица, которая предназначена для ввода исходных данных и их преобразования;
электронная таблица для вывода числовых и текстовых результатов анализа;
график-документ в специальном графическом формате для визуализации и графического представления числовой информации;
отчет-документ в расширенном текстовом формате для вывода текстовой и графической информации.
Согласно стандартам среды Windows каждый тип документа выводится в своем собственном окне в рабочей области системы STATISTICA.
Пакет STATGRAPHICS реализует следующие статистические функции: параметрические и другие непараметрические тесты; категориальный, дисперсионный, однофакторный, двухфакторный, многофакторный анализ, ковариационный анализ, контроль качества; регрессионный анализ, анализ временных рядов, многомерные методы. Пакет имеет широкие графические возможности. Доступ к графическим процедур осуществляется в процессе статистической обработки данных. Пакет предназначен в основном для тех пользователей, которые уже имеют определенный опыт в статистике. Пакет предоставляет широкие возможности взаимодействия с электронными таблицами и СУБД (типа dBASE и ее «потомков»). Обмен с электронными таблицами в Windows-версии выполняется через стандартный буфер обмена (Windows clиpboard).
По классификации и смежных с ней задач пакет содержит такие разделы, как дескриптивная статистика, разведывательный анализ, многомерный анализ. Кроме того, STSC имеет еще восемь крупных разделов, касающихся методов математической статистики.
Недостатки (незначительные) STSC / W: нечеткость справочной системы и выдача результатов расчетов с точностью до 4-5 значимых цифр.
Рассмотрим некоторые из специализированных и напивспециализованих пакетив.
Пакет КЛАСС-МАСТЕР предназначен для решения задач кластерного анализа. Пакет импортирует / экспортирует данные стандартного формата ASCИИ или DBF и представляет их в виде таблицы «объект-признак». Кроме того, пакет включает методы описательной статистики, прогнозирования, конструирования (создание новых признаков). Недостаток пакета: все результаты вычислений выдаются или в виде набора цифр (в текстовом режиме), понятного без документации только человеку со специальной статистической подготовкой, или в графическом виде, интуитивно понятному даже неспециалисту.
Пакет PALMODA (Параметрические логические модели анализа данных). Версию для MS-Wиndows разработчиками названо ЛОРЕГ.
Пакет предназначен для анализа данных и распознавания образов, решения задач классификации и прогноза, поиска логических закономерностей и поддержки принятия решений в условиях неопределенности.
Пакет STARC имеет как DOS, так и Windows версию. Он состоит из модулей для решения задач: классификации «с учителем» - позволяет строить классификаторы, сравнению с качеством с классификаторами, получаемыми в нейросетях линейного типа, использующих прямые связи нейронов (feed forward) кластерного анализа и сжатия ; статистических вычислений и графики, преобразования признаков. В сервисных модулях можно вводить и редактировать различные базы данных, проверять формат, активизировать те или иные подмножества данных, формулировать задачи командным языком пакета, генерировать по Монте-Карло те или иные тестовые данные и формировать отчет по результатам работы пользователя с конкретными данными.
Российский пакет КВАЗАР Комплекс вычислительных алгоритмов для задач распознавания предназначен для решения задач классификации. В пакете для ПЭВМ реализовано подход к распознаванию образов, основанный на применении теории линейных неравенств и так называемого метода комитетов для системы линейных неравенств (оригинальные алгоритмы разработчиков). Кроме того, в пакете используются и некоторые другие алгоритмы (метод главных компонент, элементы разведочного анализа данных и т.д.).
Программа PolyAnalyst, работающий под управлением OS / 2 Warp фирмы IBM, способна автоматически обнаруживать знания, скрытые в базах данных. Научное направление, к которому принадлежит программа, называется Data Mиnиng and Khowledge Dиscovery («добычи данных и выявления знаний»). Программа работает с данными произвольного типа: действительными или целыми, логическими или качественными. Она умеет находить многофакторные зависимости в данных в виде аналитических формул, структурных правил и алгоритмов, выводить за учебными примерами правила для классификации новых даних.
Программа Poly Analyst принадлежит к относительно нового направления искусственного интеллекта, что называется «символические методы извлечения знаний из баз данных».
Программа MVSP (Multi-Varиate Statиstиcs Program) выполняет анализ главных компонентов, анализ соответствий, кластерный анализ по одному из подходов к группировке. Используется в финансовой сфере.
Компьютерная система МЕЗОЗАВР (MESOSAUR) разработана и продается в СНГ и за рубежом с начала 90-х годов. Программа МЕЗОЗАВР предназначена для анализа временных рядов. В форме временных рядов могут выступать самые разнообразные данные по экономике, демографии, техники, медицины и т.д.. В программе реализованы различные алгоритмы сглаживания временных рядов, выделение в ряде сезонных колебаний, выполнения спектрального анализа и частотной фильтрации. Кроме того, есть различные модели и методы: линейные и нелинейные модели тренда, авторегрессионной модели, множественная линейная регрессия, модель Бокса-Дженкинса (ARИMA) по экспертной поддержки. Программа импортирует / экспортирует данные ASCII, dBASE, Lotus 1-2-3, САНИ.
Статистические экспертные системы отличаются наличием базы знаний (БЗ) и механизмом логического вывода новых знаний на основании БЗ.
Главное отличие пакета «СТАТЭКС» заключается в том, что он содержит признаки экспертной системы, т.е. ориентирован не на методы, а на цель анализа данных. Пользователь пакета «СТАТЭКС» может вовсе не разбираться в механизме обработки данных, но должен четко понимать содержание его данных и общую цель анализа. Результаты анализа представляются в виде контекстно-ориентированных экранов, содержащие комментарии, что позволяет рассматривать их как готовые решения. Пакет имеет базу знаний, которая представляет собой набор правил, связанных со свойствами и особенностями применения статистических методов, и базу данных, которая позволяет хранения информации в виде «куба»: таблицы «объект-признак» и «время». В пакете реализован режим «Why?", Предназначен для объяснения мотивов принятого «СТАТЭКС» решения. В пакете реализованы следующие методы: расчет стандартных статистических характеристик; классификация объектов (комбинационное группировки, кластерный анализ), выявление и анализ статистических зависимостей признаков (корреляция, группировки признаков, главные компоненты и визуализация) установление зависимостей (регрессионный анализ, индексный анализ и распознавания образов); прогнозирования (эконометрические модели).
Органы государственной статистики используют статистические пакеты для анализа статистических данных типа SAS, SPSS.

<- 3.3.3. прикладные системы 3.4. Организационно-методическое обеспечение ->