кандидат технічних наук, Гордійко Н. О., кандидат технічних наук, Томашевська Т. В. СТАТИСТИЧНИЙ АНАЛІЗ ТА МОДЕЛЮВАННЯ ЗА ДОПОМОГОЮ STATISTICS TOOLBOX

УДК:519.24

 

СТАТИСТИЧНИЙ АНАЛІЗ ТА МОДЕЛЮВАННЯ ЗА ДОПОМОГОЮ STATISTICS TOOLBOX

кандидат технічних наук, Гордійко Н. О., кандидат технічних наук, Томашевська Т. В.

Національний технічний університет України «Київський політехнічний інститут», Україна, Київ, Національна Академія статистики, обліку та аудиту, Україна, Київ

 

Обґрунтовано доцільність використання Statistics Toolbox MatLab для статистичної обробки даних, враховуючи його функціональність та незважаючи на наявність великої кількості сучасного спеціалізованого програмного забезпечення для статистичного аналізу даних. Наведено основні властивості та можливості пакету, проаналізовано деякі функції та приклади їх використання, результати застосування деяких алгоритмів та графіки, що наочно характеризують роботу Statistics Toolbox. Розглянута реалізація алгоритму планування експерименту та обробки даних в пакеті.

Ключові слова: Statistics Toolbox, статистичний аналіз, багатовимірна статистика, перевірка гіпотез, планування експерименту, моделювання,.

 

кандидат технических наук, Гордийко Н. А., кандидат технических наук, Томашевская Т. В. Статистический анализ и моделирование с помощью Statistics Toolbox / Национальный технический университет Украины «Киевский политехнический институт», Национальная Академия статистики, учета и аудита, Украина, Киев.

Обоснована целесообразность использования Statistics Toolbox MatLab для статистической обработки данных, учитывая его функциональность и несмотря на наличие большого количества современного специализированного программного обеспечения для статистического анализа данных. Перечислены основные свойства и возможности пакета, проанализированы некоторые функции и примеры их использования, результаты применения некоторых алгоритмов и графики, наглядно характеризующие работу Statistics Toolbox. Рассмотрена реализация алгоритма планирования эксперимента и обработки данных в пакете.

Ключевые слова: Statistics Toolbox, статистический анализ, многомерная статистика, проверка гипотез, планирование эксперимента, моделирование.

 

PhD in Technical Sciences, Gordiiko N. O., PhD in Technical Sciences, Tomashevska T. V. Statistical analysis and simulation using Statistics Toolbox / National Technical University of Ukraine «Kyiv Polytechnic Institute», The National Academy of Statistics, Accounting and Auditing, Ukraine, Kyiv.

The advisability of using Statistics Toolbox MatLab for statistical processing of data, because of its functionality and despite the large number of modern specialized software for statistical data analysis. There are listed the main features of the package properties, analyzed some of the functions and examples of their use. There are shown results of the use of certain algorithms and graphics that clearly characterize the work of Statistics Toolbox. It is considered the implementation of the algorithm of planning experiment and data in the packet.

Key words: Statistics Toolbox, statistical analysis, multivariate statistics, hypothesis testing, planning experiment, modeling.

 

Вступ. Невід’ємним етапом будь-якого наукового дослідження є статистичний аналіз даних. Тому комп’ютерні системи для аналізу даних (статистичні пакети), порівняно з іншим програмним забезпеченням, є найбільш широко застосовуваними в практичній та дослідницької роботі в різних галузях людської діяльності. Сучасний ринок математичного програмного забезпечення, зокрема, засобів обробки статистичної інформації, є дуже розвиненим. Серед найвідоміших і найвикористовуваніших – STATISTICA, JMR, STATGRAPHICS, SYSTAT, SAS, MINITAD тощо [1]. Кожен з існуючих пакетів, безумовно, має свої недоліки та переваги. Проте навіть серед такого різноманіття не загубився пакет Statistics, що входить до системи MatLab [2]. Дана стаття присвячена використанню можливостей Statistics Toolbox.

Основними можливостями Statistics Toolbox є робота зі статистичними масивами для зберігання різнорідних і категоріальних даних; використання регресійних методів, включаючи лінійні, нелінійні, робастні, рідж- та нелінійні моделі зі змішаним ефектом; дисперсійний аналіз (ANOVA); застосування алгоритмів класифікації (boosted і bagged decision trees, k-найближчих сусідів і лінійний дискримінантний аналіз); розподіл ймовірностей, включаючи зв'язки та суміші нормальних розподілів (пакет містить 20 різних розподілів ймовірностей, зокрема, t, f та хі-квадрат); генерація випадкових чисел; тестування гіпотез; планування експерименту та статистичне керування процесом. Пакет дає можливість використовувати регресію або класифікацію для передбачливого моделювання, створювати випадкові числа для методу Монте-Карло, використовувати статистичні графіки для дослідницького аналізу даних і виконувати перевірку гіпотез. Для аналізу багатовимірних даних Statistics Toolbox містить алгоритми, що дозволяють визначити ключові змінні, які впливають на модель методом послідовного вибору ознак, перетворювати дані за допомогою методу головних компонент, застосувати регуляризацію й стиснення даних (shrinkage) або використовувати регресію методу дробових найменших квадратів.

Інструментальні засоби Statistics Toolbox дозволяють використовувати як його систему команд в режимі командного рядка, так і набір графічних інтерактивних програм (графічний інтерфейс користувача) [3, с. 437].

Головна перевага Statistics Toolbox (на відміну від, наприклад, таких спеціалізованих статистичних систем як STATISTICА або STATGRAPHICS) – можливість організовувати моделювання стохастичних об’єктів і процесів, в тому числі зі змінюваними у часі характеристиками [3, с. 437].

Зупинимося детальніше на деяких можливостях Statistics Toolbox.

Statistics Toolbox має два спеціалізовані масиви для зберігання і керування статистичними даними (dataset arrays та categorical arrays). Перший дозволяє зручно організувати й аналізувати статистичну різнорідну інформацію і метадані та містить у стовпцях змінні, а у рядках – вимірювання. За допомогою набору arrays можна зберігати різні типи даних в одному контейнері; позначати рядок і колонку даних, використовуючи легковпізнавані імена; відображати і редагувати дані у форматі таблиці; використовувати метадані для визначення одиниць, що описують дані, і зберігати інформацію.

Statistics Toolbox має спеціалізовані функції для роботи з dataset arrays, з якими можна виконати злиття наборів даних шляхом об’єднання полів, використовуючи загальні ключі; обчислення зведеної статистики групових даних; експорт даних в стандартні файлові формати, зокрема, MS Excel і CSV.

Сategorical аrrays дозволяє організувати й обробити номінальні та порядкові дані, які використовують значення з кінцевої множини дискретних рівнів і категорій. З цими масивами можна скорочувати кількість використовуваної пам’яті, замінюючи повторювані рядки тексту категорійними мітками; зберігати номінальні дані, використовуючи описові теги (червоний, зелений і синій) для невпорядкованого набору кольорів; зберігати порядкові дані, використовуючи описові теги (холодний, теплий і гарячий) для порядкової множини вимірів температури; обробляти категоріальні дані, використовуючи загальні операції і методи індексації; створювати логічні індекси на основі категоріальних даних; групувати спостереження за категоріями.

Statistics Toolbox має багато способів для дослідження даних – статистичні графіки, алгоритми кластерного аналізу й описова статистика для великих наборів даних. Так, він містить графіки й діаграми для візуального дослідження даних. Пакет розширює графічні можливості MatLab графіками розподілів (рис.1), діаграмами розмаху, гістограмами, точковими гістограмами (рис.2), 3D-гістограмами, контурними графіками та графіком квантиль-квантиль [4]. Statistics Toolbox містить спеціалізовані графіки для багатовимірного аналізу, включаючи дендрограми (рис.3), графік паралельних координат, biplot і графіки Andrews.

 

Повний текст статті за посиланням Stattya_Gordyko.doc

Пошук по сайту

Конференции

Please publish modules in offcanvas position.