Філічкін М.О. ВИЯВЛЕННЯ ВТОРГНЕНЬ ЗА ДОПОМОГОЮ ДАТА МАЙНІНГ

УДК: 004.98

 

ВИЯВЛЕННЯ ВТОРГНЕНЬ ЗА ДОПОМОГОЮ ДАТА МАЙНІНГ

Філічкін М.О.

Національний Технічний Університет України «КПІ», Україна, Київ

 

Змодельовано архітектуру інтелектуальної системи виявлення вторгнень, що має модульну схему організації взаємодії між компонентами з виділеною підсистемою сенсорів і централізованим управлінням. Проаналізовано найбільш поширені методи виявлення атак із вказанням особливостей їх застосуванням, їх недоліків та переваг. Зазначено методи та алгоритми аналізу даних, виявлено основні та знайдено особливості їх використання та роботи при розв’язку різних типів задач.

Ключові слова: інформаційна безпека, аналіз даних, схема, вихідні дані, інтелектуальна система, вторгнення, інформаційні атаки.

 

Филичкин Н.А. Обнаружение вторжений с помощью дата майнинг / Национальный Технический Университет Украины «КПИ», Украина, Киев

Смоделировано архитектуру интеллектуальной системы обнаружения вторжений, что имеет модульную схему организации взаимодействия между компонентами с выделенной подсистемой сенсоров и централизованным управлением. Проанализированы наиболее распространенные методы обнаружения атак с указанием особенностей их применением, их недостатков и преимуществ. Указано методы и алгоритмы анализа данных, выявлены основные и найдено особенности их использования и работы при решении различных типов задач.

Ключевые слова: информационная безопасность, анализ данных, схема, выходные данные, интеллектуальная система, вторжение, информационные атаки.

 

Filichkin M.O. Intrusion detection using Date Mining / National Technical University of Ukraine "KPI", Ukraine, Kyiv

Developed architecture is modeled intrusion detection system that is modular scheme of interaction between the components with a dedicated sensor subsystem and centralized management. Analyzed the most common methods of attack detection with indication of the characteristics of their application, their drawbacks and advantages. These methods and algorithms for data analysis revealed the main features and found their use and work at solving different types of problems.

Keywords: information security, data analysis, scheme, raw data, intelligent system, intrusion, information attack.

 

Вступ. Сучасний період розвитку суспільства характеризується, з одного боку, широким впровадженням інформаційних технологій у всі сфери сучасного суспільства, а з іншого – зростанням злочинів у сфері високих технологій, що вимагає проведення енергійних заходів по захисту інформаційного ресурсу [1].

Найбільш поширені сьогодні методи виявлення атак не дозволяють системі адаптуватися до нових атак і виявлення атак починається лише після явного внесення їх опису в базу знань системи. Такі системи вимагають постійної підтримки. Більш складні методи поки використовуються не дуже широко, але їх роль неминуче буде зростати.

До методів і алгоритмів аналізу даних (DataMining) належать такі: штучні нейронні мережі, дерева рішень, символьні правила, методи найближчого сусіда і k-найближчого сусіда, метод опорних векторів, байєсові мережі, лінійна регресія, кореляційно-регресійний аналіз; ієрархічні методи кластерного аналізу, неієрархічні методи кластерного аналізу, у тому числі алгоритми k-середніх і k-медіани; методи пошуку асоціативних правил, зокрема алгоритм Apriori; метод обмеженого перебирання, еволюційне програмування і генетичні алгоритми, різні методи візуалізації даних і безліч інших методів [2].

Так званий наївний баєсівський підхід (NaïveBayesApproach) є найбільш простим варіантом методу, що використовує байєсівські мережі. Його застосовують в задачах класифікації. Основними перевагами э простота у використанні, висока швидкість - класифікація даних здійснюється за одне сканування; здатність обробляти відсутні значення атрибутів (при розрахунку достовірності кожного класу ймовірності відсутніх значень просто не враховуються); оскільки в моделі визначаються залежно між усіма змінними, легко обробляються ситуації, коли значення деяких змінних невідомі.

Недоліками є перемноження умовної вірогідності коректно тільки при дійсній статистичній незалежності вхідних змінних; незважаючи на непогані практичні результати допущення цієї незалежності (чим обумовлена приставка «наївний» в назві), необхідно враховувати, що коректно дана ситуація обробляється більш складними методами. Також неможлива безпосередня обробка безперервних змінних - їх потрібно розбивати на безліч інтервалів, щоб атрибути були дискретними; таке розбиття в ряді випадків призводить до втрати значущих закономірностей.

Наступним методом є метод опорних векторів. Вихідними даними в МОВ є безліч елементів, що розміщуються в просторі. Розмірність простору відповідає кількості ознак, за допомогою яких класифікують, а їх значення визначає положення елементів (точок) в просторі. Основна ідея МОВ полягає в перекладі вихідних векторів в простір більш високої розмірності і побудові гіперплощини, що розділяє. МОВ вважають найбільш швидким методом знаходження вирішальних функцій. Цей метод зводиться до вирішення задачі квадратичного програмування в опуклій області, яка завжди має єдине рішення. Метод знаходить роздільну смугу максимальної ширини, що дозволяє в подальшому здійснювати більш впевнену класифікацію.

Недоліком є те, що метод підходить тільки для вирішення завдань з двома класами. Також він чутливий до шумів і стандартизації даних. Відсутній загальний підхід до автоматичного вибору ядра (і побудови спрямовуючого підпростору в цілому) в разі лінійної нероздільності класів [3].

Наступним методом є метод найближчих сусідів (Nearest Neighbor) є найпростішим алгоритмом класифікації. Єдиною перевагою цього методу є його простота. Природним розвитком описаного алгоритму став алгоритм k-найближчих сусідів. Він простий в реалізації і дає можливість вводити додаткові параметри налаштування. Прецедентна логіка роботи алгоритму добре зрозуміла експертам в предметних областях (медицина, біометрія, юриспруденція). Проте іноді доводиться зберігати навчальну вибірку в повному обсязі, звідси і неефективний витрата пам'яті. Також присутня велика кількість операцій при класифікації об'єктів.

Метод побудови дерев рішень є одним з найбільш популярних методів вирішення завдань класифікації та прогнозування. Іноді цей метод з МІАД також називають деревами вирішальних правил, деревами класифікації і регресії. Він дає досить наочне представлення рішення навіть для непрофесійного користувача, можливість перетворення результату в набір булевих правил, які прості для вбудовування в технології реального часу, наприклад, IDS; можливість роботи як з числовими, так і з номінальними атрибутами;відносно високу швидкість роботи; використання моделі «білого ящика» [4].

Недоліком у робооті є те, що більшість алгоритмів (наприклад, ID3 і C4.5) вимагають, щоб цільові атрибути брали тільки дискретні значення; оскільки основним принципом дерев рішень є «розділяй і володарюй», то вони, як правило, добре працюють, коли досліджувана множина містить кілька значущих ознак, і значно гірше, коли між елементами існують складні взаємозв'язки (виходять занадто складні конструкції, які недостатньо повно описують дані); висока залежність результату від якості навчальної вибірки. Наявність шуму може привести до вибору неоптимальної ознаки при розподілі. Якщо такий розподіл відбувається близько до кореня, це призводить до ускладнення загальної структури дерева і багаторазового дублювання окремих сегментів; короткозорий характер роботи більшості індукційних алгоритмів;використання стратегій з більш глибоким тестуванням призводить до значного збільшення обчислювального навантаження та не дає очікуваного корисного ефекту; неефективні при вирішенні задач класифікації з великим числом класів [5].

У запропонованій системі, змодельовано виявлення вторгнень на основі аномалій з застосуванням інтелектуального аналізу даних. Вихідними даними для запропонованої системи є набір даних NSL-KDD, який розділений на дві підмножини, а саме на навчальний та на тестовий набір даних.

Запропонована архітектура інтелектуальної системи виявлення вторгнень має модульну схему організації взаємодії між компонентами з виділеною підсистемою сенсорів і централізованим управлінням за допомогою консолі адміністратора. Структурна схема системи представлена на рис.1.

Повний текст статты за посиланням Ctattya_Flchkn.doc

Пошук по сайту

Конференции

Please publish modules in offcanvas position.