Ісаєв Д. В. ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ ДАНИХ В МЕДИЦИНІ

УДК: 004.42

 

ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ ДАНИХ В МЕДИЦИНІ

Ісаєв Д. В.

Національний технічний університет України «Київський політехнічний інститут», Україна, Київ

 

Інтелектуальний аналіз даних є зростаючою галуззю досліджень, яка перетинається з багатьма дисциплінами, такими як штучний інтелект, бази даних, статистика, візуалізації, хмарні та паралельні обчислення. Мета інтелектуального аналізу даних - перетворення даних (факти, цифри, або текст), які можуть бути оброблені за допомогою комп'ютера в знання. В даний час, залежність охорони здоров'я від даних зростає, таким чином, ця стаття дозволить читачам зрозуміти базові можливості інтелектуального аналізу даних і його значення в медичних системах.

Ключові слова: медична система, дерево прийняття рішень, нейронна сітка, Байєсівський класифікатор,метод опорних векторів.

 

Исаев Д. В. Интеллектуальный анализ данных в медицине / Национальный технический университет Украины «Киевский политехнический институт»

Интеллектуальный анализ данных является растущей отраслью исследований, которая пересекается со многими дисциплинами, такими как искусственный интеллект, базы данных, статистика, визуализации, облачные и параллельные вычисления. Цель интеллектуального анализа данных - преобразование данных (факты, цифры, или текст), которые могут быть обработаны с помощью компьютера в знания. В настоящее время, зависимость здравоохранения от данных растет, таким образом, эта статья позволит читателям понять базовые возможности интеллектуального анализа данных и его значение в медицинских системах.

Ключевые слова: медицинская система, дерево решений, нейронная сеть, Байесовский классификатор, метод опорных векторов.

 

Isaiev D. V. Data mining in medicine / National Technical University of Ukraine «Kyiv Polytechnic Institute»

Data mining is a growing area of research that intersects with many disciplines such as Artificial Intelligence (AI), databases, statistics, visualization, and high-performance and parallel computing. The goal of data mining is to turn data that are facts, numbers, or text which can be processed by a computer into knowledge. Nowadays, the reliance of health care on data is increasing. Therefore, this paper aims to allow the readers to understand about data mining and its importance in medical systems.

Keywords-data mining; medical system; decision tree; neural network; Bayesian classifiers, Support Vector Machine

 

Введення. Поява високоефективної техніки дала переваги різним сферам у пошуку практичних рішень їх проблем, не винятком є і медицина. Інструменти для обробки сигналів, зображень та інтелектуального аналізу даних були винайдені для ефективного аналізу медичної інформації, щоб допомогти лікарям у проведенні більш якісної діагностики в лікувальних цілях

Інтелектуальний аналіз даних став фундаментальною методологією для обчислювальних додатків в медичній інформатиці. Прогрес в області цих додатків і його наслідки проявилися в управлінні інформацією в організаціях охорони здоров'я, інформатиці охорони здоров'я, епідеміології, системах догляду за хворими та моніторингових системах, в процесі великоформатного аналізу зображень для вилучення інформації та автоматичної ідентифікації невідомих класів. Різні алгоритми, пов'язані з інтелектуальним аналізом даних, значно підвищили можливість розуміти медичні дані більш чітко, допомогли розрізняти патологічні дані від нормальних даних, а також покращили можливість знаходження прихованих складних взаємин між діагностичними даними різних груп пацієнтів.

Інтелектуальний аналіз даних являє собою процес аналізу та узагальнення даних з різних точок зору і перетворення його в корисну інформацію. Дані - це факти, цифри або текст, який може бути оброблений комп'ютером. У великій базі даних, інтелектуальний аналіз даних використовується у виявленні закономірностей для вилучення прихованої інформації.

Задачі інтелектуального аналізу даних можуть бути описуючими або прогнозуючими. Вони тісно пов'язані з процесом машинного навчання і можуть бути класифіковані на узагальнення, класифікацію, кластеризацію даних, асоціювання, аналіз тенденцій. Узагальнення даних це абстракція певного набору даних, до меншого набору даних, що дає загальну характеристику даним. Класифікація дає можливість віднести об'єкт до певного класу на основі його властивостей. Це покращує розуміння об'єкту в рамках бази даних. Кластеризація означає виділення груп або кластерів на основі даних, коли невідомі класи. При аналізі інформації про об'єкти деякі властивості можуть бути узагальнені, щоб сформувати певний клас об'єктів.

Асоціювання - це відкриття певних зв'язків між об'єктами. Поєднання об'єктів називається асоціативним правилом - наприклад, якщо зовнішній вигляд набору об'єктів в базі даних тісно пов'язаний з появою інший наборів об'єктів, ці два набори називаються асоційованими.

Аналіз тенденцій - це пошук закономірностей і загальних властивостей в даних, що змінюються з плином часу. Інтелектуальний аналіз даних може розкрити існуючі закономірності в наявних даних або синтезувати модель прогнозування з даних.

Основні методи інтелектуального аналізу даних:

• Штучна нейронна сітка;

• Дерево рішень;

• Байєсівський класифікатор;

• Метод опорних векторів;

Штучна нейронна сітка базується на біологічних нейронних сітках в людському мозку.

Нейронні сітки складаються з нейронів - клітин, які обробляють інформацію в людському мозку. Тіло клітина нейрону містить ядро та два типи гілок, аксон і дендрити. Аксон передає сигнали або імпульси до інших нейронів, в той час як дендрити приймають вхідні сигнали або імпульси від інших нейронів. Всі нейрони з'єднані та здійснюють зв'язок за допомогою коротких імпульсів.

Дерево прийняття рішень - засіб підтримки прийняття рішень, що використовується в статистиці і аналізі даних для прогнозуючих моделей. Структура дерева являє собою «листя» і «гілки». На ребрах дерева рішення записані атрибути, від яких залежить цільова функція, в «листі» записані значення цільової функції, а в інших вузлах - атрибути, за якими розрізняються випадки. Щоб класифікувати новий випадок, треба спуститися по дереву до листа і видати відповідне значення. Подібні дерева рішень широко використовуються в інтелектуальному аналізі даних. Мета полягає в тому, щоб створити модель, яка передбачає значення цільової змінної на основі декількох змінних на вході.

Кожен лист представляє собою значення цільової змінної, зміненої в ході руху від кореня по листу. Кожен внутрішній вузол відповідає одній з вхідних змінних. Дерево може бути також «вивчено» поділом вихідних наборів змінних на підмножини, засновані на тестуванні значень атрибутів. Це процес, який повторюється на кожному з отриманих підмножин. Рекурсія завершується тоді, коли підмножина в вузлі має ті ж значення цільової змінної. Обробка дерева «зверху вниз» - індукція дерев рішень, є прикладом «жадібного» алгоритму, і на сьогоднішній день є найбільш поширеною стратегією дерев рішень для даних, але це не єдина можлива стратегія. В інтелектуальному аналізі даних, дерева рішень можуть бути використані в якості математичних і обчислювальних методів, щоб допомогти описати, класифікувати і узагальнити набір даних.

Байєсівський класифікатор - класифікатор, що використовує теорему Баєса для визначення ймовірності приналежності спостереження (елемента вибірки) до одного з класів C за умови того, що залежні змінні приймають задані значення : P (C | F1 , … , Fn) .

Тобто, якщо на основі значень змінних можна однозначно визначити, якого класу належить спостереження, байесовский класифікатор повідомить, що ймовірність приналежності до цього класу дорівнює 1.

У проміжних же випадках, коли спостереження може з різною ймовірністю належати до різних класів, результатом роботи класифікатора буде вектор, компоненти якого є ймовірностями приналежності до того чи іншого класу.

Можна бачити, що ідеальний байесовский класифікатор в якомусь сенсі є оптимальним. Його результат не може бути поліпшений, т.к. у всіх випадках, коли можливий однозначну відповідь, він його дасть — а в тих випадках, коли відповідь неоднозначна, результат кількісно характеризує міру цієї неоднозначності.

Разом з тим, в оптимальності криється і основний недолік ідеального байєсівського класифікатора: для його побудови потрібно вибірка, що містить всі можливі комбінації змінних — а розмір такої вибірки експоненціально зростає із зростанням числа змінних (т.зв. " прокляття розмірності "). Для подолання описаної вище проблеми на практиці використовують т.зв. наївний байесівский класифікатор — класифікатор, побудований на основі припущення про незалежність змінних, тобто припущення про те, що Використання цього припущення дозволяє не вивчати взаємодію всіх можливих поєднань змінних, обмежившись лише впливом кожної змінної окремо на приналежність образу до одного з класів.

Перевагою цього підходу є те, що вимоги до розміру вибірки скорочуються від експоненційних до лінійних. Недолік — те, що модель точна лише у випадку, коли виконується припущення про незалежність. В іншому випадку, строго кажучи, обчислені ймовірності вже не є точними (і навіть більше того, їх сума може не дорівнювати одиниці, через що потрібно нормувати результат). Однак на практиці незначні відхилення від незалежності призводять лише до незначного зниження точності, і навіть у разі істотної залежності між змінними результат роботи класифікатора продовжує корелювати з істинною приналежністю образу до класам. При цьому достоїнства класифікатора (висока швидкість роботи, простота і масштабованість, помірні вимоги до пам'яті) часто переважують недоліки.

Метод опорних векторів - це набір схожих алгоритмів виду «навчання із вчителем». Ці алгоритми зазвичай використовуються для задач класифікації та регресійного аналізу. Метод належить до розряду лінійних класифікаторів. Особливою властивістю методу опорних векторів є безперервне зменшення емпіричної помилки класифікації та збільшення проміжку. Тому цей метод також відомий як метод класифікатора з максимальним проміжком. Основна ідея методу опорних векторів – перевід вихідних векторів у простір більш високої розмірності та пошук роздільної гіперплощини з максимальним проміжком у цьому просторі. Дві паралельні гіперплощини будуються по обидва боки гіперплощини, що розділяє наші класи. Роздільною гіперплощиною буде та, що максимізує відстань до двох паралельних гіперплощин. Алгоритм працює у припущенні, що чим більша різниця або відстань між цими паралельними гіперплощинами, тим меншою буде середня помилка класифікатора

Висновок. У даній статті представлений огляд важливості інтелектуального аналізу даних в медичних системах. Інтелектуальний аналіз даних являє собою процес аналізу та узагальнення даних з різних точок зору і перетворення його в корисну інформацію. Добре відомі методи інтелектуального аналізу даних включають в себе штучні нейронні мережі, дерева рішень, Байєсівські класифікатори, методи опорних векторів. Використання інтелектуального аналізу даних збільшується в галузі медичної інформатики для поліпшення процесу прийняття рішень, таких як діагностичних і прогностичних проблеми в області онкології, патології печінки, нейропсихології і гінекологія.

 

Література:

1. Луо К. Розширене виявлення знань і інтелектуального аналіз даних / Г. Эберт // Логосфера. — 2010. — № 1 — С. 120 – 142.

2. Чанг Л. Використання інтелектуального аналізу даних методів в процесі моніторингу діабету / Э. Р. Хаутон, Д. Грей //

Медицина. — 2001. — № 1 — С. 93 – 98.

3. Джанг С. Порівняння методів інтелектуального аналізу даних з логістичною регресію в прогнозуванні ожиріння у дітей / Ф. Джагер, Г. Б. Муди, Р. Г. Марк // Компьютеры и биометрические исследования. — 1998. — № 5 — С. 305 – 322.

4. Штучна нейронна мережа: навчальний посібник [Інтернет-ресурс] / Дж. Дж. Ореско // 2010 — № 1 — С. 15 – 38. — Режим доступа: http://d-scholarship.pitt.edu/8128/

5. Хамільтон П. Інтелектуальний аналіз даних, концепції і методи / П. Хамільтон // . — 2002. — № 1 — С. 101 – 104.

References:

1. Luo Q. Advancing knowledge discovery and data mining / Q. Luo // Thieme. — 2004. — № 1 — S. 120 – 142.

2. L. Jiang. Using Data Mining Techniques in Monitoring Diabetes Care / A. R. Houghton, D. Gray // CRC Press. — 2001. — № 1 — S. 93 – 98.

3. S. Zhang. Comparing data mining methods with logistic regression in childhood obesity prediction / F. Jager, G. B. Moody, R.G. Mark // Comput. Biomed. Res. — 1998. — № 5 — S. 305 – 322.

4. Artificial neural network : a tutorial [Internet resource] / J. J. Oresko // 2010 — № 1 — S. 15 – 38. — Link: http://d-scholarship.pitt.edu/8128/

5. Hamilton P. Data Mining, concepts and techniques / P. Hamilton // Computers in Cardiology. — 2002. — № 1 — S. 101 – 104.

Site search

Конференции

Please publish modules in offcanvas position.