Корлюк О. С. КЛАСИФІКАТОР ВЕБ-СТОРІНОК З АДАПТАЦІЄЮ ПАРАМЕТРІВ

Print

Корлюк Олександр Сергійович

м. н. с. Інституту кібернетики ім. В. М. Глушкова НАН України

КЛАСИФІКАТОР ВЕБ-СТОРІНОК З АДАПТАЦІЄЮ ПАРАМЕТРІВ

 

При роботі з великими об’ємами текстової інформації природною мовоюв автоматичному режимі, наприклад веб-сторінками, актуальні різні задачі обробки текстової інформації.Однією з розповсюджених задач є задача класифікації документів (веб-сторінок). Суть її полягає в тому, щоб визначити приналежністьелектронного документу до однієї або декількохкатегорій, базуючись на його змісті.

Веб-сайти,як повнотекстові документи, являють собою складний набір даних,в яких крім змістовного тексту наявна значна кількість службової інформації, яка можезначно знизити якість роботи класифікатора. Таким чином, попередня обробка інформації, а саме видалення службових тегів розмітки (мета-тегів), типових даних, таких як навігаційні блоки, має критичне значення при класифікації веб-сторінок. Виділення змістовної частини веб-документу досить складно формалізувати. Також перед обробкою документів необхідно застосувати алгоритми видалення часто вживаних слів та алгоритм приведення слів до початкової словоформи[1].

Розглянемо модель класифікатора повнотекстових документів на природній мові на прикладі вибірки веб-сторінок. Розроблена методика передбачає самоналаштування алгоритму в процесі його виконання засобами адаптації параметрів функцій Ляпунова[2].

 

Повний варіант тексту за посиланням Tezi-Korlyuk.doc

Tags: