Методы интеллектуального анализа данных. Основы интеллектуального анализа данных: технологии, методы и задачи Математическая статистика методы интеллектуального анализа данных

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Подобные документы

Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

реферат , добавлен 13.02.2014

Рождение искусственного интеллекта. История развития нейронных сетей, эволюционного программирования, нечеткой логики. Генетические алгоритмы, их применение. Искусственный интеллект, нейронные сети, эволюционное программирование и нечеткая логика сейчас.

реферат , добавлен 22.01.2015

Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

контрольная работа , добавлен 02.09.2010

Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.

контрольная работа , добавлен 14.06.2013

Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

курсовая работа , добавлен 10.07.2017

Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.

контрольная работа , добавлен 13.01.2013

Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.

контрольная работа , добавлен 13.06.2014

Развитие информационных технологий привело к появлению интеллектуальных технологий анализа деловых данных, аналитических систем и систем интеллектуальной поддержки принятия решений на их базе. Новые информационные технологии позволили найти нетривиальные подходы к автоматизации управленческого труда и отказаться от старых методов управления.

Технологии интеллектуального анализа данных обеспечивают формирование аналитических данных посредством выполнения операции очищения данных локальных баз организации, применения статистических методов и других сложных алгоритмов. Появлению аналитических систем способствовало осознание руководящим звеном предприятий факта, что в базах данных содержится не только информация, но и знания (скрытые закономерности). Последние позволяют охарактеризовать процесс управления предприятием и дать интеллектуальную информацию для более обоснованного принятия решений.

Можно выделить следующие технологии интеллектуального анализа данных:

· Оперативный анализ данных посредством OLAP-систем;
· Поиск и интеллектуальный выбор данных Data Mining;
· Деловые интеллектуальные технологии BIS;
· Интеллектуальный анализ текстовой информации.

Аналитические системы OLAP (On-Line Analytical Processing) предназначены для анализа больших объемов информации в интерактивном режиме для создания интеллектуального капитала (аналитических данных), позволяющего руководителю принять обоснованное решение. Они обеспечивают:

· Агрегирование и детализацию данных по запросу.
· Выдачу данных в терминах предметной области.
· Анализ деловой информации по множеству параметров (например, поставщик, его местоположение, поставляемый товар, цены, сроки поставки и т. д.).
· Многопроходный анализ информации, который позволяет выявить не всегда очевидные тенденции в исследуемой предметной области.
· Произвольные срезы данных по наименованию, выбираемых из разных внутренних и внешних источников (например, по наименованию товара).
· Выполнение аналитических операций с использованием статистических и других методов.
· Согласование данных во времени для использования в прогнозах, трендах, сравнениях (например, согласование курса рубля).

Концепция технологии OLAP была сформулирована Эдгаром Коддом в 1993 году. Она стала ключевым компонентом организации данных в информационных хранилищах и их применении. Эта технология основана на построении многомерных наборов данных - OLAP-кубов. Целью использования технологий OLAP является анализ данных и представление этого анализа в виде, удобном для восприятия и принятия решений.

Основные требования, предъявляемые к приложениям для многомерного анализа:

· Предоставление пользователю результатов анализа за приемлемое время (не более 5 сек.).
· Осуществление логического и статистического анализа, его сохранение и отображение в доступном для пользователя виде.
· Многопользовательский доступ к данным.
· Многомерное представление данных.
· Возможность обращаться к любой информации независимо от места ее хранения и объема.

Многомерный анализ может быть реализован средствами анализа данных офисных приложений и распределенными OLAP -системами. Наибольший эффект достигается при использовании многомерных кубов.

Рассмотрим на примерах понятие многомерного куба.

< страны>» можно построить одномерный набор агрегатных значений (агрегат - суммарная стоимость заказов):

Посредством запроса «Какова суммарная стоимость заказов, сделанных клиентами < страны> в < году > и доставленных < компанией>» получаем трехмерный куб (рис.4.1).

Рис. 4.1

Если учесть, что в каждой стране может существовать несколько клиентов, то добавляется четвертое измерение.

Вообще под измерением понимается один из ключей данных, в разрезе которого можно получать, фильтровать, группировать и отражать информацию о фактах. Примеры измерений: страна, клиент, товар, поставщик. Факт - это число, значение. Факты можно суммировать вдоль определенного измерения. Их можно группировать, выполнять над ними другие статистические операции. Агрегатное данное - суммарное, среднее, минимальное, максимальное и другое значение, полученное посредством статистических операций.

Измерения могут иметь иерархическую структуру. Например, в стране может быть несколько городов, в городе - несколько клиентов, их могут обслуживать различные поставщики из тех же или других городов и стран. Для отображения иерархии измерений используются различные модели иерархий. Модели иерархий служат основой построения многомерных баз данных и метаданных в информационных хранилищах.

Многомерный анализ данных может быть произведен посредством клиентских приложений и серверных OLAP-систем.

Клиентские приложения, содержащие OLAP-средства, позволяют вычислять агрегатные данные. Агрегатные данные размещаются в кэш внутри адресного пространства такого OLAP-средства. Кэш - быстродействующий буфер большой емкости, работающий по специальному алгоритму. При этом если исходные данные находятся в реляционной базе, вычисления производятся OLAP-средствами клиентского приложения. Если исходные данные размещаются на сервере баз данных, то OLAP-средства приложений посылают SQL-запросы на сервер баз данных и получают агрегатные данные, вычисленные сервером.

Примерами клиентских приложений, содержащими OLAP-средства, являются приложения статистической обработки данных SEWSS (Statistic Enterprise - Wide SPS System) фирмы StatSoft и MS Excel 2000. Excel позволяет создать и сохранить небольшой локальный многомерный OLAP-куб и отобразить его двух или трехмерные сечения.

Многие средства проектирования позволяют создавать простейшие OLAP-средства. Например, Borland Delphi и Borland C++ Builder.

Отметим, что клиентские приложения применяются при малом числе измерений (не более шести) и небольшом разнообразии значений этих измерений.

Серверные OLAP-системы развили идею сохранения кэш с агрегатными данными.

В них сохранение и изменение агрегатных данных, поддержка содержащего их хранилища осуществляется отдельным приложением (процессом), называемым OLAP-сервером . Клиентские приложения делают запросы к OLAP-серверу и получают требуемые агрегатные данные.

Применение OLAP-серверов сокращает трафик сети, время обслуживания запросов, сокращает требования к ресурсам клиентских приложений.

В масштабе предприятия обычно используются OLAP-серверы типа Oracle Express Server, MS SQL Server 2000 Analysis Services и др.

Заметим, что MS Excel 2000 позволяет делать запросы к OLAP-серверам.

Как исходные, так и агрегатные данные могут храниться либо в реляционных, либо в многомерных базах данных MDD (MultiDimensional Data). В настоящее время применяются три способа хранения многомерных баз данных:

· Системы оперативной аналитической обработки многомерных баз данных MOLAP (Multidimensional OLAP) - исходные и агрегатные данные хранятся в многомерной базе данных. Многомерные базы данных представляют собой гиперкубы или поликубы. В гиперкубах все измерения имеют одинаковую размерность. В поликубе каждое измерение имеет свою размерность. Многомерная база данных оказывается избыточной, так как она полностью содержит исходные данные реляционных баз.
· Системы оперативной аналитической обработки реляционных баз данных ROLAP (Relational OLAP) - исходные данные остаются в реляционной базе, агрегатные данные размещаются в кэш той же базы.
· Гибридные системы оперативной аналитической обработки данных HOLAP (Hybrid OLAP) - исходные данные остаются в реляционной базе, а агрегатные данные хранятся в многомерной базе данных (MDD).

Серверных OLAP-системы на базе информационных хранилищ поддерживают эти способы хранения данных.

Аналитическая система обеспечивает выдачу агрегатных данных по запросам клиентов. Сложность аналитических систем вызвана реализацией сложных интеллектуальных запросов. Интеллектуальные запросы осуществляют поиск по условию или алгоритму вычисления ответа. Например, выбрать для выпуска изделия, приносящие максимальную прибыль. Само условие может доопределяться в ходе формирования ответа, что усложняет алгоритм формирования ответа. Данные для формирования ответа могут находиться в разных внутренних и внешних базах. Существующий язык запросов SQL расширяется возможностью построения интеллектуальных запросов. Пример такого запроса - сравнить данные о продажах в конкретные месяцы, но разные годы. Для таких запросов используются непроцедурные языки обращения к многомерным базам данных. Примером такого языка запросов является язык MDX (Multidimensional Expressions). Он позволяет формировать запрос и описывать алгоритм вычислений. Язык SQL используется для извлечения данных из локальных баз. Язык MDX служит для извлечения данных из многомерных баз и информационных хранилищ.

Аналитические данные используются в системах поддержки принятия решений.

Самые современные аналитические системы основываются на информационных хранилищах и обеспечивают весь спектр аналитической обработки. Доступ к информационным хранилищам реализован посредством транзакций. По интеллектуальным запросам OLAP -системы информационное хранилище выдает аналитические данные. По запросам, объединенным в транзакции, других систем информационное хранилище обеспечивает их обработку, выдачу ответов и отчетов, но не обеспечивает функцию анализа данных. Именно поэтому эти системы называются OLTP -системами (On-Line Transaction Processing) в отличии от OLAP -систем.

Примером OLAP-систем является Brio Query Enterprise корпорации Brio Technology. OLAP-средства включают в свои системы фирмы 1С, Парус и др.

Технологии Data Mining (добыча данных) разработаны для поиска и выявления в данных скрытых связей и взаимозависимостей с целью предоставления их руководителю в процессе принятия решений. Для этого используются статистические методы корреляции, оптимизации и другие, позволяющие находить эти зависимости и синтезировать дедуктивную (обобщающую) информацию. Технологии Data Mining обеспечивают:

· Поиск зависимых данных (реализацию интеллектуальных запросов);
· Выявление устойчивых бизнес - групп (выявление групп объектов, близких по заданным критериям);
· Ранжирование важности измерений при классификации объектов для проведения анализа;
· Прогнозирование бизнес - показателей (например, ожидаемые продажи, спрос);
· Оценка влияния принимаемых решений на достижение успеха предприятия;
· Поиск аномалий и т.д.

Интеллектуальные деловые технологии BIS (Business Intelligence Services) преобразуют информацию из внутренних и внешних баз в интеллектуальный капитал (аналитические данные). Главными задачами систем интеллектуального выбора данных является поиск функциональных и логических закономерностей в накопленных данных для подсказки обоснованных управленческих решений. Они основаны на применении технологий информационного хранилища и алгоритмов автоматизации деловых процессов (Workflow). Аналитические данные предоставляются руководству всех уровней и работникам аналитических служб организации по запросам в удобном виде.

Для интеллектуального анализа текстовой информации разработаны структурные аналитические технологии (САТ) . Они ориентированы на углубленную обработку неструктурированной информации. Реализуют уникальную способность человека интерпретировать (толковать) содержание текстовой информации и устанавливать связи между фрагментами текста. САТ реализованы на базе гипертекстовой технологии, лингвистических процессоров, семантических сетей. Структурные аналитические технологии предназначены для решения разнообразных задач аналитического характера на основе структуризации предварительно отобранной текстовой информации. Являются инструментом создания аналитических докладов, отчетов, статей, заметок для использования в информационно - аналитических службах организаций, отраслей, государственного управления, СМИ и т.д.

Целью интеллектуального анализа данных (англ. Datamining, другие варианты перевода - "добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XXвека, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных [ , ]. И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.

Классическим считается определение ,данное одним из основателей направления Григорием Пятецким-Шапиро : DataMining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации.

Учитывая разнообразие форм представления данных, используемых алгоритмов и сфер применения, интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:

специализированных "коробочных" программных продуктов для интеллектуального анализа;
математических пакетов;
электронных таблиц(и различного рода надстроек над ними);
средств интегрированных в системы управления базами данных (СУБД);
других программных продуктов.

В рамках данного курса нас в первую очередь будут интересовать средства, интегрированные с СУБД . В качестве примера можно привести СУБД MicrosoftSQLServer и входящие в ее состав службы AnalysisServices, обеспечивающие пользователей средствами аналитической обработки данных в режиме on-line ( OLAP )и интеллектуального анализа данных, которые впервые появились в MSSQLServer 2000.

Не только Microsoft, но и другие ведущие разработчики СУБД имеют в своем арсенале средства интеллектуального анализа данных.

Задачи интеллектуального анализа данных

В ходе проведения интеллектуального анализа данных проводится исследование множества объектов (или вариантов). В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих. Зависимая переменная - параметр , значение которого рассматриваем как зависящее от других параметров (независимых переменных). Собственно эту зависимость и необходимо определить, используя методы интеллектуального анализа данных.

Рассмотрим основные задачи интеллектуального анализа данных.

Задача классификации заключается в том, что для каждого варианта определяется категория или класс , которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть "кредитоспособен" и "некредитоспособен". Необходимо отметить, что для решения задачи необходимо, чтобы множество классов было известно заранее и было бы конечным и счетным.

Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения числового значения. Иными словами, предсказываемый параметр здесь, как правило, число из непрерывного диапазона.

Отдельно выделяется задача прогнозирования новых значений на основании имеющихся значений числовой последовательности (или нескольких последовательностей, между значениями в которых наблюдается корреляция). При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.

Тут требуется сделать небольшое отступление. По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Иногда в этом же случае говорят об управляемых алгоритмах интеллектуального анализа. Задачи классификации и регрессии относятся как раз к этому типу.

Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. В качестве примера можно привести задачу анализа потребительской корзины, когда в ходе исследования выявляются товары, чаще всего покупаемые вместе. К этому же классу относится задача кластеризации.

Также можно говорить о классификации задач интеллектуального анализа данных по назначению, в соответствии с которой,они делятся на описательные (descriptive) и предсказательные (predictive). Цель решения описательных задач - лучше понять исследуемые данные, выявить имеющиеся в них закономерности, даже если в других наборах данных они встречаться не будут. Для предсказательных задач характерно то, что в ходе их решения на основании набора данных с известными результатами строится модель для предсказания новых значений.

Но вернемся к перечислению задач интеллектуального анализа данных.

Задача кластеризации - заключается в делении множества объектов на группы (кластеры) схожих по параметрам. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Другое название этой задачи - сегментация . Например, интернет-магазин может быть заинтересован в проведении подобного анализа базы своих клиентов, для того, чтобы потом сформировать специальные предложения для выделенных групп, учитывая их особенности.

Кластеризация относится к задачам обучения без учителя (или "неуправляемым" задачам).

Задача определения взаимосвязей , также называемая задачей поиска ассоциативных правил , заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализ потребительской корзины, который позволяет определить наборы товаров, чаще всего встречающиеся в одном заказе (или в одном чеке). Эта информация может потом использоваться при размещении товаров в торговом зале или при формировании специальных предложений для группы связанных товаров.

Данная задача также относится к классу "обучение без учителя".

Анализ последовательностей или сиквенциальный анализ одними авторами рассматривается как вариант предыдущей задачи, другими - выделяется отдельно. Целью, в данном случае, является обнаружение закономерностей в последовательностях событий. Подобная информация позволяет, например, предупредить сбой в работе информационной системы, получив сигнал о наступлении события, часто предшествующего сбою подобного типа. Другой пример применения - анализ последовательности переходов по страницам пользователей web-сайтов.

Анализ отклонений позволяет отыскать среди

Информационные технологии Торговля Финансовая сфера

Использование данных является проблемой при составлении программ и разработке информационных систем. Прежде чем выполнить анализ большого объема данных и принять решение, гарантирующее достоверный и объективный результат, необходимо определить этот большой объем. Задача усложняется, если поток информации стремительно растет, а время на принятие решения ограничено.

Данные и их формализация

Современные информационные технологии гарантируют безопасный и надежный анализ, представление и обработку данных. Синтаксически и формально это верно. С точки зрения семантики задачи и объективности ожидаемого решения - результат зависит от опыта, знаний и умений программиста.

Языки программирования находятся в статусе надежного и безопасного инструмента. Знания и умения специалистов анализировать, представлять и обрабатывать данные пришли к уровню относительной универсальности.

Технологии интеллектуального анализа данных на этом уровне практически безупречны. Тип данных может быть известен к моменту операции над ними, а в случае несоответствия - будет автоматически приведен к нужному типу.

Развиты инструменты гипертекста, повсеместно используется распределенная обработка больших объемов данных. На этом уровне:

информационные задачи поддаются формализации;
потребности к интеллектуальному анализу удовлетворяются;
качество результата зависит от качества знаний и профессионализма программиста.

Ситуация в программировании информационных систем уровня предприятия характеризуется наличием реально работающих продуктов, обеспечивающих формирование больших объемов данных и проблему более высокого порядка.

Большие объемы данных

В 80-е годы, когда базы данных становились системами управления базами данных, повышение надежности аппаратного обеспечения и качество языков программирования оставляли желать лучшего.

В настоящее время накопилось большое количество баз данных, многие источники информации компьютеризированы, разработаны сложные системы сбора различной информации (финансы, погода, статистика, налоги, недвижимость, персональные данные, климат, политика...).

Некоторые источники данных характеризуются очевидными закономерностями и поддаются анализу математическими методами. Можно выполнить интеллектуальный анализ данных в Excel: очистить данные, построить модель, сформировать гипотезу, определить корреляции и т.д.

В некоторых данных и источниках закономерности трудно обнаружить. Во всех случаях программно-аппаратное обеспечение для обработки данных характеризуется надежностью и стабильностью. Задача интеллектуального анализа данных стала во главе угла во многих социально-экономических сферах.

Лидеры информационной отрасли, в частности Oracle, фокусируют свое внимание на спектре обстоятельств, характеризующих данные нового типа:

огромные потоки;
естественная информация (даже если она создана программно);
разнородные данные;
высочайшие критерии ответственности;
широкий спектр форматов представления данных;
совместимость интеграторов данных и их обработчиков.

Главная особенность данных нового типа: огромный объем и скорость нарастания этого объема. Классические алгоритмы не применимы для обработки данных нового типа даже с учетом быстродействия современных компьютеров и применения параллельных технологий.

От бэкапа к миграции и интеграции

Раньше была актуальна задача безопасного хранения информации (бэкап, резервное копирование). Сегодня актуальна проблема миграции множественных представлений данных (разные форматы и кодировки) и их интеграции в единое целое.

Без технологии интеллектуального анализа данных многие задачи не решить. Здесь не идет речь о принятии решений, определении зависимостей, создании алгоритмов данных для последующей обработки. Слияние разнородных данных стало проблемой, и привести источники информации к единому формализованному основанию нет возможности.

Интеллектуальный анализ данных большого объема требует определения этого объема и создания технологии (алгоритма, эвристик, наборов правил) для получения возможности поставить задачу и решить ее.

Data mining: что копать

Понятие анализа данных в контексте интеллектуальных методов начало активно развиваться с начала 90-х годов прошлого века. Искусственный интеллект к этому времени не оправдал надежд, но необходимость в принятии обоснованных решений на основе анализа информации стала стремительно расти.

Машинное обучение, интеллектуальный анализ данных, распознавание образов, визуализация, теория баз данных, алгоритмизация, статистика, математические методы составили спектр задач новой, активно развивающейся область знаний, которую ассоциируют с англоязычным data minig.

На практике новая область знаний приобрела междисциплинарный характер и находится в стадии становления. Благодаря опыту и программной продукции от Oracle, Microsoft, IBM и других лидирующих компаний сложилось отчетливое представление о том, что такое интеллектуальный анализ данных, но вопросов еще очень много. Достаточно сказать, что линейка программных изделий от Oracle, посвященная исключительно большим объемам информации, их интеграции, совместимости, миграции и обработке - это более сорока позиций!

Что нужно, чтобы поставить задачу обработки больших данных правильно и получить обоснованное решение? Ученые и практики сходятся на обобщенном понимании фразы «поиск скрытых закономерностей». Здесь сочетаются три позиции:

неочевидность;
объективность;
практическая полезность.

Первая позиция означает, что обычными методами не определить, что нужно найти и как это сделать. Классическое программирование здесь не применимо. Нужен если не искусственный интеллект, то хотя бы программы для интеллектуального анализа данных. Термин «интеллектуального» представляет собой не меньшую проблему, чем задача определения достаточного объема данных для принятия начальных решений и формулировки исходных правил работы.

Объективность - своего рода гарантия, что выбранная технология, разработанная «интеллектуальная» методика или спектр «интеллектуальных» правил дадут основание считать полученные результаты правильными не только автору, но и любому другому специалисту.

Oracle в своих программных изделиях добавляет к понятию объективность статус безопасного, лишенного постороннего негативного вмешательства.

Практическая полезность - самый важный критерий для результата и алгоритма решения задачи интеллектуального анализа данных в конкретном применении.

Data mining: где копать

Бизнес-интеллект (Business Intelligence - BI) - основа современного, самого дорогого и востребованного программного обеспечения. Поставщики бизнес-решений считают, что нашли способ решения задач по обработке больших объемов данных, и их программные изделия могут обеспечить безопасное и стремительное развитие бизнеса компании любого размера.

Как в случае искусственного интеллекта в области средства интеллектуального анализа данных, не следует слишком сильно преувеличивать текущие достижения. Все только становится на ноги, но и отрицать реальные результаты тоже нельзя.

Вопрос сферы применения. Разработаны алгоритмы интеллектуального анализа данных в экономике, на производстве, в области информации о климате, о курсах на валютной бирже. Существуют интеллектуальные продукты по защите предприятия от негативного влияния уволенных сотрудников (область психологии и социологии - сильная тема), от вирусных атак.

Многие разработки реально выполняют функции, декларируемые их изготовителями. Фактически задача - что делать и где это делать - приобрела осмысленный и объективный контекст:

минимально возможная область применения;
максимально точная и четкая цель;
источники данных и данные, приведенные к одному основанию.

Только область применения и ожидаемая практическая полезность могут помочь сформулировать технологии, методики, правила и основы интеллектуального анализа данных в конкретной сфере, ради конкретной цели.

Информационные технологии сделали заявку на научную дисциплину, и не следует гнушаться небольшими шагами в новом, неизведанном направлении. Позарившись на святая святых - естественный интеллект, человек не может требовать от себя того, что сделать не в состоянии.

Решить, что делать и где это делать, на сегодняшний день крайне трудно. На конкретном бизнесе, в конкретной области человеческой деятельности можно очертить объем информации, подлежащей исследованию, и получить решение, которое будет характеризоваться какой-то долей достоверности и показателем объективности.

Data mining: как копать

Профессиональное программирование и собственный высококвалифицированный персонал - единственный инструмент для достижения желаемого.

Пример 1. Задача интеллектуального анализа данных не будет решена чистым применением Oracle Controller. Этот продукт заявлен как полнофункциональный и расширяемый инструмент тестирования нагрузки. Это крайне узкая задача. Только нагрузка! Ничего более, никаких высокоинтеллектуальных задач.

Однако задачи, на которых применяется данный продукт, могут поставить в тупик не только тестировщика, но и разработчика, при всех его регалиях лидера отрасли. В частности, тестирование - это требование функциональной полноты. Где гарантия, что Oracle Controller «в курсе», какие наборы данных могут поступать на вход тестируемого приложения, сервера, программно-аппаратного комплекса.

Пример 2. Oracle Business Intelligence Suite Foundation Edition for Oracle Applications - разработчик декларирует этот продукт как удачное сочетание используемого ПО с экспертными знаниями построения, развития и обеспечения крупного бизнеса.

Бесспорно, опыт Oracle велик, но этого не достаточно для его трансформации через программно-экспертное изделие. На конкретном предприятии, в конкретном регионе Business Intelligence от Oracle может не сработать от решения налоговой службы или постановления местного муниципалитета.

Разумное применение современных технологий

Единственное правильное решение в области больших объемов информации, data mining и системы интеллектуального анализа данных в компании, государственном учреждении и в любой социально-экономической сфере - коллектив специалистов.

Знания и опыт квалифицированных специалистов - это единственно правильное решение, которое даст комплексный ответ на вопрос:

data mining: что копать, где это делать и как?

Приобрести приоритетные продукты соответствующего назначения лишним не будет, но прежде чем это делать, потребуется изучить область применения, сформулировать ориентировочное решение и поставить предварительную цель.

Только после того, как предметная область определена и цель примерно ясна, можно заняться поиском уже разработанных и проверенных практикой решений. Скорее всего, будет найден продукт, который позволит уточнить предметную область и цель.

Никакая программа сегодня не справится с реальной задачей. Проиграв в области искусственного интеллекта в начале 80-х годов прошлого века, человек-разумный еще не может рассчитывать, что способен написать программу, решающую интеллектуальные задачи.

Не следует надеяться, что ИИ придет сам, а купленная у Oracle, Microsoft или IBM программа скажет, что нужно было делать, как и какой результат считать правильным. В современном мире информационных технологий идет бурный прогресс. В нем можно принять эффективное участие, усилить позиции своего бизнеса или решить задачу, которую трудно было поставить. Но нужно принимать участие, а не рассчитывать на программу.

Программирование - это статический труд, его результат - жесткий алгоритм. Современное интеллектуальное правило или эвристика - это жестко поставленное решение, которое не сработает при первой попавшейся оказии.

Моделирование и тестирование

Интеллектуальный анализ больших данных - действительно востребованная и актуальная задача. Но область применения до обнаружения этой задачи худо-бедно, но жила и развивалась.

Необходимость в дальнейшем развитии бизнеса ставит новые задачи, которые позволяют концептуально очертить объемы подлежащих обработке больших данных. Это естественный процесс научно-технического и интеллектуального развития предприятия, компании, бизнеса. Это же можно отнести к интернет-технологиям, к задачам парсинга информации на просторах интернета.

Существует множество новых задач и приложений, которые востребованы, могут быть более-менее четко поставлены и характеризуются объективным параметром: в их решении есть востребованный интерес и есть понимание вероятной полезности.

Моделирование - достаточно разработанная область, которая оснащена множеством проверенных математических методов. Модель можно построить всегда, было бы время и желание.

Моделирование позволяет сфокусировать все имеющиеся знания в одну систему и совершенствовать ее на наборе тестовых данных циклически. Это классический путь развития, который также прошел проверку практикой.

Если не строить воздушных замков, а со стабильной уверенностью идти к поставленной цели, то можно определить и путь, и желаемое решение, и конечную цель.

Именно программирование в начале 80-х годов прошлого века подтолкнуло общественное сознание к рождению идей искусственного интеллекта, именно оно стало родоначальником data mining, и именно с него начались методы интеллектуального анализа данных.

В те далекие времена проблемы больших объемов данных не существовало. Сегодня есть не только большие объемы данных, но и результат развития систем управления базами данных - значительный опыт в реляционных отношениях, как основе основ для представления данных.

Реляционные отношения - это часть, но не целое. Есть еще понятие системности, иерархии и много того, чем владеет интеллект естественный, но не может реализовать интеллекте искусственный: в данном случае - в программировании.

Программирование не есть интеллект ни в каком смысле, но это реальный результат применения интеллекта на практике. В этом его смысл, и именно это можно использовать в достижении желаемых целей.

Активные знания и умения

Любая программа - это статика. Она представляет собой конструирование в рамках синтаксиса языка программирования.

Современные языки программирования - совершенный результат 80-х годов, и это отрицать никак нельзя. Нельзя также не заметить, что современные языки программирования дают возможность создавать свободные алгоритмы за пределами своего синтаксиса.

Если кто-либо когда-либо сможет написать программу, которая будет работать не по воле ее автора, а по воле приобретенных ею знаний и умений, проблема больших объемов данных и принятия интеллектуальных решений будет закрыта, и начнется новый виток развития знаний.

Информационная составляющая играет важнейшую роль в эффективном управлении бизнесом, поэтому способность предприятий обеспечивать своих сотрудников всем необходимым для принятия взвешенных решений имеет огромное значение. С середины 90-х годов прошлого века стремительно растет интерес компаний к программным продуктам, которые позволяют аналитикам работать с большими объемами данных, накопленными в ERP, CRM системах и хранилищах данных, и извлекать из них полезную информацию. Следствием этого стало рождение новых информационных технологий и инструментов, обеспечивающих безопасный доступ к источникам корпоративных данных и обладающих развитыми возможностями консолидации, анализа, представления данных и распространения готовых аналитических документов внутри организации и за ее пределами: витрин данных, обработки произвольных запросов (Ad-hoc query), выпуска отчетов (Reporting), инструментов OLAP (On-Line Analytical Processing), интеллектуального анализа данных (Data Mining), поиска знаний в БД (KDD – Knowledge Discovery in Databases) и т.д.

Под «анализом данных» понимают действия, направленные на извлечение из них информации об исследуемом объекте и на получение по имеющимся данным новых данных.

Интеллектуальный анализ данных (ИАД) – общий термин для обозначения анализа данных с активным использованием математических методов и алгоритмов (методы оптимизации, генетические алгоритмы, распознавание образов, статистические методы, Data Mining и т.д.), использующих результаты применения методов визуального представления данных.

В общем случае процесс ИАД состоит из трех стадий:

1) выявление закономерностей (свободный поиск);

2) использование выявленных закономерностей для предсказания неизвестных значений (прогнозирование);

3) анализ исключений для выявления и толкования аномалий в найденных закономерностях.

Иногда выделяют промежуточную стадию проверки достоверности найденных закономерностей (стадия валидации) между их нахождением и использованием.

Все методы ИАД по принципу работы с исходными данными подразделяются на две группы:

Методы рассуждений на основе анализа прецедентов – исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогнозирования и/или анализа исключений. Недостатком этой группы методов является сложность их использования на больших объемах данных.

Методы выявления и использования формализованных закономерностей, требующие извлечения информации из первичных данных и преобразования ее в некоторые формальные конструкции, вид которых зависит от конкретного метода.

В таблице 6.1 приведены примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе.

Таблица 6.1 – Примеры применение методов ИАД в финансах и маркетинге

Приложение (организация)	Описание
FALCON (HNC Software, Inc.)	Инструментальное средство для оперативного выявления злоупотреблений с кредитными карточками; более 100 организаций-пользователей отмечают сокращение числа нарушений на 20-30%.
Классификатор дебиторских счетов (Internal Revenue Service)	Выявление счетов потенциально платежеспособных дебиторов на основе анализа больших объемов архивных данных по уплате налогов.
Повышение качества архивной финансовой информации (Lockheed)	Выявление закономерностей (в виде правил вывода) в архивных финансовых данных для использования в моделях прогнозирования, системах поддержки принятия решений по инвестированию и т.д.
Верификация данных по курсам валют (Reuters)	Система выявления ошибок в оперативно поступающих данных по курсам валют. С помощью нейронных сетей и индуктивного вывода правил строятся приблизительные прогнозы, которые сравниваются с поступающими данными. Большие отклонения рассматриваются как возможные ошибки.
Прогнозирование невыплат в сделках с недвижимостью (Leeds)	Анализ архивных данных по сделкам с недвижимостью и выявление паттернов, соответствующих проблемным сделкам, заканчивающимся невыплатами. Выявленные закономерности используются для оценки риска при заключении новых сделок.
Маркетинговые исследования (Dickinson Direct)	Определение характеристик типичных покупателей продукции компании для выявления новых потенциальных клиентов (профилирование клиентов).
Маркетинговые исследования (Reader"s Digest Canada)	Выявление основных сегментов рынка и наиболее благоприятных подмножеств, а также исследование зависимостей между основными показателями и характеристиками сегментов.
Установка лотерейных автоматов (Automated Wagering, Inc.)	Объединение методов ИАД с географическим анализом для определения наилучших мест для установки лотерейных автоматов в штате Флорида.
Выявление потенциальных покупателей автомобильных стерео систем (Washington Auto Audio, Inc.)	Анализ демографической базы данных, содержащей информацию о 14000 реальных и потенциальных клиентов, позволил за 90 секунд получить 3 довольно надежных индикатора для прогноза спроса на продукцию и услуги компании. Аналогичные результаты были получены в результате традиционного исследования, выполненного одной из консалтинговых компаний, причем это исследование обошлось фирме на порядок дороже, чем автоматизированная система интеллектуального анализа данных.

Data Mining (DM)– это технология обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Алгоритмы, используемые в Data Mining, требуют большого количества вычислений, что ранее являлось сдерживающим фактором широкого практического применения этих методов, однако рост производительности современных процессоров снял остроту этой проблемы.

Задачи, решаемые методами DM:

1. Классификация – отнесение объектов (наблюдений, событий) к одному из заранее известных классов.

2. Прогнозирование .

3. Кластеризация – группировка объектов на основе данных, описывающих сущность этих объектов. Объекты внутри кластера должны обладать общими чертами и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.

4. Ассоциация – выявление закономерностей между связанными событиями.

5. Последовательные шаблоны – установление закономерностей между связанными во времени событиями.

6. Анализ отклонений – выявление наиболее нехарактерных шаблонов.

Решение большинства задач бизнес-анализа сводится к той или иной задаче Data Mining. Например, оценка рисков – решение задачи классификации, сегментация рынка – кластеризации, стимулирование спроса – ассоциации.

Технология Data Mining развивалась и развивается на стыке статистики, теории информации, машинного обучения, теории баз данных. Наибольшее распространение получили следующие методы Data Mining: нейронные сети, деревья решений, алгоритмы кластеризации, алгоритмы обнаружения ассоциативных связей между событиями и т.д.

Деревья решений представляют собой иерархическую древовидную структуру классифицирующих правил типа «если-то». Для отнесения некоторого объекта или ситуации к какому-либо классу следует ответить на вопросы, имеющие форму «значение параметра А больше Х», и расположенные в узлах дерева. При положительном ответе осуществляется переход к правому узлу следующего уровня дерева, отрицательном – к левому узлу

Если построенное дерево состоит из неоправданно большого числа ветвей, то оно не будет обеспечивать получение статистически обоснованного ответа. Кроме того, деревья решений выдают полезные результаты только в случае независимости признаков.

В настоящее время деревья решений применяются при решении следующих задач:

описание данных, т.к. они позволяют хранить информацию о данных в компактной форме;

классификация, т.е. отнесение объектов к одному из заранее известных классов;

регрессия, т.е. определение зависимости целевой переменной, принимающей непрерывные значения, от независимых (входных) переменных.

Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных «если-то» правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных скрытых знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются.

Главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, WizWhy), либо строят деревья решений (алгоритмы CART, CHAID, ID3, See5, Sipina и др.), имеющие принципиальные ограничения эффективности поиска правил «если-то».

Программное обеспечение для реализации технологий Data Mining: Poly Analyst, Scenario, 4 Thought, MineSet.

Knowledge Discovery in Databases (KDD) следующих этапов:

Подготовка исходного набора данных – создание набора данных из различных источников, для чего должен обеспечиваться доступ к источникам данных, в том числе, к хранилищам данных.

Предобработка данных – удаление пропусков, искажений, аномальных значений и т.д., дополнение данных некоторой априорной информацией. Данные должны быть качественны и корректны с точки зрения используемого метода DM.

Трансформация, нормализация данных – приведение информации к пригодному для последующего анализа виду.

Data Mining – применение различных алгоритмов нахождения знаний.

Постобработка данных – интерпретация результатов и применение полученных знаний в бизнес-приложениях.

Knowledge Discovery in Databases определяет последовательность действий, необходимую для получения знаний, а не набор методов обработки или алгоритмов анализа.

Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки.

Статические информационно-аналитические системы, создаваемые для непосредственного использования лицами, принимающими решения, называются в литературе информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они содержат в себе предопределенные множества запросов, достаточны повседневного обзора. Однако, они неспособны обеспечить ответы на все вопросы, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов.

Динамические системы поддержки принятия решений (СППР) ориентированы на обработку нерегламентированных (ad hoc) запросов аналитиков к данным. Работа аналитиков с этими системами заключается в интерактивном формировании запросов и изучения их результатов.

Поддержка принятия управленческих решений на основе накопленных данных может выполняться в следующих областях:

Детализированные данные – поиск данных;

Агрегированные показатели – формирование комплексного взгляда на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ;

Закономерности – интеллектуальная обработка методами интеллектуального анализа данных, главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие процессов.

Эволюцию BI-систем можно условно разделить на 3 этапа: системы сбора информации и подготовки регламентированной отчетности (до 90-х годов прошлого столетия), инструменты многомерного анализа на базе технологии оперативной аналитической обработки (OLAP) и создания нерегламентированной отчетности (до 2005 г.), BI-системы с акцентом на развитие прикладных способов аналитики и поиск скрытой информации.

Архитектура BI-системы представлена на рис. 6.12. BI-инструменты включают корпоративные BI-наборы (Enterprise BI Suites, EBIS), предназначенные для генерации запросов и отчетов, и BI-платформы, представляющие собой набор инструментов для создания, внедрения, поддержки и сопровождения BI-приложений. BI-приложения содержат встроенные BI-инструменты (OLAP, генераторы запросов и отчетов, средства моделирования, статистического анализа, визуализации и Data Mining).

Рисунок– Архитектура Business Intelligence

По оценкам агентства IDC рынок Business Intelligenceсостоит из 5 секторов:

1. OLAP-продукты;

2. Инструменты добычи данных;

3. Средства построения Хранилищ и Витрин данных (Data Warehousing);

4. Управленческие информационные системы и приложения;

5. Инструменты конечного пользователя для выполнения запросов и построения отчетов.

Классификация BI-систем базируется на методе функциональных задач, где программные продукты каждого класса выполняют определенный набор функций или операций с использованием специальных технологий (приложение А). Как правило, функции BI включают поддержку принятия решений, запросы и отчетность, аналитическую обработку online, статистический анализ, прогнозирование и количественный анализ.

В настоящее время среди лидеров корпоративных BI-платформ можно выделить MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute и другие (в приложении Б приведен сравнительный анализ некоторых функциональных возможностей BI-систем).

В настоящее время намечается интеграция BI-поставщиков и лидеров ERP (Oracle-Hyperion, SAP-Business Objects-Cryslal), что говорит о растущем потенциале и адекватности BI-систем. Использование BI-систем позволит значительно снизить стоимость сопровождения и настройки на интеграцию с приложениями, подбор сценариев и обучение пользователей. BI-возможности и преимущества SAP обеспечивают использование качественных и количественных данных при выборе варианта решения, комбинацию внешних данных и совместных сценариев, что представляет собой новое поколение средств управления предприятием и бизнес-средой; бизнес-аналитика дает возможность оптимизировать оперативную производительность, прогнозирование и бизнес-планирование.

Желание заказчиков отслеживать и финансовые, и операционные показатели требует, чтобы BI-системы могли одновременно обращаться к базам данных автоматизированных систем, отдельных бэк-офисных модулей, CRM-приложений и т.д. Обработка гетерогенных источников данных не возможна без применения сложных технологий интеграции на основе сервисно-ориентированной архитектуры.

Сектор BI-систем на белорусском рынке представлен слабо. В частности, EPAM представляет Hyperion® System™ 9, которая объединяет платформу Business Intelligence с финансовыми приложениями в одну модульную систему, которая легко адаптируется под конкретные требования бизнеса. Комплекс Hyperion® System1 M 9 внедряется на БМЗ и в концерне «Белнефтехим».

Фирма ТопСофт представляет модуль Галактика Business Intelligence – комплекс приложений для поддержки принятия решений в сбытовой деятельности. На данный момент Галактика ВI-Сбыт внедрена в РБ в компаниях «British-American Tobacco» и «МАВ» (производство красок).

Однако потребности белорусского рынка в BI-системах растут, основными потенциальными потребителями BI-систем являются телекоммуникационные компании, которые испытывают потребность в глубоком анализе базы клиентов, для них предлагаются пакеты Oracle Marketing analyst из Oracle BI Suite; банки, нуждающиеся в средствах аналитики услуг по кредитованию предприятий и частных лиц, могут использовать BI-системы собственной разработки или готовые специализированные приложения; промышленные предприятия и сфера торговли – аналитические программные продукты необходимы для построения управленческой отчетности на системах хранения и консолидации данных, например Cognos BI, Business Object; государственные управленческие структуры, крупные компании и холдинги, требующие полнофункциональных решений ВI, для них подходят Cognos, Oracle, Business Objects, Microsoft, интегрированные с системами планирования и бюджетирования; отрасли энергетики, нефтехимии – требуются BI-системы для повышения эффективности системы управления, такие решения реализованы в системах сбалансированных показателей (BSC) и поддерживаются базовыми модулями SAP ERP.

Потребность в системах искусственного интеллекта возникает по мере достижения предприятием достаточно высокой культуры управления.

Экспертные системы

Однозначного определения понятие экспертной системы не имеет.

Экспертная система (ЭС, Expert system) – система искусственного интеллекта, включающая знания об определенной слабо структурированной и трудно формализуемой узкой предметной области и способная предлагать и объяснять пользователю разумные решения.

Согласно толковому словарю по информатике, под экспертной системой понимают систему искусственного интеллекта, которая включает в себя базу знаний с набором правил и механизмом вывода, позволяющую на основании этих правил и предоставляемых пользователем фактов распознавать ситуацию, ставить диагноз, формулировать решение или давать рекомендации для выбора действия.

Иногда вместо определения понятия дают перечень свойств экспертных систем: экспертная система ограничена определенной сферой экспертизы; способна рассуждать при сомнительных данных; способна объяснять цепочку рассуждений понятным способом; факты и механизм вывода четко отделены друг от друга; она строится так, чтобы имелась возможность постепенного развития и наращивания системы; чаще всего она основана на использовании правил; на выходе выдает четкий совет; экономически выгодна.

Технология ЭС существенно расширяет круг практически значимых задач, решение которых с использованием современных средств вычислительной техники, приносит значительный экономический эффект. ЭС предназначены для решения неформализованных задач, к которым относят задачи, обладающие одной или несколькими из следующих характеристик:

Не могут быть заданы в числовой форме;

Цели не могут быть выражены в терминах точно определенной целевой функции;

Не существует алгоритмического решения задач;

Алгоритмическое решение существует, но его нельзя использовать из-за ограниченности ресурсов (время, память).

Неформализованные задачи характеризуются: ошибочностью, неоднозначностью, неполнотой и противоречивостью исходных данных, знаний о проблемной области и решаемой задаче; большой размерностью пространства решения, т.е. перебор при поиске решения весьма велик; динамически изменяющимися данными и знаниями.

Классификация ЭК приведена в табл. 6.5.

Таблица 6.5 – Классификация экспертных систем

Признак классификация	Виды ЭС
назначение Ø	-общего назначения. -специализированные (проблемно-ориентированные для задач диагностики, проектирования, прогнозирования, предметно-ориентированные для специфических задач, например, контроля ситуаций на атомных электростанциях)
степень зависимости от внешней среды	-статические (не зависящие от внешней среды), -динамические (учитывающие динамику внешней среды и предназначенные для решения задач в реальном времени)
тип использования	-изолированные, -ЭС на входе/выходе других систем, -гибридные (интегрированные с базами данных и другими программными продуктами)
стадии создания	-исследовательские образцы (разработанные за 1-2 месяца с минимальной БЗ), -демонстрационные (разработанные за 2-4 месяца на языке типа LISP, PROLOG, CLIPS и др.), -промышленные (разработанные за 4-8 месяцев на языке типа CLIPS с полной БЗ), -коммерческие (разработанные за 1,5-2 года на языке типа С++, Java с полной БЗ)

Полностью оформленная статическая экспертная система имеет шесть существенных компонент: машину логического вывода (решатель, интерпретатор); базу данных (рабочую память); базу знаний; компоненты приобретения знаний; объяснительный компонент; диалоговый компонент. Все шесть компонент являются важными, и, хотя система, основанная на знаниях, может обойтись без одной-двух из них, в общем, она может быть представлена в следующем виде.

База знаний - содержит факты (или утверждения) и правила. Факты представляют собой краткосрочную информацию в том отношении, что они могут изменяться, например, в ходе консультации. Правила представляют более долговременную информацию о том, как порождать новые факты или гипотезы из того, что сейчас известно. В настоящее время часто понятие базы знаний пытаются заменить базой данных. Основное различие последнего состоит в том, что база знаний обладает большими творческими возможностями, а база данных обычно пассивна: данные либо там есть, либо их нет. База знаний, с другой стороны, активно пополняется новой и недостающей информацией.

Подсистема логического вывода (логическая машина вывода) , используя исходные данные из рабочей памяти (БД) и базы знаний (БЗ), формирует такую последовательность правил, которая приводит к решению задачи. Различают прямую и обратную цепочки рассуждений. Прямая цепочка – это цепочка, которая ведет от данных к гипотезам, при этом в процессе диалога до получения ответа может быть задано неограниченное количество вопросов. Обратная цепочка рассужденийявляется попыткой найти данные для доказательства или опровержения некоторой гипотезы. На практике в чистом виде не встречаются ни одна из рассмотренных цепочек рассуждений. Объясняется не однозначностью данных, используемых при рассуждениях.

Редактор знаний (компонент приобретения знаний автоматизирует процесс наполнения ЭС знаниями, источником которых является эксперт либо группа экспертов.

Объяснительный компонент разъясняет пользователю, как система получила решение задачи (или почему она не получила решение) и какие знания при этом использовала, что повышает доверие пользователя к полученному результату.

Интерфейс пользователя (диалоговый компонент ) ориентирован на организацию дружественного общения с пользователем как в ходе решения задач, так и в процессе приобретения знаний и объяснения результатов работы.

База данных (БД) предназначена для хранения исходных и промежуточных данных решаемой в текущий момент задачи.

Статические ЭС используются в приложениях, где можно не учитывать изменения, происходящие за время решения задачи.

В случаях, когда необходимо учитывать динамику, т.е. изменения, происходящие в окружающем мире, в архитектуру ЭС вводится два компонента: подсистема моделирования внешнего мира и подсистема связи с внешним окружением, которая осуществляет связи с внешним миром через систему датчиков и контроллеров, либо используя СУБД. Кроме того, существенным изменениям подвергаются и остальные подсистемы.

Архитектура динамической ЭС приведена на рис. 6.13.

Экспертная система может работать в двух режимах: приобретения знаний и решения задачи (режим консультации или режим использования). В режиме приобретения знаний общение с ЭС осуществляет эксперт, который, используя компонент приобретения знаний, наполняет систему информацией, позволяющей ЭС в режиме консультации самостоятельно (без эксперта) решать задачи из проблемной области. Эксперт описывает проблемную область в виде совокупности правил и данных. Данные определяют объекты, их характеристики и значения, существующие в области экспертизы, правила – способы манипулирования данными, характерные для рассматриваемой области.

Рисунок 6.13 – Архитектура динамической экспертной системы

В режиме консультации общение с ЭС осуществляет конечный пользователь, которого интересует результат и (или) способ его получения. В качестве конечного пользователя, может и эксперт, и программист, и лицо, принимающее решение – ЛПР.

В режиме консультации данные о задаче пользователя после обработки их диалоговым компонентом поступают в рабочую память. Машина логического вывода на основе входных данных, общих данных о проблемной области и правил из БЗ формирует решение задачи.

Экспертная система отличается от прочих прикладных программ наличием следующих признаков:

Моделирует не столько физическую (или иную) природу определенной проблемной области, сколько механизм мышления человека применительно к решению задач в этой проблемной области, основное внимание уделяя воспроизведению компьютерными средствами методики решения проблем, которая применяется экспертом;

Помимо выполнения вычислительных операций, формирует определенные соображения и выводы, основываясь на тех знаниях, которыми она располагает. Знания в системе представлены, как правило, на некотором специальном языке и хранятся отдельно от собственно программного кода, который и формирует выводы и соображения;

При решении задач основными являются эвристические и приближенные методы, которые, в отличие от алгоритмических, не всегда гарантируют успех, т.к. не требуют исчерпывающей исходной информации и обеспечивают определенную степень уверенности (или неуверенности), что предлагаемое решение является верным.

Экспертные системы отличаются и от других видов программ из области искусственного интеллекта:

Имеют дело с предметами реального мира, операции с которыми обычно требуют наличия значительного опыта, накопленного человеком. Множество программ из области искусственного интеллекта являются сугубо исследовательскими, и основное внимание в них уделяется абстрактным математическим проблемам или упрощенным вариантам реальных проблем, целью выполнения такой программы – «повышение уровня интуиции» или отработка методики. Экспертные системы имеют ярко выраженную практическую направленность в научной или коммерческой области;

Должна за приемлемое время найти решение, которое было бы не хуже, чем то, которое может предложить специалист в этой предметной области;

Должна обладать способностью объяснить, почему предложено именно такое решение, и доказать его обоснованность.

В разработке ЭС принимают участие:

Эксперт в проблемной области, задачи которой будет решать ЭС;

Инженер по знаниям - специалист по разработке ЭС (используемые им технологии, методы называют технологией (методами) инженерии знаний);

Программист по разработке инструментальных средств, предназначенных для ускорения разработки ЭС.

В основе разработки ЭС лежит процесс передачи потенциального опыта решения проблемы от некоторого источника знаний и преобразование его в вид, который позволяет использовать эти знания в программе. Передача знаний выполняется в процессе достаточно длительных и пространных собеседований между специалистом по проектированию экспертной системы (инженером по знаниям) и экспертом в определенной предметной области, способным достаточно четко сформулировать имеющийся у него опыт.

Исследователи рассматривают функцию приобретения знаний в качестве одного из главных «узких мест» технологии экспертных систем. Это объясняется следующими причинами:

Во многих проблемных областях специалисты пользуются собственным жаргоном, который трудно перевести на обычный «человеческий» язык, потому требуется много дополнительных вопросов для уточнения его логического или математического значения;

Факты и принципы, лежащие в основе многих специфических областей знания эксперта, не могут быть четко сформулированы в терминах математической теории или детерминированной модели, свойства которой хорошо понятны;

Для решения проблемы в определенной области эксперту недостаточно обладать суммой знаний о фактах и принципах в этой области: насколько надежны различные источники информации и как можно расчленить сложную проблему на более простые, которые можно решать более или менее независимо и т.д.

Экспертный анализ включает многие вещи, кажущиеся эксперту само собой разумеющимися, но для постороннего отнюдь таковыми не являющиеся.

Основными методологическими принципами построения ЭС (как любых СОЗ):

- информационный – объектом является все то, что является источником информации;

- системности – объект, представляющий собой совокупность взаимосвязанных объектов, называется системой. Всякий объект может являться элементом одновременно многих систем;

- отражения – любой объект обладает различными свойствами, проявляющимися в рамках соответствующих систем, элементом которых является объект;

- структурности – структура системы отражает структуру предметной области; знания организуются в БЗ, имеющую определенную структуру, механизм доступа и алгоритмы использования.

В настоящее время сложилась определенная технология разработки ЭС, которая включает следующие этапы: идентификация, концептуализация, формализация, выполнение, тестирование и опытная эксплуатация (рис.6.13).

Рисунок 6.13 – Этапы разработки ЭС

На этапе идентификации осмысливаются задачи, которые предстоит решить будущей ЭС, и формируются требования к ней, определяется, что надо сделать и какие ресурсы необходимо задействовать.

Идентификациязадачи заключается в составлении неформального описания общих характеристик задачи; подзадач, выделяемых внутри задачи; ключевые объекты, их входные (выходные) данные; предположительный вид решения, знания, относящиеся к решаемой задаче. Начальное неформальное описание задачи экспертом используется инженером по знаниям для уточнения терминов и ключевых понятий. Эксперт корректирует описание задачи, объясняет, как решать ее и какие рассуждения лежат в основе того или иного решения.

При проектировании ЭС типичными ресурсами являются источники знаний, время разработки, вычислительные средства и объем финансирования. Для эксперта источниками знаний служат его предшествующий опыт по решению задачи, книги, известные примеры решения задач, а для инженера по знаниям - опыт в решении аналогичных задач, методы представления знаний и манипулирования ими, программные инструментальные средства.

На этапе концептуализации проводится содержательный анализ проблемной области, выявляются используемые понятия и их взаимосвязи, определяются методы решения задач, определяются особенности задачи: типы доступных данных; исходные и выводимые данные; подзадачи общей задачи; применяемые стратегии и гипотезы; виды взаимосвязей между объектами ПО, типы используемых отношений (иерархия, причина-следствие, часть-целое и т.п.); процессы, применяемые в ходе решения; состав знаний, используемых при решении задачи; типы ограничений, накладываемых на процессы, которые применены в ходе решения; состав знаний, используемых для обоснования решений. На этом этапе строится концептуальная модель предметной области. Для ее построения можно использовать:

Признаковый (атрибутивный) подход, который предполагает наличие полученной от экспертов информации в виде троек объект-атрибут-значение атрибута и наличие обучающей информации. Этот подход развивается в рамках направления, получившего название «машинное обучение»;

Структурный (когнитивный), реализуемый путем выделения элементов предметной области, их взаимосвязей и семантических отношений.

На этапе формализации все ключевые понятия и отношения выражаются на некотором формальном языке, который либо выбирается из числа уже существующих, либо создается заново, определяется состав средств и способы представления декларативных и процедурных знаний, формируется описание решения задачи ЭС на предложенном (инженером по знаниям) формальном языке.

Результатом этапа формализации является указание способов представления знаний (фреймы, сценарии, семантические сети и т.д.) и определение способов манипулирования этими знаниями (логический вывод, аналитическая модель, статистическая модель и др.) и интерпретации знаний.

На этапе выполнения создаются один или несколько прототипов ЭС, решающих требуемые задачи, по результатам тестирования и опытной эксплуатации создается конечный продукт, пригодный для промышленного использования.

В ходе этапа тестирования производится оценка выбранного способа представления знаний в ЭС в целом.

На этапе опытной эксплуатации проверяется пригодность ЭС для конечного пользователя.