О компании |  ПартнерыЦены |  Семинары  | Библиотека  | Контакты
BIGroup Labs

 Поиск по сайту
 
  Главная страница |Решения |Технологии |Услуги |Продукция |Клиенты
  Главная страница   >      Технологии   >      DataMining   >    Data Mining

Knowledge Discovery in Databases
Data Mining
Data Mining-подготовка исходных данных
Ассоциативные правила
Деревья решений
Распознавание образов
Нечеткая Логика
Генетические Алгоритмы
Нейронные Сети

Data Mining -- добыча данных

Доступность методов записи и хранения данных привели к бурному ростуобъемов хранимых данных. Объемы данных настолько внушительны, что человекупросто не по силам проанализировать их. Хотя необходимость проведениятакого анализа вполне очевидна, ведь в этих 'сырых данных' заключенызнания, которые могут быть использованы при принятии решений. Для того,чтобы провести автоматический анализ данных, используется Data Mining.

Data Mining - это процесс обнаружения в 'сырых' данных ранеенеизвестных нетривиальных практически полезных и доступных интерпретациизнаний, необходимых для принятия решений в различных сферах человеческойдеятельности. Data Mining - является одним из шагов Knowledge Discovery inDatabases.

Информация, найденная в процессе применения методов Data Mining, должнабыть нетривиальной и ранее неизвестной, например, средние продажи неявляются таковыми. Знания должны описывать новые связи между свойствами,предсказывать значения одних признаков на основе других и т.д. Найденныезнания должны быть применимы и на новых данных с некоторой степеньюдостоверности. Полезность заключается в том, чтобы эти знания моглипринести определенную выгоду при их применении. Знания должны быть впонятном для пользователя-нематематика виде. Например, проще всеговоспринимаются человеком логические конструкции 'если … то …'. Более того,такие правила могут быть использованы в различных СУБД в качествеSQL-запросов. В случае, когда извлеченные знания непрозрачны дляпользователя, должны существовать методы постобработки, позволяющиепривести их к интерпретируемому виду.

Алгоритмы, используемые в Data Mining, требуют большого количествавычислений. Раньше это являлось сдерживающим фактором широкогопрактического применения Data Mining, однако сегодняшний ростпроизводительности современных процессоров снял остроту этой проблемы.Теперь за приемлемое время можно провести качественный анализ сотен тысячи миллионов записей.

Задачи решаемые методами Data Mining:

  1. Классификация - это отнесение объектов (наблюдений,событий) к одному из заранее известных классов.
  2. Кластеризация - это группировка объектов (наблюдений,событий) на основе данных (свойств), описывающих сущность объектов.Объекты внутри кластера должны быть 'похожими' друг на друга иотличаться от объектов, вошедших в другие кластеры. Чем больше похожиобъекты внутри кластера и чем больше отличий между кластерами, темточнее кластеризация.
  3. Регрессия, в том числе задачи прогнозирования.Установление зависимости непрерывных выходных от входных переменных.
  4. Ассоциация - выявление закономерностей между связаннымисобытиями. Примером такой закономерности служит правило, указывающее,что из события X следует событие Y. Такие правила называютсяассоциативными. Впервые это задача была предложена для нахождениятипичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногдаее еще называют анализом рыночной корзины (market basketanalysis).
  5. Последовательные шаблоны - установление закономерностеймежду связанными во времени событиями. Т.е. обнаружение зависимости, чтоесли произойдет событие X, то спустя заданное время произойдет событиеY.
  6. Анализ отклонений - выявление наиболее нехарактерныхшаблонов.

    Проблемы бизнес анализа формулируются по иному, но решение большинствоиз них сводится к решению той или иной задачи Data Mining или к ихкомбинации. Например, оценка рисков - это решение задачи регрессииили классификации, сегментация рынка - кластеризация, стимулированиеспроса - ассоциативные правила. Фактически, задачи Data Miningявляются элементами, из которых можно собрать решение подавляющегобольшинства реальных бизнес задач.

    Для решения вышеописанных задач используются различные методы иалгоритмы Data Mining. Ввиду того, что Data Mining развивалась иразвивается на стыке таких дисциплин, как статистика, теория информации,машинное обучение, теория баз данных, вполне закономерно, что большинствоалгоритмов и методов Data Mining были разработаны на основе различныхметодов из этих дисциплин. Например, процедура кластеризации k-means былапросто заимствована из статистики. Большую популярность получили следующиеметоды Data Mining: нейронные сети, деревья решений, алгоритмыкластеризации, в том числе и масштабируемые, алгоритмы обнаруженияассоциативных связей между событиями и т.д.

    Deductor являетсяаналитической платформой, в которую включен полный набор инструментов длярешения задач Data Mining: линейная регрессия, нейронные сети с учителем,нейронные сети без учителя, деревья решений, поиск ассоциативных правил имножество других. Для многих механизмов предусмотрены специализированныевизуализаторы, значительно облегчающие использование полученной модели иинтерпретацию результатов. Сильной стороной платформы является не толькореализация современных алгоритмов анализа, но и обеспечение возможностипроизвольным образом комбинировать различные механизмыанализа.


    Библиотека | Партнеры | Семинары | Контакты | Карта сайта
    © 2012, BIGroup Labs.    Лаборатория Интеллектуального Бизнеса - 2004г.