Выявление закономерностей и анализ статистики посещений веб-узлов
Интегрированное выявление закономерностей является новым средством сервера SQL Server2000, которое в составе служб анализа данных включено в выпуски Enterprise Edition, Standard Edition, Personal Edition, Developer Edition и Enterprise Evaluation Edition. Технология выявления закономерностей помогает пользователям анализировать данные в реляционных базах данных и многомерных кубах OLAP для обнаружения закономерностей и структур, которые могут быть полезны для прогнозирования. Компоненты для выявления закономерностей в сервере SQL Server 2000 тесно интегрированы с источниками реляционных данных и данных OLAP. Фактически результаты выявления закономерностей могут использоваться при создании дополнительных измерений куба для последующего анализа данных OLAP. Их можно использовать в реляционных базах данных с помощью простого выполнения запросов SQL. Средства выявления закономерностей, включенные в службы анализа данных сервера SQL Server 2000, вошли в открытую и расширяемую реализацию новой спецификации OLE DB для выявления закономерностей.
Сервер SQL Server 2000 включает в себя два класса алгоритмов выявления закономерностей, разработанные группой Microsoft Research: Microsoft Decision Trees (деревья решений) и Microsoft Clustering (кластеризация). Алгоритм Microsoft Decision Trees в действительности состоит из четырех различных алгоритмов и основан на понятии классификации. Алгоритм строит дерево, прогнозирующее значения столбцов на основании других столбцов обучающего набора (т.е. таблицы фактов). Решение о размещении каждого узла в дереве принимается алгоритмом, а наиболее значимые и определяющие различие атрибуты отображаются ближе к корню дерева решений. Реализация алгоритма Microsoft Decision Trees может использоваться для определения тех посетителей веб-узла, кто вероятнее всего щелкнет конкретный рекламный заголовок или купит конкретный продукт на коммерческом веб-узле. Алгоритм Microsoft Clustering использует метод ближайшего соседа для группировки записей в кластеры, проявляющие некоторые подобные, предсказуемые характеристики. Часто эти характеристики могут быть скрыты или неясны. Например, алгоритм Microsoft Clustering может использоваться для оценки зависимости потребительского спроса от возраста. Разумеется, интегрированное выявление закономерностей в сервере SQL Server 2000 поддерживает алгоритмы, разработанные сторонними производителями.
Поддержка выявления закономерностей пронизывает службы анализа данных и другие компоненты сервера SQL Server 2000. Для упрощения разработки, создания, изучения и использования моделей выявления закономерностей предусмотрены новые мастеры, редакторы и другие элементы пользовательского интерфейса. Результаты выявления закономерностей могут быть включены в кубы OLAP, а для упрощения программного управления моделями выявления закономерностей, связанными с этими кубами, в сервере SQL Server 2000 был расширен синтаксис MDX.
![](image/index-image004.jpg)
Рис. 3. Редактор Data Mining Model Editor отображает результаты анализа закономерностей (здесь применяется алгоритм дерева решений, разработанный корпорацией Майкрософт)
Интегрированная технология выявления закономерностей (технология «информационной проходки») – ключевой элемент в стратегии корпорации Майкрософт, направленной на создание средств анализа статистики посещений веб-узлов. Они предназначены для работы в итеративном цикле, включающем следующие операции:
1. Сбор информации о работе пользователей при просмотре страниц того или иного веб-узла и при поиске по нему.
2. Анализ этой информации, позволяющий выявить закономерности и подготовить соответствующие прогнозы (с использованием технологии информационной проходки).
3. Индивидуализированный подбор рекламы и веб-ресурсов для посетителей веб-узла, осуществляемый на основе такого анализа (например, показ баннеров для тех продуктов, которыми может заинтересоваться конкретный покупатель).
4. Принятие решений о перенастройке действующих систем на основе данных, накопленных с использованием операций OLAP.
В идеальном случае такой процесс идет на веб-узлах электронной коммерции непрерывно, что позволяет максимально учитывать интересы покупателей и дает возможность этим узлам выгодно отличаться от своих конкурентов. Интеграция с сервером Commerce Server 2000 упрощает сбор сведений о перемещении пользователей по веб-узлу, данных о покупках и других торговых операциях, прочей информации об их действиях – в результате у менеджеров возникает целостное представление о работе веб-узла. Как следствие, у них появляется возможность изменять или создавать новые маркетинговые программы, проводить рекламные кампании, а также осуществлять коммерческое планирование и поддерживать личные настройки пользователей веб-узла. Собранные сведения также можно использовать в системах планирования ресурсов предприятия (ERP) и управления связями с потребителями (CRM), что позволяет регулировать поставки в зависимости от потребностей покупателей.