Работа с таблицами. Классификация

Главное меню >> Таблица >> Работа с таблицами >> Анализ


Кластерный анализ проводится для выделения схожих объектов по (многомерным) данным. В задаче кластеризации отнесение каждого из объектов данных осуществляется к одному (или нескольким) из заранее неопределенных классов. Разбиение объектов на кластеры осуществляется при одновременном формировании классов. Данные должны быть представлены следующим образом:
- в одной строке содержится информация по одному объекту.
- у каждого объекта имеются одно или более свойств, которые хранятся в столбцах.
- свойства объекта должны быть числовыми.
Приведем простейший пример кластерного анализа (одномерный случай). Имеется следующая таблица: 
Well
ObT
100
8
101
3
103
12
106
3
108
10
114
2
В таблице представлены скважины и значения их толщины. Попробуем разбить эти скважины на два класса: скважины с высокими значениями и скважины с низкими значениями. 
Загрузим эту таблицу в окно табличных документов, выбрав меню "Управление \ Импорт табличных данных >> Из буфера обмена".
После загрузки таблицы нажмем на кнопку "Анализ, действия, расчеты..." 
В окне "Анализ, действия, расчеты табличных данных"  перейдите на вкладку "Кластерный анализ", выберите вкладку "Кластеризация".
Выберите результат "Таблица с результатами классификации (объект и номер класса)". Количество классов на выходе установите равным 2. Количество классов задается пользователем исходя из условий решаемой задачи.
Для получения информационного окна можно нажать на кнопку со знаком вопроса.
В качестве названия задайте столбец "Well". В списке "Столбцы таблицы" выделите свойство. 
Нажмите "Выполнить". На выходе появится следующая таблица. 
Для каждого объекта (скважины) будет определен свой класс один из двух. В первый класс входят скважины с высокими значениями, во второй класс - скважины с низкими значениями.
Рассмотрим более сложный пример с многомерными данными. На входе имеется следующая таблица. 
По скважинам даны значения отметок и толщин. Необходимо разделить массив скважин на различные классы, используя одновременно пять свойств (кровля, подошва, общая, эффективная, нефтенасыщенная толщины). Данные в цифровом виде можно скопировать отсюда
Зайдем в раздел кластерного анализа и зададим настройки, как указано на рисунке. 
Координаты X,Y в анализе не участвуют, они задаются только для того, чтобы представить результат (карту расположения точек-скважин в координатной плоскости). Зададим количество классов 3. В качестве результата выберем график параллельных координат. Нажмем кнопку "Выполнить" и появится график следующего вида.  
На данном графике видно что вся совокупность скважин хорошо делится на три класса (группы). В первую группу (синий цвет) входят скважины с высокими значениями кровли и низкими значениями нефтенасыщенной толщины. Во вторую группу (зеленый цвет) входят скважины с низкими значениями кровли и высокими значениями нефтенасыщенной толщины. В третью группу (красный цвет) входят скважины с высокими значениями кровли и высокими значениями нефтенасыщенной толщины. Таким образом, данный метод кластеризации позволил объективно разделить скважины на различные классы с одновременный учетом нескольких свойств.

Смотрите далее:
3. Кластерный анализ. Кластеризация по образам
4 .Кластерный анализ. Выбор количества классов

Комментариев нет:

Отправить комментарий