Обоснование количества классов сейсмофаций

Окно табличной информации >> Анализ, действия, расчеты >> Кластерный анализ | Примеры

Для обоснования количества классов при кластерном анализе используется расчет коэффициентов корреляции между образами классов, которые представлены N свойствами – параметрами.
Каждое свойство представлено в отдельном столбце. В таблице должен быть также столбец с названием задания кластеризации и названием объекта.

Что на входе.  Несколько файлов с результатами классификации (с разным количеством классов). 

Что на выходе. Таблица и график изменения схожести классов между собой.
Исходные предположения. При увеличении количества классов должна изменяться степень различия. Если при увеличении количества классов степень различия не меняется, то дальнейшее увеличение количества классов не дает новой информации.  
Последовательность действий. 
1 - Получаем единый файл с результатами всех классификаций. 
2 - Загружаем его в таблицу и чистим. 
3 - Анализируем его.

1. Получаем единый файл с результатами всех классификаций. 

Сначала необходимо получить один файл c результатами различных классификаций. Предполагается, что в каждом файле хранятся результаты кластеризации – образы классов. В каждом файле хранятся различное количество образов выделенных классов.
Чтобы создать один файл из нескольких, выберите меню «Приложения \ Преобразования файлов…» и выберите задание «Объединить несколько файлов в один». Поставьте галочку «Добавлять название файла в первый столбец». 
Выберите меню «Файл \ Открыть файлы (в список файлов)…» и задайте текстовые файлы для объединения. 
Нажмите «Выполнить >>» и выберите «Для всех файлов в списке». Задайте название файла, в который будет сохранен результат. 

2. Загружаем его в таблицу и чистим.

После получения единого файла загрузим его в таблицу программы. Меню «Управление \ Импорт табличных данных \ Из источника…».
В окне «Импорт и загрузка текстовых данных» нажмите «Управление>> \ Открыть данные из файла….» и выберите файл с объединенными результатами классификаций. 
Нажмите «Выполнить». В дочернем окне «Таблицы» появятся загруженные данные.
Можно переименовать названия столбцов. Для этого нужно щелкнуть ЛКМ на столбец и вписать новое название.
 После переименования столбцов необходимо избавиться от пустых строк. Для этого в меню «Анализ, действия, расчеты…\ Действия» выберите «Удаление строк по условиям» поставьте галочки в удалении строк «Если хотя бы один из выделенных столбцов», в условии удаления «Пустой». Нажмите «Выполнить».

 Появится окно с информацией о количестве удаляемых строк. Нажмите «Yes».
Теперь необходимые данные в таблице для анализа готовы.

3. Анализируем полученную таблицу.

Далее в меню «Анализ, действия, расчеты…\Кластерный анализ\Предварительный анализ…». В предварительном анализе ставим галочку «Статистика коэффициентов корреляции между классификациями», предварительно выделив столбцы с данными в левой части окна и задав название в данных для анализа. Нажмите «Выполнить».
Появится окно информации с результатом расчета коэффициентов корреляции между классификациями. Перенесем данные в таблицу Excel, выбрав кнопку. 
Строим график зависимости коэффициента корреляции (минимального, среднего и максимального) от количества классов. 
Точка на графике, где коэффициент корреляции перестает интенсивно снижаться, будет соответствовать оптимальному количеству классов для задачи кластеризации и выделения сейсмофаций.

Комментариев нет:

Отправить комментарий