главная новости кто мы мы предлагаем сферы клиенты аналитика контакты
Эффективность исследований или как избежать ошибок при проведении исследования
Дискриминантный анализ и другие многомерные методы в маркетинговых исследованиях
ENG   RUS   UKR
Дискриминантный анализ и другие многомерные методы в маркетинговых исследованиях
В статье дается краткий обзор основных методов многомерного статистического анализа данных, применяемых в маркетинговых исследованиях. Основное внимание уделено дискриминантному анализу, теоретическим и практическим аспектам его использования.

Наиболее распространенным подходом в практике анализа данных в маркетинговых исследованиях является частотный анализ (одномерные распределения, таблицы сопряженности) и расчет всевозможных показателей (индексы бренда, affinity index). Так как маркетинговые проблемы по своей сути многомерны (описываются одновременно несколькими показателями), то не всегда анализ даже огромного количества «разбивок» (таблиц сопряженности, cross-tabs) ключевого показателя по различным социо-демографическим характеристикам позволяет выявить существующие структуры и взаимосвязи.

Методы многомерного статистического анализа (multivariate methods) разрабатывались как раз для решения задач подобного вида. Они находят широкое применение при рыночном сегментировании, изучении потребительских предпочтений и моделей поведения, тестировании новых продуктов, построении карт восприятия. Результаты используются при принятии решений о выборе целевых рынков, выводе нового продукта или услуги, разработке стратегии позиционирования и рекламной стратегии. Престижные лицензионные электронные книги для бизнесменов и политиков.

Самыми популярными методами, используемыми специалистами по маркетинговым исследованиям, являются факторный анализ (включая анализ главных компонент) и кластерный анализ. Эти методы относятся к методам анализа взаимозависимости (interdependent techniques), при которых переменные не подразделяются на зависимые и независимые, их основная цель – сгруппировать данные (переменные или объекты) по лежащему в основе сходству.

Факторный анализ основан на предположении, что связи исходных признаков – это результат воздействия сравнительно небольшого числа неявных, т.е. латентных, факторов (конструктов). Так как число латентных факторов обычно значительно меньше числа исходных признаков, то основной задачей факторного анализа считается сжатие исходного массива переменных. Факторный анализ основывается на матрице корреляций между переменными. Каждый полученный латентный фактор состоит из тех переменных, которые имеют тесную взаимную корреляцию.

Например, при анализе психографических характеристик респондентов просят оценить степень их согласия с различными утверждениями (от 20 до 200 вопросов), отражающими установки, мотивы, образ жизни людей. В результате факторного анализа выделяют ключевые факторы (3-20), которые потом используют для психографического сегментирования респондентов. Наиболее известное психографическое сегментирование рынков – система VALS (Value and lifestyle – ценности и типы образа жизни). На основании обновленной в 1989 г. методики VALS2 население США подразделяется на 3 общие потребительские группы («ориентированные на принцип», «ориентированные на статус», «ориентированные на действие»), а затем на 8 типов [1]. http://elegantceramica.ru

Кластерный анализ позволяет получить группы (кластеры) переменных или объектов, схожих между собой. Мера схожести (близости) задается исследователем, и в случае количественных переменных (измеренных с помощью интервальной шкалы или шкалы отношений) чаще всего используется обычное (евклидово) расстояние. В качестве объектов могут выступать респонденты, бренды, торговые точки, компании. В маркетинге кластерный анализ широко используется при решении задач сегментирования рынка [2].

Другая группа – это методы анализа зависимости (dependenсе techniques), применяемые в случаях, когда одна или больше переменных идентифицированы как зависимые, а остальные – независимые. Самым известным представителем этой группы является регрессионный анализ. Результатом множественного линейного регрессионного анализа является уравнение вида y = b0 + b1x1+ b2x2 + b3x3, где - зависимая переменная (количественная), x1, x2, x3- независимые переменные (количественные или качественные), b0 , b1, b2 , b3 - коэффициенты (параметры) регрессии (часто коэффициент b0 называют константой или свободным членом). Регрессионный анализ позволяет выявить факторы, оказывающие существенное влияние на результирующий показатель, определить силу и направление этого влияния. Сравнение степени влияния осуществляется с помощью стандартизированных коэффициентов регрессии (Бета-коэффициентов). С помощью полученного уравнения можно предсказывать поведение зависимой переменной на основе предполагаемых значений независимых переменных. Показателем качества построенного уравнения (адекватности модели исходным данным) служит коэффициент детерминации R2, который изменяется в пределах от 0 до 1 – чем ближе значение R2 к 1, тем лучше полученная модель описывает исходные данные.

Например, регрессионный анализ используется для оценки качества сервиса в проекте Mystery Shopping на основе модели SERVQUAL (компания MarketingLab, Киев) [3]. При исследовании качества сервиса в магазинах, торгующих бытовой техникой, использовалась анкета, которая помимо 20 специфичных оценочных параметров также включала вопрос по общей оценке качества обслуживания. Прежде всего, с помощью факторного анализа было выявлено три фактора, которым были присвоены такие названия: «персонал – минимальные требования» (содержит 4 параметра), «персонал – стремление помочь» (8 параметров), «материальные компоненты» (7 параметров).

Для того чтобы выяснить, каково влияние каждого из факторов на общую оценку, была выполнена процедура регрессионного анализа, где в качестве зависимой переменной ( y ) выступил вопрос об общей оценке качества обслуживания, а средние баллы по факторам (средние от значений параметров оценки, объединенных каждым фактором), выступили в роли независимых переменных ( x1, x2, x3 ). Вклад каждого фактора в общую оценку (т.е. значимость) оценивался по величине Бета-коэффициентов регрессионного уравнения. Было обнаружено, что наибольшее влияние оказывает 2-й фактор «персонал – стремление помочь», далее следует 1-й фактор «персонал – минимальные требования», и на последнем месте – 3-й фактор «материальные компоненты» (со значимостью в 2 раза меньше, чем 2-й фактор).

Как уже было сказано, зависимая переменная в регрессионном анализе количественная. В случае, когда зависимая переменная качественная, т.е. номинальная или порядковая, используют логистическую или порядковую регрессии соответственно.

Когда имеется несколько зависимых переменных, применяют метод канонических корреляций, который дает возможность одновременно анализировать взаимосвязь нескольких результирующих показателей ( Y ) и большого числа независимых переменных ( X ). В последнее время все большую популярность в маркетинговых исследованиях получает совместный анализ (Conjoint, consider jointly – рассматривать совместно), который также можно отнести к методам анализа зависимости. В его основе лежат методы планирования эксперимента.

Совместный анализ – один из лучших методов определения оптимальных характеристик (атрибутов) продукта и его цены на основе моделирования поведения потребителей. С его помощью можно определить ценность (важность) каждого атрибута на основе результатов выбора, который делают респонденты среди различных профилей. Профиль представляет собой описание продукта, состоящее из набора уровней различных атрибутов. Под «выбором» чаще всего понимают рейтинги или ранги, которые респонденты приписывают различным комбинациям атрибутов (профилям).

В отличие от композиционных (прямых) методов, где каждая характеристика оценивается по отдельности, в совместном анализе респондент оценивает все характеристики продукта в комплексе, т.е. совместно. Сферы применения совместного анализа – разработка нового продукта и оценка концепций, ценовые исследования, репозиционирование, анализ и сегментация рынка, изучение мотивации и моделирование поведения потребителя.

Перед тем как перейти к детальному рассмотрению дискриминантного анализа, стоит назвать еще два весьма востребованных многомерных метода, используемых главным образом для графического отображения исследуемых взаимосвязей – многомерное шкалирование (Multidimensional scaling, MDS) и анализ соответствий (Correspondence analysis). Основная область применения этих методов в маркетинговых исследованиях – построение карт восприятия (Perceptual mapping).

Дискриминантный анализ относится к группе методов анализа зависимости и внешний вид получаемой дискриминантной функции не отличается от уравнения регрессии: D = b0 + b1x1+ b2x2 +..+ bkxk. В качестве зависимой переменной выступает номинальная переменная, идентифицирующая принадлежность объектов к одной из нескольких групп. Независимые переменные ( x1, x2 .. xk ) такие же, как и в регрессионном анализе (количественные и качественные). Т.е., по внешним признакам модель дискриминантного анализа похожа на модель логистической регрессии, но эти модели отличаются способами вычисления коэффициентов.

Следует заметить, что качественные независимые переменные (номинальные и порядковые) при использовании в дискриминантном и регрессионном анализах преобразуют к бинарному типу (чаще всего 0-1). Полученные таким образом бинарные переменные называют фиктивными (dummy), они отражают наличие (1) или отсутствие (0) признака.

Основной задачей дискриминантного анализа является исследование групповых различий - различение (дискриминация) объектов по определенным признакам. Например, есть данные о клиентах/потребителях, которых можно разделить по группам (совершившие повторную покупку – не совершившие повторную покупку, покупатели марки А – покупатели марки В – покупатели марки С, высокие риски невозврата кредита – низкие риски невозврата кредита), также имеется дополнительная информация о клиентах/потребителях. Дискриминантный анализ позволяет выяснить, действительно ли группы различаются между собой, и если да, то каким образом (какие переменные вносят наибольший вклад в имеющиеся различия).

При сравнении двух групп (бинарная зависимая переменная) формируется одна дискриминантная функция. Если данный метод применяется к анализу трех или более групп (множественный дискриминантный анализ), то могут формироваться несколько дискриминантных функций.

Все процедуры дискриминантного анализа можно разбить на две группы: первая группа позволяет интерпретировать различия между имеющимися группами (сравнивая средние), вторая – проводить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат.

С вычислительной точки зрения дискриминантный анализ очень похож на дисперсионный анализ (ANOVA – Analysis of variance), который сравнивает размеры вариации (изменчивости, неоднородности), обусловленной разными факторами и используется для изучения различий средних значений количественной зависимой переменной, вызванных влиянием качественных независимых переменных (факторов). В дискриминантном анализе коэффициенты (или веса) b0 , b1, b2 .. bk определяют таким образом, чтобы группы максимально возможно отличались значениями дискриминантной функции. Это происходит тогда, когда отношение межгрупповой суммы квадратов к внутригрупповой сумме квадратов для дискриминантных показателей максимально.

На рис.1 представлена геометрическая интерпретация дискриминантной функции и дискриминантных переменных в случае двух групп и двух переменных.



Рис.1
Очевидно, что после нахождения проекций точек, представляющих две группы (на рисунке – ромбики и кружочки) на дискриминантную ось, проекции одной группы будут смещены по отношению к другой. Полученные проекции соответствуют значениям дискриминантной функции.

Важной проблемой дискриминантного анализа является определение дискриминантных переменных (переменных, входящих в дискриминантную функцию). Возможны два подхода. Первый предполагает одновременное введение всех переменных, в этом случае учитывается каждая независимая переменная, при этом ее дискриминирующая сила не принимается во внимание. Альтернативой является пошаговый (stepwise) дискриминантный анализ, при котором переменные вводятся последовательно, исходя из их способности различить (дискриминировать) группы. При пошаговом анализе «с включением» на каждом шаге просматриваются все переменные, и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

При пошаговом анализе «с исключением» движутся в обратном направлении, в этом случае все переменные сначала будут включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в различение. Тогда в качестве результата успешного анализа можно сохранить только «важные» переменные в модели, т.е. те переменные, чей вклад в дискриминацию больше остальных. Пошаговый дискриминантный анализ основан на использовании уровня значимости F-статистики.

Как уже говорилось, проверка качества дискриминации (различия) основана на сравнении средних дискриминантной функции для исследуемых групп. Эти средние играют настолько важную роль в дискриминантном анализе, что получили свое название – центроиды (centroids). Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Кроме этого, значения дискриминантной функции также имеют свое название – дискриминантные показатели (discriminant scores).

Прежде чем интерпретировать дискриминантную функцию следует убедиться в ее статистической значимости. Для этого проверяют нулевую гипотезу о равенстве центроидов во всех группах (чтобы дискриминантная функция была статистически значимой, эта гипотеза должна быть отвергнута). Эта гипотеза проверяется с помощью коэффициента лямбда ( £ ) Уилкса (Wilks’s ). В программе SPSS для оценки значимости различия также используются собственные значения (eigenvalues) дискриминантной функции (большое собственное значение указывает на высокое качество функции) и каноническая корреляция, квадрат которой показывает, какая доля вариации зависимой переменной объясняется моделью (аналог R2 в регрессионном анализе).

Аналогично регрессионному анализу для оценки относительной важности переменных в установлении различий между группами используются стандартизированные (нормированные) коэффициенты дискриминантной функции (в регрессионном анализе они называются Бета-коэффициентами). В дискриминантном анализе для решения этой задачи также используются разности средних значений каждой переменной в группах и показатели дискриминантной нагрузки, которые часто называют структурными коэффициентами корреляции (structure correlations) – это парные линейные коэффициенты корреляции между каждой переменной ( D ) и дискриминантной функцией ( x1, x2 .. xk ). Важное предостережение: одной из предпосылок дискриминантного анализа (также как и в регрессионном анализе) является отсутствие связи (слабая корреляция) между переменными x1, x2 .. xk, т.е. отсутствие мультиколлинеарности.

При наличии мультколлинеарности между предсказывающими переменными не существует однозначной меры относительной важности переменных. Следует заметить, что в качестве дискриминантных переменных могут выступать не только исходные (наблюдаемые) признаки, но и главные компоненты или главные факторы (в этом случае дискриминантному анализу предшествует факторный анализ, который позволяет сократить массив переменных и выделить новые некоррелируемые факторы).

Кроме предположения о мультиколлинеарности для корректного применения дискриминантного анализа также должны выполняться предпосылки нормальности распределения независимых переменных и однородности дисперсий/ковариаций (проверяется с помощью М-статистики Бокса (Box’s M)).

Когда определен окончательный вид дискриминантной функции, можно переходить к решению задачи классификации. Сразу следует отметить, что для корректного применения дискриминантной функции для решения этой задачи должны использоваться две выборки: одна для вычисления дискриминантной функции (ее называют анализируемой), вторая – проверочная, которую используют для проверки результатов расчета на основании первой выборки. Такую процедуру проверки называют кросс-проверкой (перекрестной проверкой).

Смысл процедуры классификации, т.е. предсказания, к какой совокупности принадлежит конкретный объект, можно проиллюстрировать на простейшем примере, отраженном на рис.2 (две переменные и две группы).



Рис.2

Для нового объекта находится его проекция на дискриминантную ось (т.е. значение дискриминантной функции – дискриминантный показатель) и определяется, к какому из центроидов (для первой или второй группы) он более близко расположен. Соответственно, он будет отнесен к этой группе. Степень «близости» может определяться с помощью пороговых значений (если размеры групп равны, то пороговое значение – среднее арифметическое двух центроидов, если же группы не равны, то вычисляется средневзвешенная).

Также могут быть вычислены вероятности противоположных событий «объект принадлежит группе 1» и «объект принадлежит группе 2», которые в сумме дают 1 (100%). Затем на основании полученных вероятностей происходит классификация объектов. В программе SPSS предусмотрена возможность расчета этих вероятностей (Probabilities of group membership) и сохранения их в исходном массиве данных.

Качество классификации оценивается с помощью так называемой классификационной матрицы (classification matrix), которую еще называют смешанной матрицей или матрицей предсказания. Эта матрица содержит ряд правильно и ошибочно классифицированных случаев. Доля общего количества правильно классифицированных случаев называется коэффициентом результативности (hit ratio). Этот коэффициент варьируется в пределах от 50% до 100%. Нижний предел определяется тем, что даже при случайном отнесении некоторого наблюдения к одной из двух имеющихся групп (например, с помощью бросания монеты), корректность классификации составила бы 50%. Поэтому на практике удовлетворительной считается классификация с коэффициентом результативности не меньше 70%.

Таким образом, мы рассмотрели весь процесс выполнения дискриминантного анализа в случае двух групп. Особенности множественного дискриминантного анализа, равно как и детальное освещение этого и других видов многомерного анализа, можно найти в учебниках по маркетинговым исследованиям [4,5] и по прикладной статистике [6,7]. Рекомендации по реализации многомерных методов в программах SPSS [8,9] и Statistica [10] также помогут усовершенствовать свои знания и навыки.

В заключение несколько слов о сферах применения дискриминантного анализа. Этот метод широко распространен в анализе кредитных рисков в банковских и страховых учреждениях, где с его помощью строят так называемые модели финансового скоринга (или скоринговые системы) [11]. Скоринговые модели также позволяют улучшить качество сегментации [12]. И, наконец, дискриминантный анализ – один из методов построения карт восприятия, который позволяет разместить в одном пространстве как бренды, так и их атрибуты [13,14].

Литература
1. Мухина М.К. Изучение стиля жизни потребителей и сегментирование рынка на основе психографических типов.
2. Костерин А.Г. Практика сегментирования рынка. – СПб.: Питер, 2002. – 288 с.
3. Цысарь А. Исследование факторов оценки покупателями сервиса в магазинах, торгующих бытовой техникой.
4. Малхотра Н.К. Маркетинговые исследования. Практическое руководство, 3-е издание. – М.: Издательский дом «Вильямс», 2002. – 960 с.
5. Черчилль Г.А., Якобуччи Д. Маркетинговые исследования. 8-е издание. – СПб.: Издательский Дом «Нева», 2004. – 832 с.
6. Многомерный статистический анализ в экономике / Под ред. проф. В.Н.Тамашевича. – М.: ЮНИТИ-ДАНА, 1999. – 598 с.
7. Ким Дж.-О., Мьюллер Ч.У. и др. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989. – 215 с.
8. Бююль А., Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. – СПб.: ООО «ДиаСофтЮП», 2002. – 608 с.
9. Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.
10. Электронный учебник StatSoft.
11. Финансовый скоринг.
12. Сегментация, с которой можно работать. // Вестник McKinsey, № 4 (9) 2004.
13. Wittenschlaeger Th.A., Fielder J.A. Current Practices in Perceptual Mapping.
14. Struhl S. Multivariate and perceptual mapping with discriminant analysis.
Сведения об авторе:
Анастасия Позднякова, к.ф.-м.н., аналитик, специалист по количественным исследованиям, CIU (Consumer Insights Ukraine), Киев

Consumer Insights Ukraine (CIU)


Бетонные и асфальтовые заводы

главная | новости | кто мы | мы предлагаем | сферы | клиенты | аналитика | контакты
  Designed by One