Когда я вижу исследование, которое строит какие-то выводы на основе ТАКОГО анализа, мне хочется убить авторов об стену.
Я (как статистик) вообще ненавижу коэффициент корреляции. Во-первых, мало того, что есть больше, чем один способ его оценки (которые часто не совпадают); проблема в том, что для коэффициента корреляции достаточно сложно построить любой доверительный интервал. Во-вторых, классическим примером "статистики 301" является картинка, где парабола соотношения y=x2 даёт нулевую корреляцию, хотя между двумя переменными существует прямо-таки функциональная зависимость.
По-моему, такие фокусы с корреляцией прямо-таки вопят об игнорировании правил статистического анализа.
Начнём с нуля: авторы исследования должны обосновать справедливость использования оценки Пирсона для определения коэффициента корреляции. Для сравнения, я предлагаю им использовать хотя бы порядковый критерий Кендалла, который часто даёт лучшую оценку для статистик, где основные коррелированные движения происходят на экстремальных значениях, а не в центре распределения. Как показывает моя практика, порядковые статистики, к которым относится и Кендалл, дают более вменяемые показатели для распределений, которые отличные от нормальных - и, я хочу напомнить, нормальное распределение возникает из теоремы предела больших чисел как предел распределения биномиального, и то - в качестве оценки выборки распределения СРЕДНЕГО значения случайной выборки, стремящейся к бесконечности. Даже в теории неплохо было бы провести пару тестов на соответсвие погрешности теоретическому распределению, что не так просто сделать, так как построение ANOVA таблиц является наиболее удобным именно при предположении о нормальности распределения погрежности, и, как следствие, использования оценки Пирсона для корреляции, которая превращается в банальную "регрессию в наименьших квадратах через начало координат" - дико простую модель.
Во-вторых, как и положено, при исследовании следует помнить, что критерий "религиозности" очень сложен: это напоминает бинарную переменную, справедливость использования для которой шкалы с "оценкой религиозности" ещё следует доказать. Что ещё хуже, переменная "шкала религиозности", даже с ограниченными оценками от "0" до "1" (предполагая, что люди готовы присвоить сами себе значения именно в этом диапазоне, а не, например, в диапазоне от 0.6 до 0.9) является крайне хреновой величиной для любых моделей с корреляцией; как показывает практика, такие ограниченные величины необходимо переводить в неограниченные путём использования логарифмической шкалы, что, к слову, не всегда тривиально. В любом случае, модели с преобразованием переменных всегда нетривиальны и требуют обоснования справедливости такого образования.
В-третьих, если вы не поняли, о чём я говорил предидущии два абзаца - пожалуйста, поверьте на слово: скорее всего, вы понятия не имеете, о чём ведут речь авторы статьи, примерно настолько же, насколько, похоже, его не имеют его авторы.
no subject
Я (как статистик) вообще ненавижу коэффициент корреляции. Во-первых, мало того, что есть больше, чем один способ его оценки (которые часто не совпадают); проблема в том, что для коэффициента корреляции достаточно сложно построить любой доверительный интервал. Во-вторых, классическим примером "статистики 301" является картинка, где парабола соотношения y=x2 даёт нулевую корреляцию, хотя между двумя переменными существует прямо-таки функциональная зависимость.
По-моему, такие фокусы с корреляцией прямо-таки вопят об игнорировании правил статистического анализа.
Начнём с нуля: авторы исследования должны обосновать справедливость использования оценки Пирсона для определения коэффициента корреляции. Для сравнения, я предлагаю им использовать хотя бы порядковый критерий Кендалла, который часто даёт лучшую оценку для статистик, где основные коррелированные движения происходят на экстремальных значениях, а не в центре распределения. Как показывает моя практика, порядковые статистики, к которым относится и Кендалл, дают более вменяемые показатели для распределений, которые отличные от нормальных - и, я хочу напомнить, нормальное распределение возникает из теоремы предела больших чисел как предел распределения биномиального, и то - в качестве оценки выборки распределения СРЕДНЕГО значения случайной выборки, стремящейся к бесконечности. Даже в теории неплохо было бы провести пару тестов на соответсвие погрешности теоретическому распределению, что не так просто сделать, так как построение ANOVA таблиц является наиболее удобным именно при предположении о нормальности распределения погрежности, и, как следствие, использования оценки Пирсона для корреляции, которая превращается в банальную "регрессию в наименьших квадратах через начало координат" - дико простую модель.
Во-вторых, как и положено, при исследовании следует помнить, что критерий "религиозности" очень сложен: это напоминает бинарную переменную, справедливость использования для которой шкалы с "оценкой религиозности" ещё следует доказать. Что ещё хуже, переменная "шкала религиозности", даже с ограниченными оценками от "0" до "1" (предполагая, что люди готовы присвоить сами себе значения именно в этом диапазоне, а не, например, в диапазоне от 0.6 до 0.9) является крайне хреновой величиной для любых моделей с корреляцией; как показывает практика, такие ограниченные величины необходимо переводить в неограниченные путём использования логарифмической шкалы, что, к слову, не всегда тривиально. В любом случае, модели с преобразованием переменных всегда нетривиальны и требуют обоснования справедливости такого образования.
В-третьих, если вы не поняли, о чём я говорил предидущии два абзаца - пожалуйста, поверьте на слово: скорее всего, вы понятия не имеете, о чём ведут речь авторы статьи, примерно настолько же, насколько, похоже, его не имеют его авторы.