2.2. Математическая статистика. Коэффициент ранговой корреляции Спирмена
Математику часто используют как инструмент в целом ряде наук, как технических, так и естественно-научных и гуманитарных. Благодаря таким методам, предмет исследования может быть не только описан, но и объективно измерен, то есть используется количественный анализ. Всем этим занимается математическая статистика, позволяющая разбираться в сложном экспериментальном материале, обобщать данные экспериментов, находить зависимости между экспериментальными данными и многое другое. Также методы математической статистики помогают избегать логических и содержательных ошибок, вероятность появления которых велика при традиционных методах исследования106.
Содержанием математической статистики является разработка приемов статистического наблюдения и анализа статистических данных, а ее основной задачей – выяснение вероятностных свойств генеральной совокупности (распределение, числовые характеристики и т. п.), но, как правило, исследовать такую совокупность целиком практически невозможно, и поэтому производится выборка, то есть изучению подвергаются лишь некоторые объекты совокупности107. Математическая статистика использует те же методы и приемы, что теория вероятностей.
Одним из таких понятий является корреляция, определяемая как «статистическая зависимость между случайными величинами, не имеющими строгого функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой»108.
Понятие корреляции было введено в XIX веке в работах английского антрополога и психолога Фрэнсиса Гальтона и математика Карла Пирсона.
Рассматриваемые величины могут быть независимыми или связанными функциональной или вероятностной (стохастической) зависимостью109. Основной задачей корреляционного анализа является выявление тесноты связи между этими величинами, а также количественная оценка тесноты этой связи.
Корреляционная связь показывает лишь тенденцию изменения одной величины под действием другой, а значит, на ее основании мы можем утверждать о степени связи между переменными.
Корреляционная связь различается по силе (тесноте) связи: связь может быть функциональной, тесной (сильной), средней (умеренной), слабой и нулевой (отсутствующей). Также она различается по направлению: бывает положительной и отрицательной110.
Оценка тесноты корреляции производится с помощью различных корреляции. Коэффициент корреляции (ρ) — это безразмерная величина, изменяющаяся в пределах от -1 до 1. При ρ=±1 корреляционная связь представляет собой линейную функциональную зависимость.
«Прямая», положительная связь наблюдается, когда ρ > 0; отрицательная связь — при ρ < 0.
Приведём таблицу оценки корреляционной связи в зависимости от величины коэффицента корреляции:
Таблица . Оценка тесноты корреляционной связи в зависимости от значения коэффициента корреляции
Значение коэффициента корреляции
|
Оценка тесноты корреляционной связи
|
| ρ | = 1
|
величины связаны линейной функциональной зависимостью
|
0,95 ≤ | ρ | < 1
|
связь очень сильная, практически функциональная
|
0,75 ≤ | ρ | < 0,95
|
связь тесная (сильная)
|
0,5 ≤ | ρ | < 0,75
|
связь средняя (умеренная)
|
0,2 ≤ | ρ | < 0,5
|
связь слабая
|
0 ≤ | ρ | < 0,2
|
практически нет связи
|
Приведённую классификацию значений коэффицента корреляции следует считать информативной и приблизительной.
Однако М. А. Харченко отмечает, что если коэффицент корреляции равен нулю, это ещё не означает независимость случайных величин, а только указывает на отсутствие линейной корреляционной зависимости между данными величинами, но не отсутствие корреляционной зависимости вообще111.
Существует несколько способов вычисления коэффициентов корреляции, однако они не универсальны. В случаях, когда нужно проанализировать переменные, которые нельзя измерить в интервальной или реляционной шкалах, но которые, тем не менее, можно проранжировать по возрастанию или убыванию признака, прибегают к ранговой корреляции. Как отмечает О. Ю. Ермолаев, в таком случае не требуется никаких предположений о характере распределений признаков в генеральной совокупности112. Таким образом, это непараметрический метод.
Коэффициент ранговой корреляции определяет связь тесноты между признаками, выраженными рангами. Одной из разновидностей коэффицентов ранговой корреляции является коэффицент ранговой корреляции Спирмена. Его величина также лежит в интервале от -1 до +1, и в целом его значения поддаются тем же принципам интерпретации, как описано выше для неранговой корреляции.
Рассчитывается коэффициент ранговой корреляции Спирмена по следующей формуле:
,
где n — количество ранжируемых признаков,
а d — разность рангов для каждой пары.
Для применения данного коэффициента необходимо, чтобы сравниваемые переменные были записаны в ранговой шкале, а число варьирующих признаков в сравниваемых переменных X и Y было одинаковым113.
Поскольку коэффицент ранговой корреляции Спирмена вычисляет тесноту связи между двумя переменными, он является парным114, то есть его нельзя применять для более чем двух рядов переменных сразу, а надо разбить их на пары.
Н. Н. Кошелева отмечает, что использование коэффициента ранговой корреляции Спирмена позволяет быстро найти приближенную оценку коэффициента корреляции даже в случае двумерного нормального распределения генеральной совокупности. Коэффициент Спирмена прост в расчётах, а точность оценки даже при больших объёмах выборки составляет порядка 91% от точности оценки по коэффициенту корреляций точно измеренных значений признаков115. Она также пишет, что данный коэффициент применяется для оценки устойчивости тенденции динамики, и именно с этой целью коэффициент ранговой корреляции Спирмена применяется в нашей работе. Наконец, эта исследовательница обращает внимание на то, что применение данного коэффициента возможно лишь при наличии не менее 5 наблюдений в каждом ряде значений, а при большом количестве одинаковых рангов коэффициент дает несколько огрубленные значения116, что, впрочем, не мешает выявлять тенденции.
Ранговая корреляция находит свое применение во многих науках. Впервые коэффициент Спирмена был разработан для исследований в области психологии (сам Чарльз Спирмен был психологом117), но ныне применяется также и в социологических исследованиях (в частности, при анкетированиях и опросах населения), и в экономике, и в педагогике118. Ничего не препятствует его использованию и в лингвистическом исследовании, ведь его основная функция — установить связь между явлениями, не поддающимися количественной оценке, но которые можно подвергнуть оценке сравнительной и присвоить ранги.
Несмотря на то, что в нашем исследовании мы получим конкретные цифровые значения индексов ассоциации, вычисленных программой T-Lab, мы решили довольствоваться сравнением ранговых значений, так как ими значительно легче оперировать, нежели абсолютными значениями индексов ассоциации, и при этом сохраняется смысл исследования (выявить общие тенденции на объёмном массиве изучаемых документов) и принцип использования объективных статистических методов.
Наконец, к методам исследования, нашедшим применение в этой работе, можно отнести использование программы Adobe Reader, позволяющей читать документы в формате PDF, не только для чтения этих самых документов, но и для обработки информации. А именно, с помощью функции «Поиск по тексту» мы подсчитали количество упоминаний закона Тубона в каждом из доступных докладов Делегации. Само по себе подсчитанное количество малоинформативно, однако вкупе с общим количеством слов, доступным после создания корпуса каждого доклада в программе T-Lab, позволяет вычислить относительную частоту употребления. А программа Microsoft Office Excel, в которую мы внесли полученные данные, имеет встроенную функцию построения графиков, что привносит в подобные исследования наглядность, куда большую, чем при описании словами.
Все вышеописанные методы, программы и приемы были недоступны для лингвистических исследований ещё 10-20 лет назад. Они позволяют использовать современные информационные технологии в лингвистических исследованиях. Неоспоримое преимущество машинной обработки текста заключается в ее объективности (однако сохраняется фактор субъективности самого исследователя в тех выводах, которые он делает, и в том, как направляет ход исследования), а также в значительном упрощении работы с текстом, ведь при использовании программ, подобных T-Lab, возможно исследование текста, не требующее предварительного полного и внимательного прочтения рассматриваемых документов.
Математические методы также вносят объективность в силу своей доказательности. Цифры и числа, за которыми скрываются результаты экспериментов и исследований, более наглядны, чем пространные описания тех же самых результатов словами.
Таблицы и графики, в которые вносятся данные результаты, также позволяют существенно сократить объем интерпретирующего текста. Все это придает научному исследованию некоторую лаконичность и доказательную наглядность.
|