Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Национальный исследовательский университет
«Высшая школа экономики»
Факультет социологии
Кафедра методов сбора и анализа социологической информации
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
На тему «Межстрановое сравнение степени случайности пропусков в
ответах на отдельные вопросы»
Студент группы № 433
Горелова Ольга Юрьевна
Руководитель ВКР
Преподаватель кафедры методов сбора и анализа социологической информации, к.с.н.
Зангиева Ирина Казбековна
Москва, 2013
Оглавление
Оглавление 3
Введение 4
Обзор литературы 8
Сравнительная характеристика методологий World Value Survey и European Social Survey 8
Определение случайности и степени случайности пропусков 13
Причины возникновения неответов 16
Методы оценки степени случайности пропусков, их достоинства и недостатки 20
Математические методы определения случайности. 21
Тестирование математического критерия серий Вальда-Волфовитца при разных сортировках массива на данных ESS 24
Способы оценки степени случайности пропусков,
предполагающие сравнение результатов их заполнения
разными алгоритмами. 26
Методы, основанные на использовании регрессионного
и дисперсионного анализа для определения факторов,
связанных с вероятностью возникновения пропусков. 28
Предлагаемый алгоритм оценки степени случайности
имеющихся в данных пропусков 30
Эмпирический анализ 33
Построение классификации стран 33
Межстрановое сравнение степени случайности пропусков
в вопросе о доходе на данных European Social Survey 43
Межстрановое сравнение степени случайности пропусков в вопросе о доходе на данных World Value Survey 77
Заключение 84
Список использованных источников 88
Приложения 91
Введение
На этапе подготовки данных к анализу часто встает вопрос о том, что делать с пропущенными данными. Здесь есть три основных возможных варианта: 1) исключить из анализа наблюдения, содержащие неполные данные, 2) взвесить полные наблюдения, чтобы сохранить запланированный объем выборки, 3) постараться заполнить существующие пропуски определенным образом.
Однако, применение этих трех способов работы с пропусками не всегда допустимо. В некоторых случаях с пропусками уже ничего нельзя сделать на этапе анализа данных. Допустимость применения всех трех способов работы с пропусками уже на этапе анализа данных зависит от степени случайности пропусков, поэтому понятие случайности и способы определения случайности пропусков представляют немалый интерес для детального рассмотрения.
Выделяют три типа пропусков: случайные, частично случайные и неслучайные (более подробно данная классификация будет рассмотрена ниже). Неслучайность пропусков зачастую свидетельствует о сензитивности вопроса, поэтому изучение степени случайности пропусков может иметь практическую ценность для выявления наиболее сензитивных вопросов и, например, составления рекомендаций, которые позволят в будущем сократить число пропусков в ответах на данные вопросы. В литературе отмечается, что одним из самых сензитивных вопросов является вопрос о доходе. Поэтому на вопросы о доходе, как правило, больше всего неответов.
В данном исследовании предполагается выяснить, всегда ли пропуски в ответах на вопрос о доходе неслучайны (то есть, зависят непосредственно от содержания вопроса и нежелания респондента отвечать на подобный вопрос) или же степень случайности пропусков в указании дохода может варьироваться в зависимости от каких-либо других характеристик, в частности, например, от социо-культурных особенностей страны, в которой проживает респондент.
В связи с этим, в данном исследовании было решено предпринять попытку сравнения степени случайности пропусков в ответах на вопрос о доходе в разных странах.
Кроме того, в данной работе также предполагается рассмотреть существующие способы оценки степени случайности и выбрать из них наиболее подходящие для пропусков в социологических данных. Такое исследование представляется актуальным, поскольку проблема практической оценки степени случайности пропусков в данных является на данный момент практически не изученной, хотя, как видно из всего вышесказанного, на самом деле исследование степени случайности пропусков в данных нужно и важно.
Проблемная ситуация данного исследования, таким образом, непосредственно «вытекает» из всего вышесказанного: с одной стороны, изучение степени случайности пропусков между странами является очень перспективной областью изучения, с другой же стороны, исследований, посвященных межстрановым сравнениям степени случайности пропусков в данных, очень мало, тогда как их результаты могут быть очень полезны для выбора способа работы с пропусками в данных, соответствующих каждой стране. Это противоречие между перспективностью и неизученностью темы и стало основным стимулом к проведению данного исследования.
В связи со всем вышесказанным, проблемой исследования является неизученность наличия и характера межстрановых различий в степени случайности пропусков в ответах на вопрос о доходе.
Отсюда цель исследования: выяснить, различается ли степень случайности пропусков в ответах на вопросы, которые наиболее часто игнорируют респонденты (на примере вопроса о доходе) между разными странами.
Исходная гипотеза заключается в том, что пропуски в ответе на один и тот же вопрос о доходе могут быть случайными или частично случайными в одних странах и неслучайными в других. Возможными причинами таких различий могут быть некоторые социо-культурные особенности населения, проживающего в этих станах.
Для тестирования данной гипотезы будет проведено сравнение степени случайности пропусков в ответах на вопрос о размере дохода между респондентами из разных стран, участвующих в двух крупных международных исследованиях – World Value Survey (далее WVS) и European Social Survey (далее ESS). Как уже говорилось выше, в данном исследовании также предполагается произвести обзор различных методов измерения степени случайности и из них отобрать те, которые лучше всего подходят для определения степени случайности пропусков в социологических данных. В связи с этим, для достижения поставленной цели необходимо будет решить следующие задачи.
Задачи и гипотезы:
рассмотреть различные методы определения степени случайности (некоторой последовательности чисел);
оценить возможности и ограничения применения каждого из методов и выбрать оптимальные для оценки степени случайности пропусков в данных;
провести сравнение степени случайности пропусков в ответах на вопрос о доходе между разными странами;
Н0: Предполагается, что в одних странах пропуски в ответе на вопрос о доходе будут обусловлены самим размером дохода; в других странах пропуски будут обусловлены другими факторами, такими, как, например, стиль ответов респондентов, менталитет населения, различные социо-культурные особенности; а в некоторых странах не будет обнаружено факторов, объясняющих возникновение пропусков, то есть, пропуски в ответе на вопрос о доходе не будут ни от чего зависеть.
составить классификацию стран на «отвечающие» и «неотвечающие» и выяснить, различается ли вероятность неответа на вопрос о доходе в странах, относящихся к разным группам.
Н0: Предполагается, что принадлежность страны к классу «неотвечающих» может выступать как один из факторов неответов на вопрос о доходе в данной стране, влияющий на степень случайности пропусков в вопросе по доходу в этой стране.
провести сравнение степени случайности пропусков в вопросе по доходу на данных WVS и ESS;
Н0: предполагается, что если степень случайности пропусков имеет межстрановой характер, то степень случайности пропусков в вопросе о доходе для одних и тех же стан на данных разных исследований будет одинаковой.
Эмпирический объект исследования: Данные World Value Survey (WVS; волна 2005-2008 года) и European Social Survey (ESS; волна 2006-2007 года).
Для WVS данные за 2005-2008 год – наиболее свежие доступные данные, а для ESS доступны данные и за 2008-2009, и за 2010-2011 год, но для данного исследования отобраны данные 3-ей волны 2006-2007 года, чтобы обеспечить сопоставимость данных ESS и WVS.
Теоретический объект исследования: пропуски в ответах на вопрос о размере дохода в разных странах.
Предмет исследования: степень случайности пропусков в ответах на вопрос о размере дохода в разных странах.
В данной работе сначала будет описана теоретическая рамка исследования, причины выбора данных дух международных исследования WVS и ESS для исследования степени случайности пропусков в вопросе о доходе; причины выбора вопроса о доходе для измерения степени случайности пропусков; также будет произведен обзор существующих методов определения степени случайности некой последовательности чисел, описаны достоинства и недостатки этих методов применительно к пропускам в социологических данных. Также на основании обзора данных методов будет составлен алгоритм определения степени случайности пропусков в социологических данных, после чего этот алгоритм будет применен к анализу степени случайности пропусков в ответах на вопрос о доходе и сравнению степени случайности пропусков в ответах этот вопрос между разными странами на данных WVS и ESS.
Для обеспечения возможности сопоставить результаты, полученные на данных WVS и ESS, в выборку стран для проведения межстранового сравнения степени случайности пропусков в ответе на вопрос о доходе, войдут только те страны, которые принимали участие и в WVS, и в ESS (в соответствующих волнах, данные которых используются в исследовании).
Данное исследование будет основано на анализе только вторичной информации: литературы, с целью обнаружения методов определения случайности) и баз данных WVS и ESS.
Ниже перейдем к рассмотрению важных концептов, используемых в данном исследовании, а также к обзору литературы, послужившей теоретической рамкой данного исследования.
|