Решение проблемы несбалансированности данных




Скачать 1.02 Mb.
Название Решение проблемы несбалансированности данных
страница 4/6
Тип Решение
rykovodstvo.ru > Руководство эксплуатация > Решение
1   2   3   4   5   6


В Таблице 2 для каждого показателя приведены вероятности нормальности распределения и равенства средних, а также для каждой категории математическое ожидание, стандартное отклонение, минимальное и максимальное значения.

Проведение теста ANOVA показало, что наибольшей дескриптивной способностью (математические ожидания двух групп не равны на 10% уровне значимости) обладают доли собственного капитала, общего кредитного портфеля, ликвидных активов, кредитов нефинансовым организациям, доля государственных ценных бумаг, величина валюты балансов. Все переменные, имеющие близкое к нормальному распределение, вошли в список наиболее дескриптивных. Таким образом, все перечисленные переменные следует включить в модель.

В Таблице 3 представлены парные коэффициенты корреляции между отобранными факторами, что позволяет проверить наличие мультиколлинеарности в модели.
Таблица 3

Парные коэффициенты корреляции

Корреляция

Доля капитальных активов

Доля кредитов

Доля инвестиций в ГКО

Доля ликвидных активов

Размер банка

Доля кредитов нефинансовым организациям

Доля капитальных активов

1
















Доля кредитов

-0,01

(-0,16)

1













Доля инвестиций в ГКО

-0,19***

(-2,72)

-0,01

(-0,01)

1










Доля ликвидных активов

0,25***

(3,7)

-0,53***

(-9,05)

-0,11**

(-1,63)

1







Размер банка

-0,62***

(-11,28)

0,08

(1,21)

0,23***

(3,42)

-0,43***

(-6,9)

1




Доля кредитов нефинансовым организациям

-0,01

(-0,09)

0,99***

(252,9)

-0,01

(-0,12)

-0,53***

(-8,92)

0,08

(1,09)

1


Значение в скобках представляет соответствующую t-статистику. Количество звездочек отражает уровень значимости следующим образом: (*) 15%, (**) 5%, (***) 1%
Сильная линейная взаимосвязь обнаружена только между долями в валюте баланса общего кредитного портфеля и кредитов нефинансовым организациям (коэффициент корреляции 0,99). Следовательно, из двух данных переменных следует выбрать только одну для включения ее в модель. Переменные обладают незначительно различающимися дискриминационными способностями и имеют распределения близкие к нормальным. Однако, среднее значение общей доли кредитов для банкротов ниже, чем для финансово устойчивых организаций (0,29 и 0,35 соответственно), что противоречит выдвинутой ранее гипотезе о наличии риска дефолта. Данное обстоятельство может быть объяснено тем, что обе категории организаций обладали одинаково хорошим качеством портфеля (доля просроченной задолженности для банкротов составила 7%, а для небанкротов 5%), а доля кредитов нефинансовым организациям в портфеле одинаково высока (для банкротов 96%, для небанкротов 97%). По сделанным ранее предположениям и по изменению среднего значения между категориями (для банкротов 28%, для небанкротов 34%), доля кредитов нефинансовым организациям в валюте баланса оказывает отрицательное влияние на вероятность банкротства. Тот факт, что они являются основной составляющей кредитного портфеля для обеих категорий, может быть объяснением изменившегося направления влияния общей доли кредитов. Кредиты реальному сектору, обладающие хорошим качеством, могут отражать эффективность работы банка и его надежность. В сложившейся ситуации в качестве возможного предиктора банкротства выбираем долю кредитов нефинансовым организациям.

Наглядно увидеть зависимость вероятности банкротства от различных переменных позволяет графический анализ. В Приложении 3 представлены диаграммы количества банков-банкротов и их доли в общем числе банков при разных значениях объясняющих факторов. Графический анализ показал, что доля банкротств значительно сокращается, когда доля собственных средств достигает 5%. Доля собственного капитала свыше 45% соответствует только финансово устойчивым банкам. Резкое снижение доли банкротств наступает после достижения доли ликвидных активов 10%. В выборке не было ни одного банка-банкрота с долей кредитов нефинансовым организациям, превышающей 55%.

В итоге, для построения модели было выбрано 5 объясняющих факторов: доли в валюте баланса собственных средств, ликвидных активов, кредитов нефинансовым организациям, вложений в государственные ценные бумаги и величина валюты баланса.
2.2 Решение проблемы несбалансированности данных

Число банков-банкротов в описанной выше выборке значительно ниже, чем банков-небанкротов (15%), что соответствует складывающейся в реальности ситуации, однако не допускает адекватного применения логистической регрессии. Следствием несбалансированности данных может стать низкая точность модели в классификации банков-банкротов. Возникает необходимость анализа влияния непропорциональности выборки на результаты, получаемые с использованием логит-моделей.

Проанализируем методы балансировки выборки, описанные в первой главе, и выберем наиболее подходящий для использования в данном исследовании. Составленная выборка включает в себя все банки, потерпевшие дефолт в исследуемый период, что не позволяет достичь пропорциональности за счет увеличения числа банков-банкротов. Уменьшение наблюдений, соответствующих функционирующим банкам, приведет к потере информации, содержащейся в исключенных элементах. Таким образом, при небольшом объеме имеющихся данных оптимальным является метод, основанный на составлении большого числа случайных сбалансированных подвыборок. При помощи эконометрического пакета R случайным образом формировалось 150 подвыборок. В каждую из них вошли все 30 банков-банкротов, которые дополнялись определенным числом произвольно выбранных банков-небанкротов. Основные этапы написанной в R программы, представлены в Приложении 4. Было рассмотрено 4 варианта формирования подвыборок в зависимости от того, каким числом банков-небанкротов дополнялись банки, потерпевшие дефолт. Доля банков-банкротов составляла 50% , 33% , 25% и 15% (базовый вариант с использованием всех имеющихся банков-небанкротов). Схожий метод балансировки выборки применяется в работах таких исследователей, как Карминский (Карминский и др., 2012), Лоузада (Lousada et al., 2012).

Оптимальная структура подвыборки будет выбрана с учетом значимости коэффициентов перед объясняющими факторами, общей точности классификации модели и взвешанного показателя эффективности. Данный анализ проводится на основе модели, построенной за 1 месяц до банкротства. В модель вошли показатели, отобранные в предыдущем разделе. Полученные оценки коэффициентов и их значимость для каждого варианта структуры подвыборки представлены в Таблице 4.
Таблица 4

Оценки коэффициентов для моделей с разной структурой выборки

Переменная

15% (базовый вариант)

25%

33%

50%

Доля собственных средств

-0,46***

(0,2)

-0,46***

(0,22)

-0,68**

(0,26)

-0,86**

(0,27)

Доля инвестиций в ГКО

2,16**

(0,47)

2,44**

(0,49)

2,92*

(0,69)

3,63

(0,68)

Доля ликвидных активов

-0,79***

(0,1)

-0,81***

(0,1)

-1,09***

(0,12)

-1,21***

(0,14)

Размер банка

-0,06**

(0,18)

-0,06**

(0,2)

-0,08**

(0,26)

-0,09*

(0,3)

Доля кредитов нефинансовым организациям

-0,69***

(0,13)

-0,69***

(0,13)

-0,92***

(0,17)

-1,05***

(0,17)

Константа

1,53***

(0,13)

1,53***

(0,13)

2,06***

(0,16)

2,34***

(0,18)

Значение в скобках представляет модуль коэффициента вариации. Количество звездочек отражает уровень значимости следующим образом: (*) 15%, (**) 5%, (***) 1%.
Балансировка выборки приводит к сокращению числа наблюдений в каждой подвыборке, что при построении нелинейной модели негативно сказывается на точности оценки коэффициентов. Сокращение размера подвыборки происходит за счет исключения из нее большего числа банков-небанкротов. Из Таблицы 4 видно, что с уменьшением числа наблюдений в выборке оценки коэффициентов становятся менее устойчивыми. Коэффициенты вариации (отношение стандартного отклонения к медианному значению) для доли ликвидных активов и кредитов нефинансовым организациям с 10% и 13% при базовом варианте возросли до 14% и 17% соответственно в случае пропорциональной выборки. Наиболее сильные изменения происходят с устойчивостью коэффициентов перед размером банка и долей вложений в ГКО (коэффициент вариации возрастает на 12% и 21% соответственно). Стоит отметить, что наиболее значимые коэффициенты демонстрируют высокий уровень устойчивости. Данная тенденция непосредственно отражается на значимости коэффициентов, которая также сокращается при снижении числа наблюдений. Средняя значимость доли собственного капитала падает с 1,7% до 3,3%, а размера банка — с 2% до 13,2%. С уменьшением значимости значения коэффициентов становятся все более размытыми, доверительные интервалы увеличиваются, что приводит к снижению точности получаемых оценок.

Другим критерием выбора структуры подвыборки служит точность классификации, которую демонстрирует модель. Для оценки качества построенных моделей необходимо установить пороговый уровень вероятности. С этой целью для моделей, построенных по каждой из подвыборок, находился уровень отсечения, который максимизирует прогнозную точность модели. Тестирование вероятности производилось с шагом в 1%. Ранее были представлены 2 показателя оценки качества модели: коэффициент общей точности и взвешенный коэффициент эффективности. Пороговая вероятность может быть рассчитана с учетом максимизации каждого показателя (Таблица 5 — на основе общей значимости, Таблица 6 — на основе взвешенного показателя). Оптимальный критический уровень вероятности находится в прямой зависимости от доли банков-банкротов в подвыборке. С ростом числа наблюдений пороговая вероятность снижается, что частично компенсирует несбалансированность выборки и способствует снижению числа ошибок II-рода. Пороговый уровень, рассчитанный с учетом общей точности модели, всегда превышает границу, основанную на взвешенном показателе эффективности. Использование второго подхода позволяет поддерживать чувствительность модели на максимально возможном уровне. Приведенные в Таблицах 5, 6 результаты говорят о том, что при любой пропорции выборки модель проявляет более высокую прогнозную точность при использовании пороговой вероятности, соответствующей коэффициенту общей эффективности. Таким образом, корректировки, которые необходимы для учета значимости ошибок II-рода, более эффективно проводить за счет балансировки выборки, нежели изменения порогового уровня вероятности.
Таблица 5

Классификационная таблица на основе общей значимости

Доля банков-банкротов

15% (базовый вариант)

25%

33%

50%




Факт

Факт

Факт

Факт

Модель

Небакрот

Банкрот

Небакрот

Банкрот

Небакрот

Банкрот

Небакрот

Банкрот

Небакрот

175

18

84

13

55

9

26

8

Банкрот

5

12

6

17

5

21

4

22

% Верно

97,2

40

93,3

56,7

91,7

70

86,7

73,3

% Всего верно

89

87,1

84,4

80

WE

28,23

41,88

47,7

49,6

Пороговая вероятность

0,37

0,46

0,48

0,49


Таблица 6

Классификационная таблица на основе взвешанного показателя

Доля банков-банкротов

15% (базовый вариант)

25%

33%

50%




Факт

Факт

Факт

Факт

Модель

Небакрот

Банкрот

Небакрот

Банкрот

Небакрот

Банкрот

Небакрот

Банкрот

Небакрот

170

14

78

10

49

7

21

5

Банкрот

10

16

12

20

11

23

9

25

% Верно

94,4

53,3

86,6

66,6

81,7

76,7

70

83,3

% Всего верно

88,6

81,7

80

76,6

WE

32,8

34

41,5

46,9

Пороговая вероятность

0,34

0,39

0,4

0,46


Вернемся к вопросу выбора оптимальной структуры подвыборки. С ростом числа наблюдений общая точность модели повышается незначительно, в то время как взвешенный показатель резко снижается. С учетом данного факта, а также изменяющейся значимости коэффициентов, наиболее приемлемой является подвыборка, состоящая из 30 банкротов и 60 небанкротов (33%). Общая точность модели несколько сократилась относительно варианта, основанного на несбалансированной выборке (с 89% до 84,4%). Минимальная точность, которую продемонстрировала модель по всем подвыборкам с выбранной структурой, составила 71%. Однако, взвешенный показатель эффективности возрос практически вдвое (с 28% до 48%). Увеличение доли банков-банкротов в каждой подвыборке позволило решить проблему недостаточной чувствительности модели, повысив ее уровень с 40% до 70%. Тем не менее, модель продолжает в большей степени проявлять свойство специфичности, нежели чувствительности.
1   2   3   4   5   6

Похожие:

Решение проблемы несбалансированности данных icon 1. Политика как общественное явление Политика это такая область деятельности...
Решение этих проблем осуществляется при помощи политических институтов, в совокупности представляющих собой определенное государственное...
Решение проблемы несбалансированности данных icon Решение проблемы возврата торговыми организациями хлеба и хлебобулочных...
Решение проблемы возврата торговыми организациями хлеба и хлебобулочных изделий поставщикам имеет важнейшее государственное и народнохозяйственное...
Решение проблемы несбалансированности данных icon Диссертация На тему «Формы визуализации данных на сайтах российских...
На тему «Формы визуализации данных на сайтах российских информационных агентств: проблемы и перспективы»
Решение проблемы несбалансированности данных icon 3. решение проблемы
Комплект переходников и шлангов для жидкостного способа очистки
Решение проблемы несбалансированности данных icon 3. решение проблемы
Комплект переходников и шлангов для жидкостного способа очистки
Решение проблемы несбалансированности данных icon Рекомендации по действиям заказчиков, направленным на решение проблемы,...
Рекомендации по действиям заказчиков, направленным на решение проблемы, связанной с неправильной публикацией в планах-графиках сведений...
Решение проблемы несбалансированности данных icon Решение проблемы альтернативного школьного питания для детей-аллергиков...

Решение проблемы несбалансированности данных icon Решение проблемы Калининградской области 12
Государственная поддержка регионов в предупреждении и ликвидации чрезвычайных ситуаций 44
Решение проблемы несбалансированности данных icon Рекомендации по действиям заказчиков, направленным на решение проблемы,...

Решение проблемы несбалансированности данных icon Решение задачи поиска данных
Обозначения и сокращения
Решение проблемы несбалансированности данных icon Решение проблемы
Из всех систем современных автомобилей наиболее чувствительной к разного рода загрязнениям является топливная система автомобиля
Решение проблемы несбалансированности данных icon 2 декабря 2015 05: 31 риа новости Москва
Тасс интервью: Сергей Аксенов: за эффективное решение энергетической проблемы готов уступить свое кресло
Решение проблемы несбалансированности данных icon Инструкция к программному обеспечению NewlyDraw Компания «юсто» +7 (812)
Если в устройстве найдены неисправности, пожалуйста, свяжитесь с уполномоченным представителем за оперативным решение проблемы
Решение проблемы несбалансированности данных icon I. Научно-методическое и практическое решение задач проблемы школы 2016/17 учебного года
Публичный отчет директора мбоу «Школа коррекции и развития VIII вида №37» г. Брянска
Решение проблемы несбалансированности данных icon 2. Решение Судебной Палаты по информационным спорам РФ о равноправии женщин. 209
Консорциум женских неправительственных объединений. Проблемы правовой защиты женщин от дискриминации в сфере труда и занятости
Решение проблемы несбалансированности данных icon Решение продовольственной проблемы в Российской Федерации, в частности...
«Надзор в области обеспечения качества и безопасности зерна и продуктов его переработки»

Руководство, инструкция по применению






При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск