Визуализация электоральных данных РФ — КиберПедия 

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Визуализация электоральных данных РФ

2018-01-04 102
Визуализация электоральных данных РФ 0.00 из 5.00 0 оценок
Заказать работу

Мы ранее видели, что гистограмма явки на выборы в Великобритании была приближенно нормально распределенной (хотя и с легкими хвостами). Теперь, когда мы загрузили и преобразовали данные о выборах в России, посмотрим, насколько они сопоставимы:

defex_1_30():

'''Показать гистограмму

электоральных данных по России'''

load_ru_victors()['Явка'].hist(bins=20)

plt.xlabel('Явка в России')

plt.ylabel('Частота')

plt.show()

Приведенный выше пример сгенерирует следующую гистограмму:

Эта гистограмма совсем не похожа на классические колоколообразные кривые, которые мы видели до сих пор. Имеется явно выраженная положительная асимметрия, и явка избирателей в действительности увеличивается с 80% в сторону 100%—совсем не то, что мы ожидали бы от нормально распределенных данных.

Учитывая ожидания, заданные данными из Британии и Центральной предельной теоремой (ЦПТ), такой результат любопытен. Для начала покажем данные наквантильном графике:

defex_1_31():

'''Показать квантильный график

победителя на выборах в РФ'''

qqplot(load_ru_victors()['Доляпобедителя'].dropna())

plt.show()

Этот пример вернет следующий график:

На квантильном графике показана линия, которая не является ни прямой, ни одной изS-образных кривых. По существу, квантильный график говорит о наличии легкого хвоста в верхнем конце распределения и тяжелого хвоста в нижнем. Это почти противоположно тому, что мы видим на гистограмме, которая четко указывает на крайне тяжелый правый хвост.

На самом деле, этотквантильный график дезориентирует, и происходит этот именно потому, что хвост очень тяжелый: плотность точек между 0.5 и 1.0 на гистограмме говорит о том, что пик должен составлять порядка 0.7 с последующим правым хвостом за пределами 1.0. Наличие значения, превышающего 100% явно выходит за рамки логики, но квантильный график не объясняет это (он не учитывает, что речь идет о процентах), так что внезапное отсутствие данных за пределами 1.0 интерпретируется как подрезанный правый хвост.

С учетом центральной предельной теоремы и того, что мы наблюдали в данных выборов в Великобритании, тенденция к 100% явке избирателей на выборы выглядит очень любопытно. Давайте выполним параллельный сопоставительный анализ наборов данных по Великобритании и России.

Сравнительная визуализация

Предположим, мы хотели бы сравнить распределение электоральных данныхмежду Великобританией и Россией. Мы уже видели в этой главе, как использовать ИФР и коробчатые диаграммы, поэтому теперь займемся исследованием альтернативного варианта, который аналогичен гистограмме.

Мы могли бы попытаться изобразить оба набора данных на гистограмме, но это будет безуспешной затеей, поскольку результаты не поддаются интерпретации по двум следующим причинам:

• Размеры избирательных округов, и, следовательно, средних значений распределений сильно отличаются

• Абсолютные количества избирательных округов настолько отличаются, что столбцы гистограмм будут иметь разную высоту

Вместо гистограммы альтернативным вариантом, позволяющим решить обе эти задачи, является функция массы вероятности.

Функции массы вероятности

Функция массы вероятности (ФМВ), от англ.ProbabilityMassFunction (PMF),чаще известная, как функция вероятности дискретной случайной величины, имеет много общего с гистограммой. Однако, вместо того, чтобы показывать количества значений, попадающих в группы, она показывает вероятность, что взятое из распределениячисло будет в точности равно заданному значению. Поскольку функция закрепляет вероятность за каждым значением, которое может быть возвращено распределением, и поскольку вероятности измеряются по шкале от 0 до 1, (где 1 соответствует полной определенности), то площадь под функцией массы вероятности равна 1.

Таким образом функция массы вероятности гарантирует, что площадь под нашими графиками будет между наборами данныхсопоставима. Однако у нас все еще имеется одно затруднение, которое заключается в том, что размеры избирательных округов—и поэтому средних значений распределений—несопоставимы. Это затруднение решается отдельно—при помощи нормализации.

Нормализация данных не связана с нормальным распределением. Этот термин обозначает общую задачу выравнивания одной или большего количества последовательностей значений. В зависимости от контекста оно может означать попросту корректировку значений таким образом, чтобы они находились в пределах одинакового диапазона, либо более сложные процедуры, которые обеспечивают, чтобы распределения данных были одинаковыми. В целом задача нормализации состоит в том, чтобы упростить сравнение двух или больше серий данных.

Существует неисчислимое количество способов нормализации данных, однако один из самых основных обеспечивает, чтобы каждый числовой ряд находился в диапазоне от 0 до 1. Ни одно наше значение не находится в отрицательном диапазоне, поэтому мы можем выполнить нормализацию, попросту разделив каждое индивидуальное значение на самое большое:

defplot_as_pmf(dt, label, ax):

'''График функции вероятности дискретной случайной величины

(или функции массы вероятности)'''

s = pd.cut(dt, bins=40, labels=False) # разбитьна 40 групп

pmf = s.value_counts().sort_index() / len(s)# подсчитатьквовгруппах

newax = pmf.plot(label=label, grid=True, ax=ax)

returnnewax

Имея в распоряжении приведенную выше функцию, мы теперь можем нормализовать данные по Великобритании и России и изобразить их рядом на тех же осях:

defex_1_32():

'''Сопоставление данных явки по Великобритании и РФ,

данные нормализованы на основе функции массы вероятностей'''

ax = plot_as_pmf(load_uk_victors()['Явка'], 'Великобритания', None)

plot_as_pmf(load_ru_victors()['Явка'], 'Россия', ax)

plt.xlabel('Интервальные группы явки')

plt.ylabel('Вероятность')

plt.legend(loc='best')

plt.show()

Приведенный выше пример сгенерирует следующийграфик:

После нормализации эти два распределения вполне готовы для проведения сопоставительного анализа. Теперь становится совершенно очевидным, каким образом—несмотря на более низкую среднюю явку, чем в Великобритании (0.6366против 0.6523)—на российских выборах произошел массивныйподъем явки близкий к 100%. Поскольку результаты голосования представляют собой объединенный эффект многих независимых волеизъявлений, они ожидаемо будут соответствовать центральной предельной теореме и будут приближенно нормально распределенными. В сущности, за редким исключением, как в Канаде, например, где население имеет гетерогенный характер (там французскоговорящая и англоговорящая группы населения в результате дают бимодальную кривую),результаты выборов по всему миру такому ожиданию обычно соответствуют.

Данные российских выборовпоказываютчрезвычайно аномальный результат, хотя и не настолько высокий, как модальный пик в центре распределения, который приблизительно соответствует 50% явке. Исследователь Питер Климек (PeterKlimek) и его коллеги в Венском медицинском университете пошли дальше и предположили, что этот результат является явным признаком подтасовки результатов голосования.

Точечные графики

Мы обнаружили любопытные результаты, связанные с явкой на российских выборах и установили, что они имеют сигнатуру, отличающуюся от британских выборов. Теперь посмотрим, каким образом доля голосов за побеждающего кандидата связана с явкой. В конце концов, если неожиданно высокая явка действительно является признаком нечестной игры в пользу действующего президента и правительства, то можно ожидать, что они будут голосовать за себя, а не за кого-либо еще. Таким образом, большинство, если не все, из этих дополнительных голосов ожидаемо будут отданы за итоговых победителей выборов.

В Главе 3, Корреляция, будут достаточно подробно рассмотрены статистики, лежащие в основе взаимосвязи двух переменных, однако на данный момент было бы интересно попросту визуализировать связь между явкой и долей голосов за побеждающую партию.

Заключительный прием визуализации, с которым мы познакомим в этой главе, представлен точечнымграфиком, или диаграммой рассеяния. Точечные графики очень хорошо подходят для визуализации взаимосвязей между двумя переменными: там, где существует линейная взаимосвязь, на графике она будет видна, как диагональная направленность. Библиотека Pandas содержит для этого вида графиков функцию scatter с такими же аргументами, что и для функции двумерных графиковplot.

defex_1_33():

'''Показать диаграмму рассеяния

выборов в Великобритании'''

df = load_uk_victors()[ ['Явка', 'Доля победителей'] ]

df.plot.scatter(0,1, s=3)

plt.xlabel('Явка')

plt.ylabel('Доляпобедителя')

plt.show()

Приведенный выше пример сгенерирует следующую диаграмму:

Хотя точки широко разбросаны в виде нечеткого эллипса, четко видна общая диагональная направленность к верхнему правому углу точечногографика. Она указывает на интересный результат—явка на выборы коррелирует с долей голосов, отданных за окончательных победителей на выборах, в то время, какожидалось получить обратный результат: наличия так называемого самодовольства избирателей, которое приводит к более низкой явке в случае, когда победитель гонки очевиден.

Как отмечалось ранее, британские выборы 2010 г. были далеко необычными: они привели к "подвисшему" парламенту и коалиционному правительству. Фактически, "победители" в данном случае представлены обеими сторонами, которые были противниками, вплоть до дня выборов. И поэтому голосование за любую из партий считается как голосование за победителя.

Затем, мы создадим такой же точечныйграфик для выборов в России:

defex_1_34():

'''Показать диаграмму рассеяния выборов в РФ'''

df = load_ru_victors()[ ['Явка', 'Доля победителя'] ]

df.plot.scatter(0, 1, s=3)

plt.xlabel('Явка')

plt.ylabel('Доляпобедителя')

plt.show()

Этот пример сгенерирует следующую диаграмму:

Хотяиз расположения точек в данных по России четко прослеживаетсядиагональная направленность, сплошной объем данных затеняет внутреннюю структуру. В последнем разделе этой главы мы покажем простой метод, который позволяет с помощью настройки прозрачности графического изображения вычленять структуру из графиков, подобных этому.


Поделиться с друзьями:

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.019 с.