Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Устройство и оснащение процедурного кабинета: Решающая роль в обеспечении правильного лечения пациентов отводится процедурной медсестре...

Выпускная квалификационная работа: Основная часть ВКР, как правило, состоит из двух-трех глав, каждая из которых, в свою очередь...

Характеристика АТП и сварочно-жестяницкого участка: Транспорт в настоящее время является одной из важнейших отраслей народного хозяйства...

Интересное:

Национальное богатство страны и его составляющие: для оценки элементов национального богатства используются...

Финансовый рынок и его значение в управлении денежными потоками на современном этапе: любому предприятию для расширения производства и увеличения прибыли нужны...

Аура как энергетическое поле: многослойную ауру человека можно представить себе подобным...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Добавление производных столбцов

2018-01-04

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 7 из 9Следующая ⇒

Чтобы выяснить, какой процент электората проголосовал за одну из двух партий, требуется вычислить сумму голосов, отданных за каждую из них. Для этого нам понадобится создать новое поле данныхVictors(Победители) из данных, которые соответствуют Консервативной (Con) и Либерально-демократической (LD) партиям и заодно проверим, имеются ли пропущенные значения.

defex_1_26():

'''Вычислить производное поле данных "Победители" и

число имеющихся в нем пропущенных значений'''

df = load_uk_scrubbed()

df['Победители'] = df['Con'] + df['LD']

freq = Counter(df['Con'].apply(lambda x: x > 0))

print('Поле "Победители": %d, в т.ч. пропущено %d'

% (freq[True], freq[False]))

# Поле "Победители": 631, в т.ч. пропущено 19

Результат показывает, что в 19 случаях даные отсутствуют.Очевидно, чтов каком-то из столбцов: столбцеCon либо столбцеLD (либо обоих), данные отсутствуют, но в каком именно? Снова воспользуемся словарем Counter, чтобы увидеть масштаб проблемы:

'''Проверить пропущенные значения в полях

"Консервативная партия" (Con) и

"Либерально-демократическая партия" (LD)'''

df = load_uk_scrubbed()

Counter(df['Con'].apply(lambda x: x > 0)),

Counter(df['LD'].apply(lambda x: x > 0))

# (Counter({False: 19, True: 631}), Counter({False: 19, True: 631}))

В обоих случаях будет выведено одинаковое число строк, в которых значения есть, и в которых они отсутствуют. Воспользуемся предикативной функцией isnull, которую мы уже встречали ранее в этой главе, чтобы узнать, какие строки не содержат значений:

defex_1_27():

'''Выборка полей данных по условию, что поля

"Консервативная партия" (Con) и

"Либерально-демократическая" (LD) не пустые'''

df = load_uk_scrubbed()

rule = df['Con'].isnull() &df['LD'].isnull()

return df[rule][['Region', 'Electorate', 'Con', 'LD']]

	Region	Electorate	Con	LD
	NorthernIreland	60204.0	NaN	NaN
	NorthernIreland	73338.0	NaN	NaN
	NorthernIreland	63054.0	NaN	NaN
…	…	…	…	…
	NorthernIreland	64594.0	NaN	NaN
	NorthernIreland	74732.0	NaN	NaN

Небольшоеобследование данных должноопределить причину, почему эти поля оказались пустыми. Как оказалось, кандидаты в соответствующих избирательных округах не выдвигались. Следует ли эти строки отфильтровать или же оставить как есть, равными нулю? Это интересный вопрос. Давайте их отфильтруем, поскольку вообще-то невозможно, чтобы в этих округах избиратели выбрали какого-либокандидата, неважно от либеральных демократов или консерваторов. Если же мы напротивдопустили, что они равны нулю, то среднее количество людей, которое—при заданных вариантах выбора—проголосовало за одну из этих партий, было бы искусственно занижено.

Зная, как фильтровать проблемные строки, теперь добавим производные столбцы, которые будут представлять победителя, долю голосов за победителя и явку на выборы. Отфильтруем строки так, чтобы показать только те, где были выдвинуты кандидаты от обеих партий:

defload_uk_victors():

'''Загрузить данные по Великобритании,

выбрать поля и отфильтровать'''

df = load_uk_scrubbed()

rule = df['Con'].notnull()

df = df[rule][['Con', 'LD', 'Votes', 'Electorate']]

df['Победители'] = df['Con'] + df['LD']

df['Доля победителей'] = df['Победители'] / df['Votes']

df['Явка'] = df['Votes'] / df['Electorate']

returndf

В результате в нашем наборе данных теперь имеется три дополнительных столбца: Victors, VictorsShareи Turnout, т.е. победители, доля победителей и явка на выборы. Покажем на квантильном графике долю голосов за победителя, чтобы увидеть, как она соотносится с теоретическим нормальным распределением:

defex_1_28():

'''Показать квантильный график победителей

на выборах в Великобритании'''

qqplot(load_uk_victors()['Доля победителей'])

plt.show()

Приведенный вышепример создаст следующийграфик:

Основываясь на сводномграфике разных форм кривых квантильных графиков, показанном ранее в этой главе, можно заключить, что доля голосов, отданных за победителя, имеет "легкие хвосты" по сравнению с нормальным распределением. Это означает, что ближе к среднему значению расположено больше данных, чем можно было бы ожидать, исходя из действительно нормально распределенных данных.

⇐ Предыдущая 1 2 3 4 5 678 9 Следующая ⇒

Поделиться с друзьями:

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...