Выборка, её представление и числовые характеристики — КиберПедия 

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...

Выборка, её представление и числовые характеристики

2017-09-30 210
Выборка, её представление и числовые характеристики 0.00 из 5.00 0 оценок
Заказать работу

ПРЕДВАРИТЕЛЬНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА.

ВЫЧИСЛЕНИЕ ОСНОВНЫХ ЧИСЛОВЫХ ХАРАКТЕРИСТИК
ВЫБОРКИ

Цель работы: Ознакомление со способами построения одномерных статистических рядов и способами их графического изображения. Вычисление основных числовых и функциональных характеристик выборки с использованием MS Excel, Statgraphics.

Содержание работы: на основе экспериментальных данных выполнить следующее:

· Произвести группировку данных;

· Построить гистограмму и полигон частот;

· Определить эмпирическую функцию распределения;

· Вычислить основные числовые характеристики выборки:

a) Выборочное среднее (average, mean);

b) Моду (mode);

c) Медиану (median);

d) Выборочную дисперсию (variance);

e) Выборочное среднее квадратичное отклонение (standard deviation);

f) Коэффициент асимметрии (skewness);

g) Коэффициент эксцесса (kurtosis).

· проверить гипотезу о значении среднего выборки;

· построить доверительные интервалы для среднего и среднеквадратичного отклонения;

· проверить гипотезу о законе распределения, используя критерии согласия Пирсона и Колмогорова.

Методические указания:

Понятия генеральной совокупности и выборки из неё являются первоначальными в статистике. Строгие определения пришли из теории вероятностей, хотя терминология математической статистики отличается от терминологии теории вероятностей.

В математической статистике вместо случайной величины x принято говорить о генеральной совокупности x, как о спектре[1] значений подразумеваемой случайной величины. И вместо распределения случайной величины рассуждают о распределении генеральной совокупности в интегральной или дифференциальной форме. Под интегральной формой понимается функция распределения , а под дифференциальной формой имеется в виду плотность распределения для непрерывной генеральной совокупности, либо ряд распределения дискретной генеральной совокупности.

При таком подходе понятие генеральной совокупности тождественно понятию случайной величины, т.е. включает в себя описание области определения (пространства элементарных исходов), множества значений, закона распределения.

Замечание. При нестрогом подходе, под генеральной совокупностью понимают множество всех объектов некоторого наблюдения в совокупности с множеством всех значений этого наблюдения, соответствующих каждому объекту. А под выборкой объёма n понимают множество из генеральной совокупности объектов, реально подвергшихся наблюдению, в совокупности с n значениями наблюдения для каждого объекта. Например, социолог, изучающий мнение избирателей, под генеральной совокупностью понимает множество всех избирателей данной страны, а под выборкой объёма n – множество из n человек, которых он опросил. Мы будем иметь в виду и такую точку зрения на генеральную совокупность.

В статистике о распределении генеральной совокупности всегда что-нибудь неизвестно, и целью статистического анализа как раз является восстановление недостающей информации. При этом все статистические выводы делаются по выборке X={x1, x2,..., xn} (другое обозначение выборки ) наблюдений из генеральной совокупности, где n называется объёмом выборки. Как правило, выборка подразумевается обычной, т.е. представляющей собой совокупность стохастически независимых и одинаково распределённых по закону генеральной совокупности наблюдений.

Основная задача статистики – получить обоснованные выводы о свойствах генеральной совокупности, анализируя извлечённую из неё выборку. Описать закон распределения генеральной совокупности, подобрать значения параметров этого закона, оценить всевозможные коэффициенты корреляции, если имеется несколько выборок, одинаково ли распределены генеральной совокупности или нет, одинаковы ли определённые числовые характеристики этих генеральных совокупностей или нет и т.д., и т.п.

Все перечисленные вопросы сформулированы на языке теории вероятностей. От статистики требуют ответы и на другие вопросы, можно ли утверждать, что новое лекарство эффективнее излечивает от некоторой болезни, чес старое? Какой будет численность населения страны в следующем году? Существует ли связь между значениями предела прочности и предела текучести различных марок стали? Чтобы ответить на подобные вопросы, нужно уметь строить подходящие вероятностные модели для реальных ситуаций. А для этого нужно уметь представлять выборку в подходящем для изучения виде. Возникает задача описания и представления выборки.

Наконец, располагая сведениями о свойствах генеральной совокупности, можно предсказать свойства повторно извлечённых из неё выборок, т.е. заглянуть в будущее [1, с. 7-8].

Summary Statistics for X

Count = 80;

Average = 40,3506;

Median = 40,35;

Mode = 40,34;

Variance = 0,00176543;

Standard deviation = 0,042017;

Minimum = 40,26;

Maximum = 40,44;

Skewness = 0,276444;

Stnd, skewness = 1,00943;

Kurtosis = -0,36487;

Stnd, kurtosis = -0,666158.

The StatAdvisor

This table shows summary statistics for X. It includes measures of central tendency, measures of variability, and measures of shape. Of particular interest here are the standardized skewness and standardized kurtosis, which can be used to determine whether the sample comes from a normal distribution. Values of these statistics outside the range of -2 to +2 indicate significant departures from normality, which would tend to invalidate any statistical test regarding the standard deviation. In this case, the standardized skewness value is within the range expected for data from a normal distribution. The standardized kurtosis value is within the range expected for data from a normal distribution.

Эта таблица показывает сводную статистику для выборки X. Он включает меры центральной тенденции, меры изменчивости, а также меры по форме. Особый интерес здесь стандартизированных асимметричности и эксцесса стандартизированы, которые могут быть использованы для определения образцов происходит от нормального распределения. Значения этих статистика за пределы диапазона от -2 до +2 указывают на значительные отклонения от нормального закона, которое может привести к аннулированию статистических испытаний в отношении стандартного отклонения. В этом случае, стандартизированные значения асимметрии находится в пределах ожидаемых данных для нормального распределения. Стандартизированные значения эксцесса находится в пределах ожидаемых данных для нормального распределения.

Осуществим процедуру группирования, используя возможности пакета Statgraphics. Активизируем диалоговое окно для выбора табличных опций с помощью пиктограммы и выбираем процедуру Frequency Tabulation. На экране отобразится окно с результатом распределения частот. Для того чтобы изменить параметры распределения (задать число интервалов, нижнюю и верхнюю границу), в контекстном меню выберите пункт Pane Option рис. 9.

Рис. 9. Параметры процедуры группирования

Результат группирования и гистограмма представлены на рис. 10 и 11 соответственно.

Рис. 10. Таблица частот выборки

Рис. 11. Гистограмма содержания меди

Замечание. Можно построить гистограммы двух типов. Гистограммы абсолютных частот ni и гистограммы частот в процентах (процентная гистограмма, где относительные частоты ni/n умножаются на 100).

Рис.12. Полигон

Рис 13. Эмпирическая функция распределения содержания меди
(гистограмма накопленной относительной частоты в процентах)

Рис. 14. Процентная нормированная эмпирическая функция распределения содержания меди

(полигон накопленной относительной частоты в процентах)

Варианты заданий

Варианты заданий для данной лабораторной работы находятся в файле Лабораторная работа№1_задан_17.

Литература

1. И.А. Палий. Прикладная статистика: Учеб. пособие для вузов./И.А. Палий. – М.: Высш. шк., 2004. – 176 с.

2. Сборник задач по математике для втузов. Под редакцией А.В. Ефимова. – М.: Наука,, 1990. – 428 с.

3. Основы кибернетики. Математические основы кибернетики. Под ред. К.А. Пупкова. Учебное пособие для втузов. – М., ВШ, 1974. с. 416.

4. Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. – Л.: Энергоатомиздат. Ленигр. отд-ние, 1990 г. – 288 с.

5. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: ВШ, 1977 г.

6. В. Дюк, А. Самойленко. Data Mining: учебный курс (+CD). – СПб: Питер, 2001. – 368 с.: ил.

7. Дюк Вячеслав. Обработка данных на ПК. – М.: 1997 г. – 234 с.

8. В.П. Леонов. Обработка экспериментальных данных на программируемых микрокалькуляторах (прикладная статистика). Практическое пособие. Под редакцией Б.А. Гладких. – Томск, издательство Томского университета, 1990. – 376 с.

 


[1] [лат. Spectrum видимое, видение] – совокупность всех значений какой-либо величины, характеризующей систему или процесс

[2] этот термин был впервые введен Пирсоном в 1905 г.

ПРЕДВАРИТЕЛЬНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА.

ВЫЧИСЛЕНИЕ ОСНОВНЫХ ЧИСЛОВЫХ ХАРАКТЕРИСТИК
ВЫБОРКИ

Цель работы: Ознакомление со способами построения одномерных статистических рядов и способами их графического изображения. Вычисление основных числовых и функциональных характеристик выборки с использованием MS Excel, Statgraphics.

Содержание работы: на основе экспериментальных данных выполнить следующее:

· Произвести группировку данных;

· Построить гистограмму и полигон частот;

· Определить эмпирическую функцию распределения;

· Вычислить основные числовые характеристики выборки:

a) Выборочное среднее (average, mean);

b) Моду (mode);

c) Медиану (median);

d) Выборочную дисперсию (variance);

e) Выборочное среднее квадратичное отклонение (standard deviation);

f) Коэффициент асимметрии (skewness);

g) Коэффициент эксцесса (kurtosis).

· проверить гипотезу о значении среднего выборки;

· построить доверительные интервалы для среднего и среднеквадратичного отклонения;

· проверить гипотезу о законе распределения, используя критерии согласия Пирсона и Колмогорова.

Методические указания:

Понятия генеральной совокупности и выборки из неё являются первоначальными в статистике. Строгие определения пришли из теории вероятностей, хотя терминология математической статистики отличается от терминологии теории вероятностей.

В математической статистике вместо случайной величины x принято говорить о генеральной совокупности x, как о спектре[1] значений подразумеваемой случайной величины. И вместо распределения случайной величины рассуждают о распределении генеральной совокупности в интегральной или дифференциальной форме. Под интегральной формой понимается функция распределения , а под дифференциальной формой имеется в виду плотность распределения для непрерывной генеральной совокупности, либо ряд распределения дискретной генеральной совокупности.

При таком подходе понятие генеральной совокупности тождественно понятию случайной величины, т.е. включает в себя описание области определения (пространства элементарных исходов), множества значений, закона распределения.

Замечание. При нестрогом подходе, под генеральной совокупностью понимают множество всех объектов некоторого наблюдения в совокупности с множеством всех значений этого наблюдения, соответствующих каждому объекту. А под выборкой объёма n понимают множество из генеральной совокупности объектов, реально подвергшихся наблюдению, в совокупности с n значениями наблюдения для каждого объекта. Например, социолог, изучающий мнение избирателей, под генеральной совокупностью понимает множество всех избирателей данной страны, а под выборкой объёма n – множество из n человек, которых он опросил. Мы будем иметь в виду и такую точку зрения на генеральную совокупность.

В статистике о распределении генеральной совокупности всегда что-нибудь неизвестно, и целью статистического анализа как раз является восстановление недостающей информации. При этом все статистические выводы делаются по выборке X={x1, x2,..., xn} (другое обозначение выборки ) наблюдений из генеральной совокупности, где n называется объёмом выборки. Как правило, выборка подразумевается обычной, т.е. представляющей собой совокупность стохастически независимых и одинаково распределённых по закону генеральной совокупности наблюдений.

Основная задача статистики – получить обоснованные выводы о свойствах генеральной совокупности, анализируя извлечённую из неё выборку. Описать закон распределения генеральной совокупности, подобрать значения параметров этого закона, оценить всевозможные коэффициенты корреляции, если имеется несколько выборок, одинаково ли распределены генеральной совокупности или нет, одинаковы ли определённые числовые характеристики этих генеральных совокупностей или нет и т.д., и т.п.

Все перечисленные вопросы сформулированы на языке теории вероятностей. От статистики требуют ответы и на другие вопросы, можно ли утверждать, что новое лекарство эффективнее излечивает от некоторой болезни, чес старое? Какой будет численность населения страны в следующем году? Существует ли связь между значениями предела прочности и предела текучести различных марок стали? Чтобы ответить на подобные вопросы, нужно уметь строить подходящие вероятностные модели для реальных ситуаций. А для этого нужно уметь представлять выборку в подходящем для изучения виде. Возникает задача описания и представления выборки.

Наконец, располагая сведениями о свойствах генеральной совокупности, можно предсказать свойства повторно извлечённых из неё выборок, т.е. заглянуть в будущее [1, с. 7-8].

Выборка, её представление и числовые характеристики

Пусть имеется выборка X={x1, x2,..., xn} объёма n (под объёмом выборки понимается число её элементов), которая понимается как последовательность n результатов независимых измерений при одинаковых условиях, где xi – значение, которое приняла случайная величина в i – ом опыте (выборочное значение).

Опр. Результаты наблюдений x1, x2,..., xn расположенные в порядке возрастания называют вариационным рядом.

Таблица частот и интервальная таблица частот

Небольшие выборки удобно представлять в виде таблицы из двух строк. В первой строке записывают элементы выборки (они называются вариантами), расположенные в порядке возрастания. Во второй строке записывают частоты вариант. Частотой варианты называется число, равное количеству повторений варианты в выборке. По аналогии с теорией вероятностей такую таблицу называют статистическим рядом распределения.

Пусть выборка x1, x2,..., xn содержит r различных чисел z1, z2,..., zr, причём zi встречается ni раз (i=1,2, …, r). Число ni называется частотой элемента выборки zi. Очевидно, что .

Статистическим рядом (таблицей частот) называется последовательность пар (zi, ni). Обычно статистический ряд записывается в виде таблицы 1, первая строка которой содержит элементы zi,, а вторая – их частоты.

Таблица 1

Варианты выборки, zi z1 z2 ... zr
Частоты, ni n1 n2 ... nr

где r – число различных значений выборки.

Пример 1. Записать в виде вариационного и статистического рядов выборку 5, 3, 7, 10, 5, 5, 2, 10, 7, 2, 7, 7, 4, 2, 4. Определить размах выборки [2, с.179].

Число элементов в выборке, т.е. объём выборки n=15. Упорядочив элементы выборки по возрастанию, получим вариационный ряд: 2, 2, 2, 3, 4, 4, 5, 5, 5, 7, 7, 7, 7, 10, 10. Разность между максимальным и минимальным элементами выборки называется размахом выборки:

R =10-2=8.

Различными в заданной выборке являются элементы 2, 3, 4, 5, 7, 10; и их частоты соответственно равны 3, 1, 2, 3, 4, 2. Следовательно, статистический ряд исходной выборки можно записать в виде следующей таблицы (см. табл. 2).

Таблица 2. Таблица частот (статистический ряд распределения)

zi            
ni            

Для контроля правильной записи находим n1+n2+n3+n4+n5+n6=n=15.

Пример 2. С производственной линии случайным образом 36 раз отбирали 10 единиц некоторого изделия. Получена выборка см. табл.3

Таблица 3. Выборка

                 
                 
                 
                 

Определяем объём выборки. Здесь объём выборки n =36, в выборке представлены 4 варианты: z1=0, z2=1, z3=2, z4=3. Определим частоты появления вариант и построим таблицу частот (см. табл. 4):

Таблица 4. Таблица частот

z i        
n i        

Кроме абсолютных частот определяют относительные частоты. Относительной частотой варианты zi называется число pi, равное отношению ni/n (см. табл. 5). В теории вероятностей данное отношение называют статистической вероятностью.

Таблица 5. Таблица относительных частот

zi        
pi =ni/n 21/36 11/36 3/36 1/36

Отметим, что таблица относительных частот напоминает таблицу вероятностей дискретной случайной величины. Встречается и такое название этой таблицы: ряд распределения дискретной случайной величины (см. таблицы 6). Следовательно, здесь должно выполняться условие нормировки:

.

Накопленной частотой nx называется число вариант выборки, меньших данного числа x.

Относительной накопленной частотой px называется отношение nx/n. Найдём накопленные и относительные накопленные частоты вариант для нашего примера

Таблица 6. Таблица накопленных частот

zi        
ni        
nx        
pxi = nxi/n 21/36 32/36 35/36 36/36

Если выборка извлечена из непрерывно распределённой генеральной совокупности, причём её объём n достаточно велик, то в выборке представлено много значений, и такую выборку неразумно представлять в виде таблицы частот. Кроме того, при работе с непрерывными распределенными случайными величинами рассматривают не отдельные значения этих величин, а некоторые интервалы этих значений. Поэтому достаточно большую выборку, извлечённую из непрерывного распределения генеральной совокупности, группируют по интервалам следующим образом. Весь диапазон значений вариант разбивают на разумное число интервалов одинаковой, как правило, ширины h. Чтобы не было недоразумений при подсчёте числа вариант выборки, попавших в каждый интервал, левый конец каждого интервала считают закрытым, а правый – открытым, так что интервалы имеют вид [xi-1, xi).

Частотой i-го интервала ni называется число, равное количеству значений выборки, попавших в этот интервал. Пример построения интервальной таблицы рассмотрен ниже в теме «Функциональные характеристики выборки » на стр. 11.

На основании выборочных значений можно строить эмпирические аналоги характеристик случайной величины, как функциональных – функции и плотности распределения, так и числовых – параметров и моментов распределения. Оценки параметров распределения являются функциями от выборочных значений и называются статистиками. Выборочная функция распределения ступенчатая, со скачками в точках xi, является статистическим аналогом функции распределения F(x) генеральной совокупности.


Поделиться с друзьями:

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.053 с.