Формулы расчета доверительных вероятностей объем выборки. Как определить оптимальный размер выборки массового опроса

где – среднее значение выборки, Z - значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2 , σ - стандартное отклонение генеральной совокупности, n – объем выборки

Скачать заметку в формате или , примеры в формате

В этой формуле величина, добавляемая и вычитаемая из равна половине длины интервала. Она определяет меру неточности оценки, возникающей вследствие ошибки выборочного исследования, которая обозначается символом е и вычисляется по формуле

Решив уравнение (2) относительно n , получим:

На практике вычислить эти величины непросто. Как определить доверительный уровень и ошибку выборочного исследования? Обычно ответить на этот вопрос могут лишь эксперты в предметной области (т.е. люди, понимающие смысл оцениваемых величин). Как правило, доверительный уровень равен 95% (в этом случае Z = 1,96). Если требуется поднять доверительный уровень, обычно выбирают величину, равную 99%. Если можно ограничиться более низким доверительным уровнем, выбирают 90%. Определяя ошибку выборочного исследования, не стоит думать о ее величине (в принципе, любая ошибка нежелательна). Следует задать такую ошибку, чтобы полученные результаты допускали разумную интерпретацию.

Кроме доверительного уровня и ошибки выборочного исследования, необходимо знать стандартное отклонение генеральной совокупности. К сожалению, этот параметр почти никогда не известен. В некоторых случаях стандартное отклонение генеральной совокупности можно оценить на основе предшествующих исследований. В других ситуациях эксперт может учесть размах выборки и распределение случайной переменной. Например, если генеральная совокупность имеет нормальное распределение, ее размах приближенно равен 6σ (т.е. ±3σ в окрестности математического ожидания). Следовательно, стандартное отклонение приближенно равно одной шестой части диапазона. Если величину σ невозможно оценить таким способом, необходимо выполнить пилотный проект и вычислить стандартное отклонение по результатам.

Пример 1. Вернемся к задаче об аудиторской проверке. Предположим, что из информационной системы извлечена выборка, состоящая из 100 накладных, заполненных в течение последнего месяца. Компания желает построить интервал, содержащий математическое ожидание генеральной совокупности, доверительный уровень которого равен 95%. Как был определен объем выборки? Следует ли его уточнить?

Допустим, что после консультаций с экспертами, работающими в компании, статистики установили допустимую ошибку выборочного исследования равной ±5 долл., а доверительный уровень - 95%. Результаты предшествующих исследований свидетельствуют, что стандартное отклонение генеральной совокупности приближенно равно 25 долл. Таким образом, е = 5, σ = 25 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (3) получаем:

Следовательно, n = 96. Таким образом, объем выборки, равный 100, был выбран удачно и вполне соответствует требованиям, выдвинутым компанией.

Пример 2. Некая промышленная компания на Среднем Западе производит электрические изоляторы. Если во время работы изолятор выходит из строя, происходит короткое замыкание. Чтобы проверить прочность изолятора, компания проводит испытания, в ходе которых определяется максимальная сила, необходимая для разрушения изолятора. Сила измеряется в фунтах нагрузки, приводящей к разрушению изолятора (рис. 1, столбец А). Предположим, что нам необходимо оценить среднюю силу разрушения изолятора с точностью +25 фунтов при 95%-ном доверительном интервале для этой величины. Данные, полученные в предыдущем исследовании, свидетельствуют, что стандартное отклонение равно 100 фунтов. Определите требуемый объем выборки.

Решение. Итак, е = 25, σ =100, доверительный уровень 95% (т.е. Z = 1,96) (рис. 1).

Рис. 1. Определение объема выборки

Таким образом, n = 62 (дробные результаты, как правило, округляют с избытком до ближайшего целого).

Определение объема выборки для оценки доли признака в генеральной совокупности

Выше мы рассмотрели способ определения объема выборки для оценки математического ожидания генеральной совокупности. Предположим теперь, что нам необходимо определить долю накладных, не соответствующих правилам, принятым компанией (начальные условия см. пример 1 выше). Сколько накладных следует извлечь из информационной системы, чтобы построенный интервал имел заданный доверительный уровень? Для ответа на этот вопрос применим тот же подход, что и при определении объема выборки для оценки математического ожидания.

Ошибка выборочного исследования определяется по формуле (2). При оценке доли признака величину σ следует заменить на величину . Таким образом, формула для ошибки выборочного исследования принимает следующий вид:

Выражая n через остальные величины, получаем следующую формулу:

Таким образом, для определения объема выборки необходимо знать три параметра:

  1. Требуемый доверительный уровень, по которому определяется величина Z .
  2. Допустимую ошибку выборочного исследования е .
  3. Истинную долю успехов р .

На практике вычислить эти величины нелегко. Если известен доверительный уровень, можно вычислить критическое значение стандартизованного нормального распределения Z . Ошибка выборочного исследования е определяет точность, с которой оценивается доля успехов в генеральной совокупности. Третий параметр - доля успехов в генеральной совокупности р - это именно тот параметр, который нам необходимо оценить. Итак, как оценить диапазон изменения величины р по его выборочным значениям?

Существуют два способа. Во-первых, во многих ситуациях для оценки величины р можно использовать результаты предыдущих исследований. Во-вторых, если данные о предыдущих исследованиях недоступны, можно попытаться оценить параметр р так, чтобы исключить недооценку объема выборки. Обратите внимание на то, что в формуле (5) величина р(1 – р) стоит в числителе. Следовательно, необходимо найти максимальное значение этой величины. Очевидно, что оно достигается при р = 0,5.

Таким образом, если доля признака в генеральной совокупности р заранее неизвестна, для определения объема выборки следует задать р = 0,5. В этом случае объем выборки будет переоценен, что приведет к дополнительным затратам на ее создание. Если истинная доля успехов в генеральной совокупности сильно отличается от 0,5, доверительный интервал окажется значительно уже, чем требовалось. Оценка параметра р в этом случае будет весьма точной, однако за это придется заплатить дополнительными временны ми и финансовыми ресурсами.

Вернемся к задаче об аудиторской проверке. Предположим, аудитор желает построить интервал, содержащий долю ошибочных накладных, доверительный уровень которого равен 95%. Допустимая точность равна ±0,07. Результаты предыдущих проверок свидетельствуют, что доля ошибочных накладных не превышает 0,15. Таким образом, е = 0,07, р = 0,15 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (5) получаем:

Таким образом, объем выборки, равный 100, был выбран совершенно правильно и вполне соответствует требованиям, выдвинутым компанией.

Определение объема выборки, извлекаемой из конечной генеральной совокупности

Для определения объема выборки, извлеченной из конечной генеральной совокупности без возвращения, необходимо использовать поправочный коэффициент. Например, при оценке математического ожидания выборочная ошибка вычисляется по следующей формуле:

При оценке доли признака ошибка выборочного исследования равна:

Чтобы вычислить объем выборки для оценки математического ожидания или доли признака, применяются формулы:

где n 0 - объем выборки без учета поправочного коэффициента для конечной генеральной совокупности. Применение поправочного коэффициента приводит к следующей формуле:

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 471–476

Для определения размера выборки используется величина Z , а не t , поскольку для вычисления критического значения t размер выборки необходимо знать заранее. В большинстве случаев размеры выборки позволяют хорошо аппроксимировать t -распределение стандартизованным нормальным распределением.

Интервал c доверительным уровнем 95% делится на две равные части. Первая часть лежит слева от математического ожидания генеральной совокупности, а вторая - справа. Значение величины Z, соответствующей вероятности 2,5% (площади 0,025), равно –1,96, а значение величины Z, соответствующей суммарной площади 0,975, равно +1,96. Для расчета удобно воспользоваться функцией Excel Z =НОРМ.СТ.ОБР(р), где р – вероятность, подставляя значения р 1 = 2,5% и р 2 = 97,5%

Населения нередко проводятся среди больших групп людей. Зачастую ошибочным является представление о том, что достоверность результатов будет выше, если на вопросы ответит каждый член общества. Вследствие огромных временных, денежных затрат и трудоемкости такое обследование оказывается неприемлемым. С ростом численности респондентов не только увеличатся расходы, но и возрастет риск получения неверных данных. С практической точки зрения множество анкетеров и кодировщиков снизят вероятность достоверного контроля их действий. Такой опрос называется сплошным.

В социологии чаще всего применяется несплошное исследование, или выборочный метод. Результаты его могут распространяться на большую совокупность людей, которая именуется генеральной.

Определение и значение выборочного метода

Выборочный метод- это количественный способ отбора части исследуемых единиц из общей массы, при этом итоги обследования будут распространяться и на каждого индивида, не принявшего участия в этом.

Выборочный метод является и предметом научного исследования, и учебной дисциплиной. Он выступает средством получения достоверной информации о генеральной совокупности и помогает дать оценку всех ее параметров. Условия отбора единиц влияют в последующем на статистический анализ результатов. Если выборочные процедуры осуществлены некачественно, использование даже самых надежных методов обработки собранной информации окажется бесполезным.

Ключевые понятия теории выбора

Называют взаимосвязь единиц, относительно которых формулируются выводы выборочного исследования. В качестве нее могут выступать жители одной страны, конкретного населенного пункта, рабочий коллектив предприятия и т. д.

Выборочную совокупность (или выборку) составляет часть генеральной, которая была выделена с использованием специальных методик и критериев. Например, в процессе формирования учитываются статистические критерии.

Количество индивидов, вошедших в ту или иную совокупность, называют ее объемом. Но он может быть выражен не только числом людей, но и избирательными участками, населенными пунктами, то есть определенно крупными единицами, включающими в себя единицы наблюдения. Но это уже является многоступенчатой выборкой.

Единицей отбора являются составные части генеральной совокупности, ими могут быть как непосредственно единицы наблюдения (одноступенчатая выборка), так и более крупные формирования.

Большую роль в получении достоверных результатов исследования с применением выборочного метода является такое свойство, как репрезентативность отбора. То есть часть генеральной совокупности, ставшая респондентами, должна полностью воспроизводить все ее характеристики. Любое отклонение признается ошибкой.

Этапы применения выборочного метода

Каждое эмпирическое состоит из этапов. В случае применения выборочного метода их очередность будет выстроена следующим образом:

  1. Создание проекта выборки: устанавливается генеральная совокупность, характеризуются процедуры выбора, объемы.
  2. Реализация проекта: в ходе сбора социологической информации происходит выполнение анкетерами заданий с указанием способом отбора респондентов.
  3. Выявление и корректировка ошибок репрезентативности.

Типы выборок в социологии

После определения генеральной совокупности исследователь переходит к выборочным процедурам. Они могут разделяться по двум видам (критериям):

  1. Роль вероятностных законов в ходе осуществления выборки.
  2. Количество ступеней отбора.

Если применять первый критерий, то выделяют метод случайной выборки и неслучайный отбор. На основании последнего можно утверждать, что выборка может быть одноступенчатой и многоступенчатой.

Типы выборокпрямым образом отражаются не только на этапах подготовки и проведения исследования, но и на его результатах. Прежде чем отдать предпочтение одному из них, следует разобраться в содержании понятий.

Определение «случайный» в бытовом применении получило совершенно противоположенное значение, чем в математике. Такой отбор осуществляется по строгим правилам, не допускается никакое отступление от них, так как важно обеспечить каждой единице генеральной совокупности одинаковые шансы быть включенной в выборку. При несоблюдении данных условий эта вероятность будет разной.

В свою очередь случайная выборка подразделяется на:

  • простую;
  • механическую (систематическую);
  • гнездовую (серийную, кластерную);
  • стратифицированную (типическую или районированную).

Простой выборочный метод осуществляется при помощи таблицыслучайных чисел. Первоначально определяется объем выборки; создается полный перечень пронумерованных респондентов, входящих в генеральную совокупность. Используются для отбора специальные таблицы, содержащиеся в математико-статистических изданиях. Любые отличные от них применять запрещается. Если объем выборкипредставляет трехзначное число, то номер каждой единицы отбора должен быть трехзначным, а именно: от 001 до 790. Последнее число означает общее количество человек. В исследовании примут участие те люди, которым был присвоен номер в указанном диапазоне, встречающийся в таблице.

Систематический отбор основан на вычислениях. Предварительно составляется алфавитный список всех элементов генеральной совокупности, устанавливается шаг и только потом - объем выборки. Формула для шагапредставлена следующим образом:

N: n, где N - генеральная совокупность, а n - выборка.

Например, 150 000: 5 000 = 30. Таким образом, каждый тридцатый человек будет отобран для участия в опросе.

Сущность гнездового типа

Гнездовая выборка используется в условиях, если исследуемая совокупность людей состоит из маленьких по числу естественных групп. В таком случае следует учесть, что на первом шаге определяется списочное количество таких гнезд. При помощи таблицы случайных чисел происходит отбор и проводится сплошной опрос всех респондентов, состоящих в каждом отобранном гнезде. При этом чем больше их приняло участие в исследовании, чем меньше средняя ошибка выборки. Однако использовать такую методику возможно при условии наличия схожего признака у изучаемых гнезд.

Сущность стратифицированного выбора

Стратифицированная выборка отличается от предыдущих тем, что накануне отбора генеральная совокупность разбивается на страты, то есть однородные части, имеющие общий признак. Например, уровень образования, электоральные предпочтения, уровень удовлетворенности различными сторонами жизни. Самым простым вариантом является разделение испытуемых по полу и возрасту. Принципиально необходимо провести отбор таким образом, чтобы из каждой страты было выделено число лиц, пропорциональное общему количеству.

Объем выборки в таком случае может быть меньшим, чем в ситуации со случайным отбором, но при этом репрезентативность будет выше. Следует признать, что стратифицированная выборка будет самой затратной в финансовом и информационном плане, а гнездовая - самой выгодной в этом плане.

Неслучайная квотная выборка

Существует также квотная выборка. Она - единственный вид неслучайного отбора, который имеет математическое обоснование. Квотная выборка формируется из единиц, которые должны быть представлены пропорциями и соответствовать генеральной совокупности. В таким виде осуществляется целенаправленное распределение признаков. Если в числе исследуемых признаков выступают мнения, оценки людей, то квотными являются зачастую пол, возраст, образование респондентов.

В социологическом исследовании выделяют также два способа отбора: повторный и бесповторный. При первом избранная единица после обследования возвращается в генеральную совокупность, чтобы дальше участвовать в отборе. Во втором варианте респонденты отсортировываются, что повышает шансы остальных членов генеральной совокупности быть выбранным.

Ученый-социолог Г. А. Черчилль разработал такое правило: размер выборки должен стремиться обеспечить не меньше 100 наблюдений для первостепенных и 20-50 для второстепенной классификационной составляющей. Следует иметь в виду, что часть респондентов, вошедших в выборку, по различным причинам может не принять участие в опросе или вовсе от него отказаться.

Способы определения объема выборки

В социологических исследованиях применимы такие методы:

1. Произвольный, то есть объем выборки определяется в пределах 5-10 % состава генеральной совокупности.

2. Традиционный метод расчета основывается на проведении регулярных исследований, например, один раз в год с охватом 600, 2 000 или 2 500 респондентов.

3. Статистический - заключается в установлении надежности информации. Статистика как наука не развивается изолированно. Предметы и области ее исследования активно задействуются в других смежных отраслях: технических, экономических и гуманитарных. Так, ее методы используются в социологии, при подготовке к опросам и, в частности, при определении объемов выборок. Статистика как наука обладает обширной методологической базой.

4. Затратный, при котором установлена допустимая сумма расходов на исследование.

5. Объем выборки равен может быть числу единиц генеральной совокупности, тогда исследование будет носить сплошной характер. Такой подход применим в малых группах. Например, трудовой коллектив, студенты и т. д.

Ранее удалось установить, что выборка будет считаться репрезентативной, когда ее характеристики описывают свойства генеральной совокупности с минимальной погрешностью.

Оценка объема выборки предваряет окончательные расчеты количества единиц, которые будут выделены из генеральной совокупности:

n = Npqt 2: N∆ 2 p + pqt 2 , в которой N - количество единиц генеральной совокупности, p - доля изучаемого признака (q = 1 - p), t - коэффициент соответствия доверительной вероятности Р (определяется по специальной таблице), ∆ p - допустимая ошибка.

Это только один вариант того, как вычисляется объем выборки. Формула может изменяться в зависимости от условий и выбранных критериев исследования (например, повторная или бесповторная выборка).

Ошибки выборки

Социологические опросы населения основываются на использовании одного из типов выборки, рассмотренных нами выше. Однако в любом случае задачей каждого исследователя должна стать оценка степени точности полученных показателей, то есть нужно определить, насколько они отражают характеристики генеральной совокупности.

Ошибки выборки можно разделить на случайные и неслучайные. Первый вид подразумевает отклонение выборочного показателя от генерального, которое можно выразить разностью их долей (средней) и которое вызвано только не сплошным типом обследования. И совершенно закономерно, если этот показатель снижается на фоне увеличения количества опрошенных респондентов.

Систематической ошибкой называют отклонение от генерального показателя, также найденное в результате вычитания выборочной и генеральной доли и возникшее из-за несоответствия методики формирования выборки установленным правилам.

Данные типы ошибок входят в общую ошибку выборки. В исследовании из генеральной совокупности можно извлечь только одну выборку. Расчет величины максимально возможного отклонения выборочного показателя можно выполнить по специальной формуле. Оно называется предельной ошибкой выборки. Существует также такое понятие, как средняя ошибка выборки. Это среднее квадратическое отклонение выборочных от генеральной долей.

Выделяют также апостериорный (послеопытный) вид ошибки. Под ним подразумевается отклонение показателей выборочной от генеральной доли (средней). Оно вычисляется методом сравнения генерального показателя, информация о котором поступила от надежных источников, и выборочного, который был установлен в ходе опроса. В качестве достоверных источников информации выступают нередко отделы кадров предприятий, государственные органы статистики.

Существует также априорная ошибка, также являющаяся отклонением выборочного и генерального показателей, которой можно выразить разностью их долей и рассчитать которую можно по специальной формуле.

В учебных исследованиях чаще всего совершаются следующие ошибки, связанные с проведением отбора респондентов для опроса:

1. Выборочные совокупности групп, принадлежащие к разным генеральным. При их использовании разрабатываются статистические выводы, которые относятся ко всей выборке. Совершенно очевидно, что это не может быть приемлемо.

2. В расчет не принимаются организационные и финансовые возможности исследователя, когда рассматриваются типы выборок, и одной из них отдается предпочтение.

3. Не в полном объеме используются статистические критерии структуры генеральной совокупности при предотвращении ошибок выборки.

4. Не учитываются требования репрезентативности отбора респондентов в ходе сравнительных исследований.

5. Инструкция для интервьюера должна быть адаптирована с учетом специфики принятого типа отбора.

Характер участия респондентов в исследовании может быть открытым или анонимным. Это следует учитывать про формировании выборки, так как, не согласившись с условиями, участники могут выбыть.

Точность -- степень ошибочности результатов обследования или размер доверительного интервала.

Абсолютная точность задается определенным интервалом, в котором должно находиться оцениваемое значение.

Относительная точность определяется относительно уровня оценки параметра.

Достоверность -- степень уверенности в том, что оценка близка к истинному значению.

При определении объема выборки следует принимать во внимание некоторые качественные факторы: важность принимаемого решения, характер исследования, количество переменных, характер анализа, объемы выборки, которые использовались в подобных исследованиях, коэффициент охвата, коэффициент завершенности, а также ограниченность ресурсов. Статистически определенный объем выборки -- это чистый, или конечный, объем выборки, т.е. единицы совокупности, остающиеся после исключения потенциальных респондентов, которые не отвечают заданным критериям или не закончили интервью. В зависимости от коэффициентов охвата и завершенности может потребоваться намного больший объем исходной выборки. В коммерческих маркетинговых исследованиях недостаток времени, денег и хороших специалистов может иметь решающее значение при определении объема выборки. В проекте исследования постоянных покупателей универсального магазина объем выборки определялся именно по этим соображениям.

Метод доверительных интервалов:

Определение объема выборки методом доверительных интервалов основано на их создании вокруг выборочного среднего или выборочной доли с использованием формулы стандартной ошибки. В качестве примера предположим, что исследователь с помощью простого случайного отбора сформировал выборку из 300 семей для того, чтобы оценить ежемесячные расходы семьи на покупки в универмаге, и определил, что средний ежемесячный расход семьи в выборке равен 182 долл. Предыдущие исследования показали, что среднеквадратичное отклонение расходов в исследуемой совокупности равно 55 долл.

Мы хотим найти интервал, в который попадал бы определенный процент выборочных средних. Предположим, мы хотим определить интервал вокруг среднего значения совокупности, который включал бы 95% выборочных средних, опираясь на выборку из 300 семей; 95% выборочных средних можно разделить на две равные части, половина меньше и половина больше среднего, как показано на рис. 1. Вычисление доверительного интервала включает определение области меньше (XL) и больше (ХU) среднего значения (X) величины расходов.

Значения коэффициента z, соответствующие XL и ХU, можно рассчитать следующим образом:

Следовательно, минимальное значение X определяется как

а максимальное значение

Теперь установим 95%-ный доверительный интервал вокруг выборочного среднего, равного 182 долл. Для начала мы вычислим стандартную ошибку среднего:

Центральные 95% нормального распределения находятся в пределах?1,96 значений коэффициента z; 95%-ный доверительный интервал определяется как

Таким образом, 95%-ный доверительный интервал простирается от 175,77 до 188,23 долл. Вероятность нахождения истинного среднего значения наблюдаемой совокупности в пределах от 175,77 до 188,23 долл. составляет 95%.

Метод среднего:

Метод, использованный для создания доверительного интервала, можно модифицировать так, чтобы определить объем выборки с учетом желательного доверительного интервала. Предположим, что вы хотите рассчитать ежемесячный расход семьи на покупки в универмаге более точно -- так, чтобы полученный результат находился в пределах 5,0 долл. от истинного среднего значения исследуемой совокупности. Каким должен быть объем выборки? В таблице приведен необходимый перечень действий, которые вы должны выполнить.


  • 1. Определите степень точности. Это максимально допустимое различие (D) между выборочным средним и генеральным средним. В нашем примере D = +5,0 долл.
  • 2. Укажите уровень достоверности. Предположим, желательный уровень достоверности 95%.
  • 3. Определите значение нормированного отклонения z, связанное с данным уровнем достоверности. При 95%-ном уровне достоверности вероятность того, что среднее значение генеральной совокупности выйдет за пределы одностороннего интервала, равна 0,025 (0,05/2). Соответствующее значение z составляет 1,96.
  • 4. Определите стандартное отклонение среднего генеральной совокупности. Его можно получить из вторичных источников или рассчитать, проведя пилотное исследование. Кроме того, стандартное отклонение можно установить на основе мнения исследователя. Например, диапазон нормально распределенной переменной примерно укладывается в шесть стандартных отклонений (по три слева и справа от среднего значения).

5. Определите объем выборки, воспользовавшись формулой стандартной ошибки среднего

В нашем примере

(округленное в большую сторону до ближайшего целого числа).

Из формулы объема выборки видно, что он растет с ростом изменчивости (дисперсии) генеральной совокупности, а также с увеличением уровня достоверности и степени точности, с которой должны проводиться расчеты. Объем выборки прямо пропорционален Q2, поэтому, чем больше показатель дисперсии генеральной совокупности, тем больше объем выборки. Аналогично, более высокий уровень достоверности предполагает большее значение z и, следовательно, больший объем выборки. Переменные Q2 и z находятся в числителе. Увеличение степени точности достигается уменьшением значения D и, следовательно, увеличивает объем выборки, поскольку D находится в знаменателе.

6. Если объем выборки составляет 10% и больше от объема генеральной совокупности, то применяется окончательная коррекция совокупности (fpc). Затем необходимый объем выборки рассчитывается по формуле

7. Если среднеквадратичное отклонение совокупности о неизвестно и используется его предположительное значение, то его следует повторно рассчитать после получения выборки. Среднеквадратичное отклонение выборки s используется в качестве предположительного значения Q. Затем следует вычислить исправленный доверительный интервал, чтобы определить фактически полученную степень точности.

Предположим, что значение 55,00 использовалось в качестве предположительного значения а, потому что истинное значение было неизвестно. Получена выборка, в которой n = 465. На основе данных исследования рассчитывается среднее X, равное 180,00, и среднеквадратичное отклонение выборки s, равное 50,00. Тогда исправленный доверительный интервал составит:

Обратите внимание, что полученный доверительный интервал уже предполагаемого. Это вызвано тем, что среднеквадратичное отклонение совокупности завышено на основании выборочных характеристик.

8. Иногда точность определена в относительных, а не в абсолютных показателях. Другими словами, может быть известно, что результат вычисления должен составить плюс-минус R% от среднего. В этом случае объем выборки можно определить как

Объем генеральной совокупности N не влияет на объем выборки напрямую, за исключением случаев, когда применяется коэффициент окончательной коррекции совокупности. Возможно, это кажется невероятным, но если подумать, в этом утверждении есть смысл. Например, если исследуемые характеристики всех элементов совокупности идентичны, то выборки, состоящей из одного элемента, вполне достаточно, чтобы рассчитать среднее. Это также правильно, если совокупность состоит из 50, 500, 5000 или 50 000 элементов. В то же время изменчивость характеристик совокупности напрямую влияет на объем выборки. Эта изменчивость учитывается при вычислении объема выборки с помощью генеральной дисперсии Q2 или выборочной дисперсии s2.

Метод доли:

Если изучаемая статистика представлена не средним, а долей, то маркетолог определяет объем выборки аналогичным образом. Предположим, что исследователя интересует установление доли семей, владеющих кредитной карточкой универмага. Порядок действий будет следующим.

1. Укажите степень точности. Предположим, желательная степень точности такова, что допустимый интервал установлен на уровне

D = р -- л = ±0,05.

  • 2. Укажите уровень достоверности. Предположим, что желателен 95%-ный уровень достоверности.
  • 3. Определите значение z, связанное с данным уровнем достоверности. Как объяснялось при расчете среднего, оно составит 1,96.
  • 4. Определите генеральную долю п. Как мы указывали раньше, ее можно получить из вторичных источников, в ходе экспериментального исследования или на основе мнения исследователя. Предположим, что на основе вторичных данных исследователь делает предположение, что 64% семей из изучаемой генеральной совокупности обладают кредитной карточкой универмага. Следовательно, л = 0,64.
  • 5. Определите объем выборки с помощью формулы стандартной ошибки доли:

В нашем примере

  • (округленное в большую сторону до целого числа).
  • 6. Если конечный объем выборки составляет 10% и больше от объема совокупности, применяется окончательная коррекция совокупности (fpc). Затем необходимый объем выборки рассчитывается по формуле

где n -- объем выборки до применения окончательной коррекции; nс -- объем выборки после применения окончательной коррекции.

7. Если расчет тс был неверным, то доверительный интервал будет более или менее точным по сравнению с необходимым. Предположим, что по окончании выборки рассчитывается значение доли p, равное 0,55. Затем повторно вычисляется доверительный интервал, при этом sp используется для расчета неизвестного Qp , а именно:

В нашем примере

Доверительный интервал тогда равен 0,55 ± 1,96 (0,0264) = 0,55 + 0,052, что означает, что он шире, чем было задано. Это объясняется тем, что среднеквадратичное отклонение выборки p = 0,55 оказалось большим, чем предположительное значение среднеквадратичного отклонения генеральной совокупности при л = 0,64.

Если интервал, превышающий указанный, недопустим, объем выборки можно скорректировать так, чтобы отразить максимально возможное отклонение в генеральной совокупности. Такое отклонение происходит, когда произведение л (1 -- л) достигает максимального значения, для чего л должно равняться 0,5. К этому выводу можно прийти и без расчетов. Поскольку у одной половины совокупности одно значение характеристики, а у другой -- другое, потребуется больше данных, чтобы сделать правильный вывод, нежели когда ситуация более четко определена и у большинства элементов одно значение характеристики. В нашем примере это приведет к получению объема выборки, равного

  • (округлено в большую сторону до целого числа).
  • 8. Иногда точность определена в относительных, а не в абсолютных показателях. Другими словами, может быть известно, что результат вычисления должен составить плюс-минус R% от доли совокупности. Это означает, что D =Rл. В этом случае объем выборки можно определить как

Определение объема выборки

Социологические исследования редко бывают сплошными, как, например, перепись населения. Обычно сплошное исследование проводится при небольшой генеральной совокупности.

Чаще всего исследования носят выборочный характер, при котором наиболее важным основанием является возможность распространения полученных результатов и выводов на всю генеральную совокупность. В таком случае сплошное исследование нецелесообразно. Обеспечение этой нецелесообразности - вопрос о репрезентативности выборки, т.е. достаточной количественной и качественной представительности генеральной совокупности в выборке.

Условиями соблюдения репрезентативности выборки являются:

1) равная возможность каждого члена генеральной совокупности попасть в выборку;

2) отбор необходимо проводить независимо от изучаемого признака (иначе в выборку могут попасть, например, только спортсмены);

3) отбор по возможности должен производиться из однородных совокупностей;

4) величина выборки должна быть достаточно большой.

Далее возникает вопрос: как определить достаточный объем выборки? Для этого необходимо иметь характеристики генеральной совокупности по важнейшим (с точки зрения исследования) признакам. К ним, например, можно отнести сведения о количестве желающих заниматься физической культурой и спортом, о числе занимающихся и т.д. Но, как правило, такие характеристики (или многие из них) не известны. Пилотажные исследования как раз и направлены на их выявление.

Приведем пример определения объема выборочной совокупности. В ходе подготовки к проведению конкретно-социологического исследования на основании теоретических посылок были выделены характеристики и признаки, подлежащие изучению. Например, желание заниматься физической культурой, спортом, величина потребности, участие в видах деятельности и др.

На основании результатов изучения этих признаков в пробном исследовании (30 и более респондентов) определяется объем выборки.

Предположим, что в пробном исследовании опрошено 147 студентов 4-х курсов в четырех вузах Республики Беларусь.

Для желания заниматься физической культурой получены следующие распределения:

1.«Нет, не хочу» - 5 человек;

2.«Скорее не хочу, чем хочу» - 3 человека;

3.«Безразлично» - 11 человек;

4.«Скорее хочу, чем не хочу» - 34 человека;

5.«Да, хочу» - 72 человека.

Для расчета объема выборки используются формулы:

t - 1,96 - распределение Стьюдента для вероятности 0,95 или 95% (т.е., если требуемая вероятность соответствия характеристик выборки и характеристик генеральной совокупности 95%, всегда = 1,96. Их соответствие на 95% - общепринятое требование в социологических исследованиях.

Для нашего распределения:


При условии, что выборка в пробном исследовании представляла бы собой модель генеральной совокупности, величина выборочной совокупности для изучения желания заниматься физической культурой должна быть не меньше 147 человек. Тогда с вероятностью 95% можно утверждать, что генеральное среднее лежит в пределах 4,39+ 0,155.

Поскольку модель выборки в пробном исследовании во вузам не представляет собой модели генеральной совокупности (опрос был в четырех вузах из 30), то увеличиваем полученное n (30/4) в 7,5 раза. Тогда необходимый объем выборки - 1102 респондента.

Качественная представительность полученной выборки оценивается сравнением существенных характеристик (либо связанных с существенными) генеральной совокупности и выборки. Для студенчества, например, такими характеристиками являются: соотношение по полу, охват учебными занятиями по физическому воспитанию, соотношение форм занятий и др.

Когда информация о признаках элементов генеральной совокупности отсутствует, исключается возможность определения объема выборочной совокупности при помощи формул. В этом случае можно опереться на многолетний опыт социологов - практиков, свидетельствующий о том, что для пробных опросов достаточна выборка объемом 100-250 человек. При массовых опросах, если величина генеральной совокупности 5000 человек, достаточный объем выборочной совокупности - не менее 500 человек, если же величина генеральной совокупности 5000 человек и более, то - 10% ее состава (но не более 2000-2500 человек). Это характеризует достаточно достоверные результаты исследования.

Приведенная ниже формула для расчета объема выборки используется в тех случаях, когда опрашиваемым (респондентам) задается только один вопрос, на который существует только два варианта ответа. Например, «Да» и «Нет»; «Пользуюсь» и «Не пользуюсь». Конечно, данную формулу можно применять только при проведении простейших исследований. Если Вам нужно определить объем выборки при проведении более масштабных исследований, например анкетирования, то следует использовать другие формулы.

Простая формула для расчета объема выборки

где: n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности. Этот показатель характеризует возможность, вероятность попадания ответов в специальный - доверительный интервал. На практике уровень доверительности часто принимают за 95% или 99%. Тогда значения z будут соответственно 1,96 и 2,58;

p – вариация для выборки, в долях. По сути, p - это вероятность того, что респонденты выберут той или иной вариант ответа. Допустим, если мы считаем, что четверть опрашиваемых выберут ответ «Да», то p будет равно 25%, то есть p = 0,25;

q = (1 – p);

e – допустимая ошибка, в долях.

Пример расчета объема выборки

Компания планирует провести социологическое исследование с целью выявить долю курящих лиц в населении города. Для этого сотрудники компании будут задавать прохожим один вопрос: «Вы курите?». Возможных вариантов ответа, таким образом, только два: «Да» и «Нет».

Объем выборки в этом случае рассчитывается следующим образом. Уровень доверительности принимается за 95%, тогда нормированное отклонение z = 1,96 . Вариацию принимаем за 50%, то есть условно считаем, что половина респондентов может ответить на вопрос о том, курят ли они - «Да». Тогда p = 0,5 . Отсюда находим q = 1 – p = 1 – 0,5 = 0,5 . Допустимую ошибку выборки принимаем за 10%, то есть e = 0,1 .

Подставляем эти данные в формулу и считаем:

Получаем объем выборки n = 96 человек .

Область применения данной формулы

При проведении простых исследований, когда нужно получить ответ всего на один простой вопрос. При этом шкала ответов, как правило, дихотомического характера. То есть предлагаются (или подразумеваются) варианты ответов по типу «Да» - «Нет», «Черное» - «Белое», и т.д.

Особенности данной формулы расчета объема выборки

Галяутдинов Р.Р.


© Копирование материала допустимо только при указании прямой гиперссылки на