Формула выборки - простая.

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев .

КАЛЬКУЛЯТОРЫ

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)- Юридические лица России (2,2 млн. на начало 2005 года)- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.Пример:- Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы. - Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.- Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.Важно понимать, что репрезентативность выборки и ошибка выборки - разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.Пример:Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.Ошибка выборки бывает двух видов - статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.Пример:Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц - 4%, для выборки в 1100 единиц - 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.Пример:- Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).- Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:
- вероятностные
- невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом - N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям - доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок - опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром - активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Калькулятор расчета ошибки и размера выборки

(для простой случайной выборки)

Пояснения к полям:

Доверительная вероятность
Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность

Ошибка выборки (доверительный интервал)
Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное истинное значение оцениваемого параметра распределения.

Доля признака

Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

После того, как определен метод исследования и разработан инструмент, определяются параметры исследования: тип, состав и свойства выборки и её объем. Для определения типа выборки надо воспользоваться таблицами в лекциях: определить объем и свойства генеральной совокупности, затем выбрать модель выборки..

Таблица объемов выборок позволяет определить объем выборок, исходя из заранее заданного показателя надежности P и заранее заданной допустимой величины ошибки е. Р показывает, какую часть генеральной совокупности максимально сможет охватить выборка (это показывает её надежность), а ошибка показывает, какие минимальные расхождения будут допущены между свойствами генеральной совокупности и свойствами выборки.

Таблица объемов выборок
е P 0,10 0,09 0,03 0,07 0,06 0,05 0,04 0,03 0,02 0,01
0,75
0,80
0,85
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,965
0,970
0,975
0,980
0,985
0,990
0,991
0,992
0,993
0,994
0,995
0,996
0,997
0,998
0,999


Допустим, мы хотим охватить генеральную совокупность с надежностью не менее 80% и допускаем ошибку нашего исследования не менее 10%. При этом мы ничего не знаем о том, какие значения может принимать исследуемая нами переменная, то есть не имеем никакой априорной информации о генеральной совокупности: ни среднего не знаем, ни возможной дисперсии - ничего. Тогда мы просто ищем соответствующее пересечение в таблице (Р=0,80 , е=0,10): объем выборки составит 41 человек. Таблица составлена из расчета максимального значения дисперсии дихотомической переменной. Видно, что с увеличением точности выборки её объем быстро растет – если в описанном случае мы увидели объем в 41 человек, то для параметров в Р=95% и е=5% (стандартных для большинства исследований) объем составит уже 384 человека. Поэтому таблицей надо пользоваться в случаях, когда генеральная совокупность относительно небольшая и допустимы значительные величины ошибок.

Чтобы обеспечить небольшой объем выборки для относительно большой генеральной совокупности, надо заранее знать параметры распределения изучаемой переменной: среднее значение и дисперсию. При этом можно воспользоваться приведенной ниже номограммой для расчета выборок (номограмма построена для надежности Р=95%, что вполне достаточно). Для использования номограммы надо знать две величины: коэффициент изменчивости v и допустимую величину ошибки е . Коэффициент изменчивости определяется как коэффициент вариации

то есть для его определения надо знать среднее арифметическое и среднее квадратичное отклонение исследуемой переменной.

Для упрощения расчета коэффициента изменчивости надо знать размах вариации, то есть максимальное и минимальное значение, которых может достигать исследуемая переменная. В этом случае расчет v ведется так:

,где X max , X min – максимальное и минимальное значения исследуемой переменной, А - постоянное действительное положительное число (обычно выбирается между 5 и 6).


Пример 1 . Предположим, нам известно, что коэффициент изменчивости исследуемой переменной равен 6%. Найдем объем выборки при допустимой ошибке в 5%. Для этого на левой шкале номограммы, обозначенной v% , ищем точку 6. На правой шкале номограммы, обозначенной ε% , ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на линиях и соединяем их по линейке прямой линией. Смотрим, где эта прямая пересекает центральную шкалу, обозначенную n 1 . Это пересечение совершается в точке 6. Следовательно, объем выборки составит 6 человек.

Пример 2 . Пусть нам известно, что коэффициент изменчивости исследуемой переменной равен 16%. Найдем объем выборки для заданной ошибки в 5%. 16% больше 10%, максимально отмеченных на шкале v% , а шкалы логарифмические, поэтому 16 делим на 10 и на шкале v% номограммы ищем точку 1,6. На правой шкале номограммы ε% ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на шкалах и соединяем их по линейке прямой линией. Смотрим, где прямая пересекает центральную шкалу n 1 . Пересечение совершается в точке 0,4. Поскольку мы уменьшили 16% до 1,6%, то есть в 10 раз, то умножаем 0,4 на 100. Объем выборки составит 40 человек (сравните с указанной выше выборкой в 384 человека для Р=95% и е=5% без учета конкретного значения дисперсии).

Пример 3 . Исследуется потребление студентами сигарет, причем изучаются только те, кто курит сигареты (генеральная совокупность - курящие). Допустимая ошибка составляет 5%. Заранее известно (например, данные взяты из источников вторичной маркетинговой информации), что студенты выкуривают сигареты в количестве от одной пачки сигарет в три дня до двух пачек в день, причем в среднем курящему студенту хватает одной пачки сигарет на день. Тогда соответствующие значения будут составлять X max =2, X min =0,33, а среднее составит 1. Коэффициент изменчивости v составит

и на левой шкале мы откладываем 2,8%, на правой 5%, соединим их и по центральной шкале номограммы получим отметку 1,2 - это значит, что объем выборки должен быть 120 человек.

Пример 4 . Предположим, что при использовании предыдущего примера доступ к целевой репрезентативной группе (курящим) отсутствует. Это значит, что надо включать в выборку как курящих, так и некурящих. В таком случае параметры для расчета будут X max =2, X min =0. Какова будет средняя? Расчет средней по выражению (2+0)/2=1 не является правильным, поскольку прежняя средняя рассчитывалась только для курящих, а сейчас не учтено соотношение размеров групп курящих и некурящих. Например, если доля некурящих составляет 60%, а доля курящих - 40%, то тогда средняя составит 0,4.

Сравним возможные размеры выборок и ошибки исследования:

Если отсутствуют данные о соотношении репрезентативной и нерепрезентативной групп в генеральной совокупности, то расчет коэффициента изменчивости осуществляется через изменение величины А . Как правило, если средняя рассчитывается по выражению (X max +X min )/2, то А уменьшается до 5 и менее.

Как видим, простая случайная выборка для достижения требуемой точности требует значительных объемов. Общий объем выборки можно существенно уменьшить двумя способами:

1) выполняя районирование или стратификацию, то есть выделяя качественно различные группы в генеральной совокупности и размещая выборку именно среди представителей этих групп;

2) выполняя выделение гнезд, то есть разделяя генеральную совокупность на большое количество одинаковых частей и распределяя выборку между этими частями.

При проведении стратифицированной выборки можно поступать следующим образом (см. схему далее).

Первоначально определяется, какой объем априорной информации известен о генеральной совокупности. Для правильно выполненной стратифицированной выборки минимального объема необходимо знать общую численность генеральной совокупности N , число изучаемых страт i , численность каждой страты N i , а внутри каждой страты соответствующее среднее значение изучаемой переменной и её дисперсию. Если все эти параметры известны, то с помощью рассмотренной выше номограммы можно рассчитать объем стратифицированной пропорциональной выборки.

Для этого определяют сначала генеральную дисперсию изучаемой переменной как сумму внутригрупповой и межгрупповой дисперсий, потом определяют генеральное среднее по средним страт, потом определяют коэффициент изменчивости и по номограмме определяют при задании допустимой ошибки общую величину выборки. σ

Генеральная дисперсия равна

где σ 2 р - внутригрупповая дисперсия, а σ 2 m - межгрупповая дисперсия.

Внутригрупповую дисперсию определяют по известным дисперсиям изучаемой переменной внутри каждой страты

где N i - численность i -той страты, σ 2 i - дисперсия i -той страты.

Межгрупповую дисперсию определяют, исходя из известных средних по каждой страте и рассчитанной на их основе генеральной средней:

Если известно число страт, но неизвестен их объем (и/или объем генеральной совокупности), то рассчитывается сначала общий объем выборки указанным способом, а потом он делится на число страт так, чтобы в каждой страте разместилась бы одинаковая доля выборки - это будет стратифицированная равная выборка.

Если неизвестны дисперсии внутри страт, то необходимо знать размах вариации внутри каждой страты, то есть значения X max и X min . Тогда дисперсии страт можно рассчитать, исходя из выражения

Если неизвестна численность страт, то внутригрупповвая дисперсия рассчитывается как простое среднее арифметическое из дисперсий страт.

Если неизвестны средние в каждой страте, но известен размах вариации, то средние внутри страт определяются как средние между крайними значениями изучаемой переменной

Если наличие страт неизвестно, но по генеральной совокупности известны параметры среднего, дисперсии и плотности распределения единиц наблюдения, то осуществляется районная выборка по гнездовому или пропорциональному способам. Если единицы наблюдения размещены по территории, где находится генеральная совокупность, относительно равномерно (коэффициент вариации плотности размещения составляет не более 15-25%), то используется выделение гнезд, каждое из которых вмещает в себя одинаковое число единиц наблюдения. Гнезда выделяются так, что имеют одинаковый размер (например, площадь). Число гнезд определяется пропорционально отношению общего размера выборки n к общему числу единиц наблюдения N . Из каждого гнезда отбирается только одна единица наблюдения, размещение выборки по гнездам осуществляется равномерно-механическим или случайным методом.

Если размещение единиц наблюдения по изучаемой территории неравномерно, то она разделяется на районы с одинаковым числом единиц наблюдения в каждом - это порайонная пропорциональная выборка. Для этого рассчитывается общий объем выборки по номограмме, после чего эта выборка распределяется по районам пропорционально численности единиц наблюдения. Внутри районов в этом случае размещение выборки выполняется либо гнездовым, либо иным способом, аналогично известным процедурам размещения выборок.

Пример 5 . Воспользуемся примером 3, изучающим потребление сигарет. Если нет никаких данных о возможных параметрах изучаемой переменной, то при данных Р=95% , е=5% объем выборки составит 384 человека. Выделим две страты - мужчин и женщин. Пусть априори известно (например, из проведения пилотного исследования), что потребление сигарет в пачках за день составляет у мужчин X max =2, X min =0,33, у женщин X max =3, X min =0,1. Вычислим объем выборки в этом случае

Поскольку о соотношении численностей страт нам ничего не известно, то принимаем, что их численности равны и доли их численностей в генеральной совокупности составляют по 0,5. Тогда внутригрупповая дисперсия будет

а межгрупповая

при генеральном среднем

Тогда генеральная дисперсия будет

и коэффициент изменчивости составит

По номограмме при допустимой ошибке 5% объем выборки составит приблизительно 240 человек (более чем на 140 меньше, чем по таблице). В данном случае эта выборка должна быть разделена на 120 мужчин и 120 женщин.

Если и этот объем выборки слишком велик, то нужно увеличивать количество страт, добиваясь того, чтобы размах вариации в каждой страте был минимален, а размеры страт близки, то есть стремиться к минимуму суммарной дисперсии.

В случае, когда известен размер генеральной совокупности в целом, то возможно корректировать размер выборки на бесповторность следующим образом:

1) для известных v% и e рассчитывается по номограмме размер выборки n 1 ;

2) заданная допустимая ошибка корректируется с учетом размера генеральной совокупности

3) по номограмме для скорректированной ошибки e correct и v% находится новый объем выборки n 2 .

Пример 6. Предположим, что исследование проводится для целевого сегмента объемом 1600 единиц наблюдения при v% =25% и e =5%. По номограмме объем выборки тогда составит 100 единиц наблюдения. Корректируем ошибку с учетом размера выборки

По номограмме скорректированный объем выборки составит (при v% =25% и e =5,2%) 90 единиц наблюдения.

ГЛАВА 1.

В этой части работы студент обрабатывает собранные им данные и делает вывод относительно поставленной задачи: как решить поставленную проблему.

Для обработки студент может использовать MS Excel, SPSS, Statistika for Windows, MatLab, MatCad и другие программы обработки больших массивов данных. Основные задачи, решаемые при использовании этих средств:

верификация данных:

установление законов распределения;

установление взаимосвязей между данными;

классификация и сегментация данных;

прогнозирование развития событий.

Последовательность обработки данных исследования

  1. расчет в рамках анализа двумерных распределений по каждой таблице данных, коэффициента вариации, корреляционного отношения и стандартных отклонений4
  2. расчет корреляционной и ковариационной матриц;
  3. выбор массива данных по заранее заданным условиям;
  4. вычисление распределений (при учете заданных условий);
  5. перекодировка (исправление ошибок в данных);
  6. введение новых показателей (расчет индексов).

Ниже в таблице описаны возможные методы анализа данных. Не следует, разумеется, применять их сразу все. Студент выбирает именно те 1-2 метода, которые наиболее подходят для раскрытия поставленной проблемы.

Количественные методы анализа данных маркетинговых исследований
1.Методы сжатия описательной статистики 2.Методы анализа систем показателей
1.1 Группирование 1.2 Оценка параметров распределения 1.3 Ковариационная и корреляционная матрица
2.1 Ориентация на интегральную качественную характеристику 2.2 Ориентация на количественный признак
2.2.1 Дисперсионный анализ 2.2.2 Корреляционно-регрессионный анализ 2.2.3 Причинный анализ
2.1.1 Без априорной информации об исследуемом признаке 2.1.2 С априорной информацией о классах признака 2.1.3 С априорной информацией о возрастании (убывании) признака)
2.1.1.1 Методы экспертных оценок 2.1.1.2 Анализ матрицы данных.
2.1.3.1 Усиление шкалы по результирующему признаку 2.1.3.2 Оценка существенности показателя (ранговые корреляции)
2.1.1.2.1Факторный анализ 2.1.1.2.2Латентно-структурный анализ 2.1.1.2.3Кластерный анализ 2.1.1.2.4 Методы оценки значимости показателя
2.1.2.1 Методы усиления номинальной шкалы по результирующему признаку 2.1.2.2 Оценка существенности показателей системы
2.1.2.2.1 Методы теории распознавания образов 2.1.2.2.2 Методы теории информации 2.1.2.2.3 Методы теории графов

Для определения основных характеристик в зависимости от применявшихся вопросов могут быть применены слудующие методы анализа измерений по шкалам в вопросах:

Статистические методы выявления связей

Шкала результирующего (итогового) признака Шкала факторного признака (предиктора) Метод статистической обработки
Количественные (И,О,А,Р) Количественные (И,О,А,Р) Регрессии Корреляции
Количественные (И,О,А,Р) Время (И) Динамика временных рядов
Количественные (И,О,А,Р) Неколичественные (К,П) Дисперсионный анализ
Количественные (И,О,А,Р) Ковариационный анализ Типологическая регрессия
Неколичественные (К) Количественные (И,О,А,Р) Дискриминантный анализ Кластерный анализ Таксономия Расщепление смесей
Неколичественные (П) Неколичественные (К,П) Ранговые корреляции Анализ таблиц сопряженности
Количественные и неколичественные Количественные и неколичественные Логические решающие функции
Типы шкал в вопросах: И - интервальная, О - относительная, А- абсолютная, Р - разностная, П - порядковая, К - классификационная (номинальная)

Например, корреляционный анализ для сегментации потребителей выполняется так:

  1. выделяются средние значения, стандартные отклонения, коэффициент вариации, ошибку среднего значения и доверительный интервал;
  2. рассчитывается ковариационная и корреляционная матрица (например, в MS Excel);
  3. вычисляется «близость» объектов в пространстве характеристик (для сегментации);
  4. вычисляются пути максимальной корреляции в целях группировки переменных;
  5. вычисляются пути максимального расстояния по матрице расстояний в целях классификации объектов;
  6. определяются наиболее близкие группы, которые и будут сегментами потребителей;
  7. проверяется мера близости групп (например, корреляционное отношение).

В конце этой главы студент описывает результаты анализа данных, так чтобы были ясны его решения поставленных задач работы, окончатеьные выводы и их формулировки.

Заключение

В этом разделе студент формулирует полное решение проблемы, поставленной в начале своей работы.

Список литературы

Список использованных источников (список литературы) надлежит выполнять в конце текста работы сообразно ГОСТ 7.1-84, например:

Зиннуров У. Г. Основы маркетинговых исследований: Учебное пособие / У. Г. Зиннуров; Уфимск. гос. авиац. техн. ун-т. Уфа, 1996.- 110 с.

Источники в списке располагаются в алфавитном порядке. На все перечисленные источники в работе необходимо сделать ссылки. Постраничные сноски не допускаются.

В случае, если источником являются сайты Интернета, необходимо указывать полностью адрес того сайта (копируя его адресную строку), на котором была получена конкретная информация. При этом приводится дата последнего обращения к этому сайту, например.

Приведенная ниже формула для расчета объема выборки используется в тех случаях, когда опрашиваемым (респондентам) задается только один вопрос, на который существует только два варианта ответа. Например, «Да» и «Нет»; «Пользуюсь» и «Не пользуюсь». Конечно, данную формулу можно применять только при проведении простейших исследований. Если Вам нужно определить объем выборки при проведении более масштабных исследований, например анкетирования, то следует использовать другие формулы.

Простая формула для расчета объема выборки

где: n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности. Этот показатель характеризует возможность, вероятность попадания ответов в специальный - доверительный интервал. На практике уровень доверительности часто принимают за 95% или 99%. Тогда значения z будут соответственно 1,96 и 2,58;

p – вариация для выборки, в долях. По сути, p - это вероятность того, что респонденты выберут той или иной вариант ответа. Допустим, если мы считаем, что четверть опрашиваемых выберут ответ «Да», то p будет равно 25%, то есть p = 0,25;

q = (1 – p);

e – допустимая ошибка, в долях.

Пример расчета объема выборки

Компания планирует провести социологическое исследование с целью выявить долю курящих лиц в населении города. Для этого сотрудники компании будут задавать прохожим один вопрос: «Вы курите?». Возможных вариантов ответа, таким образом, только два: «Да» и «Нет».

Объем выборки в этом случае рассчитывается следующим образом. Уровень доверительности принимается за 95%, тогда нормированное отклонение z = 1,96 . Вариацию принимаем за 50%, то есть условно считаем, что половина респондентов может ответить на вопрос о том, курят ли они - «Да». Тогда p = 0,5 . Отсюда находим q = 1 – p = 1 – 0,5 = 0,5 . Допустимую ошибку выборки принимаем за 10%, то есть e = 0,1 .

Подставляем эти данные в формулу и считаем:

Получаем объем выборки n = 96 человек .

Область применения данной формулы

При проведении простых исследований, когда нужно получить ответ всего на один простой вопрос. При этом шкала ответов, как правило, дихотомического характера. То есть предлагаются (или подразумеваются) варианты ответов по типу «Да» - «Нет», «Черное» - «Белое», и т.д.

Особенности данной формулы расчета объема выборки

Галяутдинов Р.Р.


© Копирование материала допустимо только при указании прямой гиперссылки на


Описание работы калькулятора:

В поле «Объем генеральной совокупности» нужно ввести целое неотрицательное число, равное количеству объектов в совокупности, из которой производится отбор в выборочной совокупности. Например, это может быть количество документов в массиве или, чаще, численность населения, проживающего на определенной территории, или количество людей в целевой группе. На практике часто случаются ситуации, когда выборочная совокупность в 100 и более раз меньше генеральной совокупности. В этом случае генеральная совокупность считается квазибесконечной. Этот параметр установлен по умолчанию (символ «∞» в поле «Объем генеральной совокупности » ).

Далее нужно выбрать (поставить с помощью клика левой кнопки «мыши» точку в нужном кружочке) уровень доверительной вероятности которой будет оценена погрешность выборки или ее объем, то есть поставить с помощью клика левой кнопки «мыши» точку в нужном кружочке. Чем больше заданный уровень доверительной вероятности, тем меньше будет шанс, что реальная погрешность выйдет за пределы теоретической оценки или, что рассчитанный объем выборки будет недостаточным для того, чтобы делать оценки с точностью, не превышающей заданную погрешность. Если доверительную вероятность обозначить P , то вероятность , что оценка погрешности или объема будет неправильной равна 1-Р. При P =0,95 вероятность ошибки равна 0,05 (1 шанс из 20); при P =0,99 эта же вероятность равна 0,01 (1 шанс на 100).

Если Вы хотите рассчитать погрешность выборки определенного объема, то в поле «Объем выборочной совокупности » следует ввести неотрицательное число , равное количеству объектов в выборке . После этого Вы кликнуть левой кнопкой «мыши» кнопку расчет, которая должна стать зеленой после правильного введения Вами исходных данных. В поле «Теоретическая статистическая погрешность » будет выведено число больше 0 и меньше единицы, в котором вместо запятой использована точка «.» (с точностью до 3 знаков после десятичной точки). Если Вы хотите перевести эту погрешность в проценты, просто умножьте число на 100 - перенесите мысленно десятичную запятую на два знака вправо. Так, в приведенном примере по результатам расчета видно, что теоретическая статистическая погрешность случайной вероятностной выборки объемом 1600 единиц с квазибесконечной генеральной совокупности с доверительной вероятностью 0,99 не превышает 0,032 (3,2%).

В том случае, когда необходимо рассчитать объем выборочной совокупности с квазибесконечной генеральной совокупности, достаточной для обеспечения теоретической статистической погрешности не более, чем заданная, Вам нужно заполнить поле «Теоретическая статистическая погрешность» (число от 0 до 1, вместо десятичной запятой «,» – десятичная точка «.» ; проценты нужно перевести в частку от единицы : 3,2%=0,032 т. п.). Также следует задать уровень доверительной вероятности, кликнув левой кнопкой «мыши» точку в нужном кружочке справа от надписи «Доверительная вероятность ». После этого Вам достаточно кликнуть левой клавишей мыши на зеленой кнопке «Расчет» и в поле «Объем выборочной совокупности» Вы увидите результат.

Для ввода новых данных и повторного расчета следует нажать черную кнопку «Очистить » .