Биномиальное распределение. Дискретные распределения в MS EXCEL

В настоящей и нескольких следующих заметках мы рассмотрим математические модели случайных событий. Математическая модель - это математическое выражение, представляющее случайную величину. Для дискретных случайных величин это математическое выражение известно под названием функция распределения.

Если задача позволяет явно записать математическое выражение, представляющее случайную величину, можно вычислить точную вероятность любого ее значения. В этом случае можно вычислить и перечислить все значения функции распределения. В деловых, социологических и медицинских приложениях встречаются разнообразные распределения случайных величин. Одним из наиболее полезных распределений является биномиальное.

Биномиальное распределение используется для моделирования ситуаций, характеризующихся следующими особенностями.

  • Выборка состоит из фиксированного числа элементов n , представляющих собой исходы некоего испытания.
  • Каждый элемент выборки принадлежит одной из двух взаимоисключающих категорий, исчерпывающих все выборочное пространство. Как правило, эти две категории называют успех и неудача.
  • Вероятность успеха р является постоянной. Следовательно, вероятность неудачи равна 1 – р .
  • Исход (т.е. удача или неудача) любого испытания не зависит от результата другого испытания. Чтобы гарантировать независимость исходов, элементы выборки, как правило, получают с помощью двух разных методов. Каждый элемент выборки случайным образом извлекается из бесконечной генеральной совокупности без возвращения или из конечной генеральной совокупности с возвращением.

Скачать заметку в формате или , примеры в формате

Биномиальное распределение используется для оценки количества успехов в выборке, состоящей из n наблюдений. Рассмотрим в качестве примера оформление заказов. Чтобы сделать заказ клиенты компании Saxon Company могут воспользоваться интерактивной электронной формой и послать ее в компанию. Затем информационная система проверяет, нет ли в заказах ошибок, а также неполной или недостоверной информации. Любой заказ, вызывающий сомнения, помечается и включается в ежедневный отчет об исключительных ситуациях. Данные, собранные компанией, свидетельствуют, что вероятность ошибок в заказах равна 0,1. Компания хотела бы знать, какова вероятность обнаружить определенное количество ошибочных заказов в заданной выборке. Например, предположим, что клиенты заполнили четыре электронных формы. Какова вероятность, что все заказы окажутся безошибочными? Как вычислить эту вероятность? Под успехом будем понимать ошибку при заполнении формы, а все остальные исходы будем считать неудачей. Напомним, что нас интересует количество ошибочных заказов в заданной выборке.

Какие исходы мы можем наблюдать? Если выборка состоит из четырех заказов, ошибочными могут оказаться один, два, три или все четыре, кроме того, все они могут оказаться правильно заполненными. Может ли случайная величина, описывающая количество неправильно заполненных форм, принимать какое-либо иное значение? Это невозможно, поскольку количество неправильно заполненных форм не может превышать объем выборки n или быть отрицательным. Таким образом, случайная величина, подчиняющаяся биномиальному закону распределения, принимает значения от 0 до n .

Допустим, что в выборке из четырех заказов наблюдаются следующие исходы:

Какова вероятность обнаружить три ошибочных заказа в выборке, состоящей из четырех заказов, причем в указанной последовательности? Поскольку предварительные исследования показали, что вероятность ошибки при заполнении формы равна 0,10, вероятности указанных выше исходов вычисляются следующим образом:

Поскольку исходы не зависят друг от друга, вероятность указанной последовательности исходов равна: р*р*(1–р)*р = 0,1*0,1*0,9*0,1 = 0,0009. Если же необходимо вычислить количество вариантов выбора X n элементов, следует воспользоваться формулой сочетаний (1):

где n! = n * (n –1) * (n – 2) * … * 2 * 1 - факториал числа n , причем 0! = 1 и 1! = 1 по определению.

Это выражение часто обозначают как . Таким образом, если n = 4 и X = 3, количество последовательностей, состоящих из трех элементов, извлеченных из выборки, объем которой равен 4, определяется по следующей формуле:

Следовательно, вероятность обнаружить три ошибочных заказа вычисляется следующим образом:

(Количество возможных последовательностей) *
(вероятность конкретной последовательности) = 4 * 0,0009 = 0,0036

Аналогично можно вычислить вероятность того, что среди четырех заказов окажутся один или два ошибочных, а также вероятность того, что все заказы ошибочны или все верны. Однако при увеличении объема выборки n определить вероятность конкретной последовательности исходов становится труднее. В этом случае следует применить соответствующую математическую модель, описывающую биномиальное распределение количества вариантов выбора X объектов из выборки, содержащей n элементов.

Биноминальное распределение

где Р(Х) - вероятность X успехов при заданных объеме выборки n и вероятности успеха р , X = 0, 1, … n .

Обратите внимание на то, что формула (2) представляет собой формализацию интуитивных выводов. Случайная величина X , подчиняющаяся биномиальному распределению, может принимать любое целое значение в диапазоне от 0 до n . Произведение р X (1 – р) n X представляет собой вероятность конкретной последовательности, состоящей из X успехов в выборке, объем которой равен n . Величина определяет количество возможных комбинаций, состоящих из X успехов в n испытаниях. Следовательно, при заданном количестве испытаний n и вероятности успеха р вероятность последовательности, состоящей из X успехов, равна

Р(Х) = (количество возможных последовательностей) * (вероятность конкретной последовательности) =

Рассмотрим примеры, иллюстрирующие применение формулы (2).

1. Допустим, что вероятность неверно заполнить форму равна 0,1. Какова вероятность того, что среди четырех заполненных форм три окажутся ошибочными? Используя формулу (2), получаем, что вероятность обнаружить три ошибочных заказа в выборке, состоящей из четырех заказов, равна

2. Допустим, что вероятность неверно заполнить форму равна 0,1. Какова вероятность того, что среди четырех заполненных форм не менее трех окажутся ошибочными? Как показано в предыдущем примере, вероятность того, что среди четырех заполненных форм три окажутся ошибочными, равна 0,0036. Чтобы вычислить вероятность того, что среди четырех заполненных форм не менее трех будут неправильно заполнены, необходимо сложить вероятность того, что среди четырех заполненных форм три окажутся ошибочными, и вероятность того, что среди четырех заполненных форм все окажутся ошибочными. Вероятность второго события равна

Таким образом, вероятность того, что среди четырех заполненных форм не менее трех окажутся ошибочными, равна

Р(Х > 3) = Р(Х = 3) + Р(Х = 4) = 0,0036 + 0,0001 = 0,0037

3. Допустим, что вероятность неверно заполнить форму равна 0,1. Какова вероятность того, что среди четырех заполненных форм менее трех окажутся ошибочными? Вероятность этого события

Р(X < 3) = P(X = 0) + P(X = 1) + P(X = 2)

Используя формулу (2), вычислим каждую из этих вероятностей:

Следовательно, Р(Х < 3) = 0,6561 + 0,2916 + 0,0486 = 0,9963.

Вероятность Р(Х < 3) можно вычислить иначе. Для этого воспользуемся тем, что событие X < 3 является дополнительным по отношению к событию Х> 3. Тогда Р(Х< 3) = 1 – Р(Х> 3) = 1 – 0,0037 = 0,9963.

По мере увеличения объема выборки n вычисления, аналогичные проведенным в примере 3, становятся затруднительными. Чтобы избегать этих сложностей, многие биномиальные вероятности табулируют заранее. Некоторые из этих вероятностей приведены рис. 1. Например, чтобы получить вероятность, что Х = 2 при n = 4 и p = 0,1, следует извлечь из таблицы число, стоящее на пересечении строки Х = 2 и столбца р = 0,1.

Рис. 1. Биномиальная вероятность при n = 4, Х = 2 и р = 0,1

Биномиальное распределение можно вычислить с помощью функции Excel =БИНОМ.РАСП() (рис. 2), имеющей 4 параметра: число успехов – Х , число испытаний (или объем выборки) – n , вероятность успеха – р , параметр интегральная , принимающий значения ИСТИНА (в этом случае вычисляется вероятность не менее Х событий) или ЛОЖЬ (в этом случае вычисляется вероятность точно Х событий).

Рис. 2. Параметры функции =БИНОМ.РАСП()

Для вышеприведенных трех примеров расчеты приведены на рис. 3 (см. также Excel-файл). В каждом столбце приведено по одной формуле. Цифрами показаны ответы на примеры соответствующего номера).

Рис. 3. Расчет биноминального распределения в Excel для n = 4 и p = 0,1

Свойства биномиального распределения

Биномиальное распределение зависит от параметров n и р . Биномиальное распределение может быть, как симметричным, так и асимметричным. Если р = 0,05, биномиальное распределение является симметричным независимо от величины параметра n . Однако, если р ≠ 0,05, распределение становится асимметричным. Чем ближе значение параметра р к 0,05 и чем больше объем выборки n , тем слабее выражена асимметрия распределения. Таким образом, распределение количества неправильно заполненных форм смещено вправо, поскольку p = 0,1 (рис. 4).

Рис. 4. Гистограмма биномиального распределения при n = 4 и p = 0,1

Математическое ожидание биномиального распределения равно произведению объема выборки n на вероятность успеха р :

(3) Μ = Е(Х) = np

В среднем, при достаточно долгой серии испытаний в выборке, состоящей из четырех заказов, может оказаться р = Е(Х) = 4 х 0,1 = 0,4 неправильно заполненных форм.

Стандартное отклонение биномиального распределения

Например, стандартное отклонение количества неверно заполненных форм в бухгалтерской информационной системе равно:

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 307–313

Распределения вероятностей дискретных случайных величин. Биномиальное распределение. Распределение Пуассона. Геометрическое распределение. Производящая функция.

6. Распределения вероятностей дискретных случайных величин

6.1. Биномиальное распределение

Пусть производится n независимых испытаний, в каждом из которых событие A может либо появится, либо не появится. Вероятность p появления события A во всех испытаниях постоянна и не изменяется от испытания к испытанию. Рассмотрим в качестве случайной величины X число появлений события A в этих испытаниях. Формула, позволяющая найти вероятность появления события A ровно k раз в n испытаниях, как известно, описывается формулой Бернулли

Распределение вероятностей, определяемое формулой Бернулли, называется биномиальным .

Этот закон назван "биномиальным" потому, что правую часть можно рассматривать как общий член разложения бинома Ньютона

Запишем биномиальный закон в виде таблицы

p n

np n –1 q

q n

Найдем числовые характеристики этого распределения.

По определению математического ожидания для ДСВ имеем

.

Запишем равенство, являющееся бином Ньютона

.

и продифференцируем его по p. В результате получим

.

Умножим левую и правую часть на p :

.

Учитывая, что p + q =1, имеем

(6.2)

Итак, математическое ожидание числа появлений событий в n независимых испытаниях равно произведению числа испытаний n на вероятность p появления события в каждом испытании .

Дисперсию вычислим по формуле

.

Для этого найдем

.

Предварительно продифференцируем формулу бинома Ньютона два раза по p :

и умножим обе части равенства на p 2:

Следовательно,

Итак, дисперсия биномиального распределения равна

. (6.3)

Данные результаты можно получить и из чисто качественных рассуждений. Общее число X появлений события A во всех испытаниях складываются из числа появлений события в отдельных испытаниях. Поэтому если X 1 – число появлений события в первом испытании, X 2 – во втором и т.д., то общее число появлений события A во всех испытаниях равно X=X 1 +X 2 +…+X n . По свойству математического ожидания:

Каждое из слагаемых правой части равенства есть математическое ожидание числа событий в одном испытании, которое равно вероятности события. Таким образом,

По свойству дисперсии:

Так как , а математическое ожидание случайной величины, которое может принимать только два значения, а именно 1 2 с вероятностью p и 0 2 с вероятностью q , то
. Таким образом,
В результате, получаем

Воспользовавшись понятием начальных и центральных моментов, можно получить формулы для асимметрии и эксцесса:

. (6.4)

Рис. 6.1

Многоугольник биномиального распределения имеет следующий вид (см. рис. 6.1). ВероятностьP n (k ) сначала возрастает при увеличении k , достигает наибольшего значения и далее начинает убывать. Биномиальное распределение асимметрично, за исключением случая p =0,5. Отметим, что при большом числе испытаний n биномиальное распределение весьма близко к нормальному. (Обоснование этого предложения связано с локальной теоремой Муавра-Лапласа.)

Число m 0 наступлений события называется наивероятнейшим , если вероятность наступления события данное число раз в этой серии испытаний наибольшая (максимум в многоугольнике распределения) . Для биномиального распределения

Замечание. Данное неравенство можно доказать, используя рекуррентную формулу для биномиальных вероятностей:

(6.6)

Пример 6.1. Доля изделий высшего сорта на данном предприятии составляет 31%. Чему равно математического ожидание и дисперсия, также наивероятнейшее число изделий высшего сорта в случайно отобранной партии из 75 изделий?

Решение. Поскольку p =0,31, q =0,69, n =75, то

M[X ] = np = 750,31 = 23,25; D[X ] = npq = 750,310,69 = 16,04.

Для нахождения наивероятнейшего числа m 0 , составим двойное неравенство

Отсюда следует, что m 0 = 23.

Биномиальное распределение - одно из важнейших распределений вероятностей дискретно изменяющейся случайной величины. Биномиальным распределением называется распределение вероятностей числа m наступления события А в n взаимно независимых наблюдениях . Часто событие А называют "успехом" наблюдения, а противоположное ему событие - "неуспехом", но это обозначение весьма условное.

Условия биномиального распределения :

  • в общей сложности проведено n испытаний, в которых событие А может наступить или не наступить;
  • событие А в каждом из испытаний может наступить с одной и той же вероятностью p ;
  • испытания являются взаимно независимыми.

Вероятность того, что в n испытаниях событие А наступит именно m раз, можно вычислить по формуле Бернулли:

,

где p - вероятность наступления события А ;

q = 1 - p - вероятность наступления противоположного события .

Разберёмся, почему биномиальное распределение описанным выше образом связано с формулой Бернулли . Событие - число успехов при n испытаниях распадается на ряд вариантов, в каждом из которых успех достигается в m испытаниях, а неуспех - в n - m испытаниях. Рассмотрим один из таких вариантов - B 1 . По правилу сложения вероятностей умножаем вероятности противоположных событий:

,

а если обозначим q = 1 - p , то

.

Такую же вероятность будет иметь любой другой вариант, в котором m успехов и n - m неуспехов. Число таких вариантов равно - числу способов, которыми можно из n испытаний получить m успехов.

Сумма вероятностей всех m чисел наступления события А (чисел от 0 до n ) равна единице:

где каждое слагаемое представляет собой слагаемое бинома Ньютона. Поэтому рассматриваемое распределение и называется биномиальным распределением.

На практике часто необходимо вычислять вероятности "не более m успехов в n испытаниях" или "не менее m успехов в n испытаниях". Для этого используются следующие формулы.

Интегральную функцию, то есть вероятность F (m ) того, что в n наблюдениях событие А наступит не более m раз , можно вычислить по формуле:

В свою очередь вероятность F (≥m ) того, что в n наблюдениях событие А наступит не менее m раз , вычисляется по формуле:

Иногда бывает удобнее вычислять вероятность того, что в n наблюдениях событие А наступит не более m раз, через вероятность противоположного события:

.

Какой из формул пользоваться, зависит от того, в какой из них сумма содержит меньше слагаемых.

Характеристики биномиального распределения вычисляются по следующим формулам .

Математическое ожидание: .

Дисперсия: .

Среднеквадратичное отклонение: .

Биномиальное распределение и расчёты в MS Excel

Вероятность биномиального распределения P n (m ) и значения интегральной функции F (m ) можно вычислить при помощи функции MS Excel БИНОМ.РАСП. Окно для соответствующего расчёта показано ниже (для увеличения нажать левой кнопкой мыши).


MS Excel требует ввести следующие данные:

  • число успехов;
  • число испытаний;
  • вероятность успеха;
  • интегральная - логическое значение: 0 - если нужно вычислить вероятность P n (m ) и 1 - если вероятность F (m ).

Пример 1. Менеджер фирмы обобщил информацию о числе проданных в течение последних 100 дней фотокамер. В таблице обобщена информация и рассчитаны вероятности того, что в день будет продано определённое число фотокамер.

День завершён с прибылью, если продано 13 или более фотокамер. Вероятность, что день будет отработан с прибылью:

Вероятность того, что день будет отработан без прибыли:

Пусть вероятность того, что день отработан с прибылью, является постоянной и равна 0,61, и число проданных в день фотокамер не зависит от дня. Тогда можно использовать биномиальное распределение, где событие А - день будет отработан с прибылью, - без прибыли.

Вероятность того, что из 6 дней все будут отработаны с прибылью:

.

Тот же результат получим, используя функцию MS Excel БИНОМ.РАСП (значение интегральной величины - 0):

P 6 (6 ) = БИНОМ.РАСП(6; 6; 0,61; 0) = 0,052.

Вероятность того, что из 6 дней 4 и больше дней будут отработаны с прибылью:

где ,

,

Используя функцию MS Excel БИНОМ.РАСП, вычислим вероятность того, что из 6 дней не более 3 дней будут завершены с прибылью (значение интегральной величины - 1):

P 6 (≤3 ) = БИНОМ.РАСП(3; 6; 0,61; 1) = 0,435.

Вероятность того, что из 6 дней все будут отработаны с убытками:

,

Тот же показатель вычислим, используя функцию MS Excel БИНОМ.РАСП:

P 6 (0 ) = БИНОМ.РАСП(0; 6; 0,61; 0) = 0,0035.

Решить задачу самостоятельно, а затем посмотреть решение

Пример 2. В урне 2 белых шара и 3 чёрных. Из урны вынимают шар, устанавливают цвет и кладут обратно. Попытку повторяют 5 раз. Число появления белых шаров - дискретная случайная величина X , распределённая по биномиальному закону. Составить закон распределения случайной величины. Определить моду, математическое ожидание и дисперсию.

Продолжаем решать задачи вместе

Пример 3. Из курьерской службы отправились на объекты n = 5 курьеров. Каждый курьер с вероятностью p = 0,3 независимо от других опаздывает на объект. Дискретная случайная величина X - число опоздавших курьеров. Построить ряд распределения это случайной величины. Найти её математическое ожидание, дисперсию, среднее квадратическое отклонение. Найти вероятность того, что на объекты опоздают не менее двух курьеров.

Приветствую всех читателей!

Статистический анализ, как известно, занимается сбором и обработкой реальных данных. Дело полезное, а зачастую и выгодное, т.к. правильные выводы позволяют избежать ошибок и потерь в будущем, а иногда и правильно угадать это самое будущее. Собранные данные отражают состояние некоторого наблюдаемого явления. Данные часто (но не всегда) имеют числовой вид и с ними можно проделывать различные математические манипуляции, извлекая тем самым дополнительную информацию.

Однако не все явления измеряются в количественной шкале типа 1, 2, 3 … 100500 … Не всегда явление может принимать бесконечное или большое количество различных состояний. Например, пол у человека может быть либо М, либо Ж. Стрелок либо попадает в цель, либо не попадает. Голосовать можно либо «За», либо «Против» и т.д. и т.п. Другими словами, такие данные отражают состояние альтернативного признака – либо «да» (событие наступило), либо «нет» (событие не наступило). Наступившее событие (положительный исход) еще называют «успехом». Такие явления также могут носить массовый и случайный характер. Следовательно, их можно измерять и делать статистически обоснованные выводы.

Эксперименты с такими данными называются схемой Бернулли , в честь известного швейцарского математика, который установил, что при большом количестве испытаний соотношение положительных исходов и общего количества испытаний стремится к вероятности наступления этого события.

Переменная альтернативного признака

Для того, чтобы в анализе задействовать математический аппарат, результаты подобных наблюдений следует записать в числовом виде. Для этого положительному исходу присваивают число 1, отрицательному – 0. Другими словами, мы имеем дело с переменной, которая может принимать только два значения: 0 или 1.

Какую пользу отсюда можно извлечь? Вообще-то не меньшую, чем от обычных данных. Так, легко подсчитать количество положительных исходов – достаточно просуммировать все значения, т.е. все 1 (успехи). Можно пойти далее, но для этого потребуется ввести парочку обозначений.

Первым делом нужно отметить, что положительные исходы (которые равны 1) имеют некоторую вероятность появления. Например, выпадение орла при подбрасывании монеты равно ½ или 0,5. Такая вероятность традиционно обозначается латинской буквой p . Следовательно, вероятность наступления альтернативного события равна 1 — p , которую еще обозначают через q , то есть q = 1 – p . Указанные обозначения можно наглядно систематизировать в виде таблички распределения переменной X .

Теперь у нас есть перечень возможных значений и их вероятности. Можно приступить к расчету таких замечательных характеристик случайной величины, как математическое ожидание и дисперсия . Напомню, что математическое ожидание рассчитывается, как сумма произведений всех возможных значений на соответствующие им вероятности:

Вычислим матожидание, используя обозначения в таблицы выше.

Получается, что математическое ожидание альтернативного признака равно вероятности этого события – p .

Теперь определим, что такое дисперсия альтернативного признака. Также напомню, что дисперсия – есть средний квадрат отклонений от математического ожидания. Общая формула (для дискретных данных) имеет вид:

Отсюда дисперсия альтернативного признака:

Нетрудно заметить, что эта дисперсия имеет максимум 0,25 (при p=0,5) .

Среднее квадратическое отклонение – корень из дисперсии:

Максимальное значение не превышает 0,5.

Как видно, и математическое ожидание, и дисперсия альтернативного признака имеют очень компактный вид.

Биномиальное распределение случайной величины

Теперь рассмотрим ситуацию под другим углом. Действительно, кому интересно, что среднее выпадение орлов при одном бросании равно 0,5? Это даже невозможно представить. Интересней поставить вопрос о числе выпадения орлов при заданном количестве подбрасываний.

Другими словами, исследователя часто интересует вероятность наступления некоторого числа успешных событий. Это может быть количество бракованных изделий в проверяемой партии (1- бракованная, 0 — годная) или количество выздоровлений (1 – здоров, 0 – больной) и т.д. Количество таких «успехов» будет равно сумме всех значений переменной X , т.е. количеству единичных исходов.

Случайная величина B называется биномиальной и принимает значения от 0 до n (при B = 0 — все детали годные, при B = n – все детали бракованные). Предполагается, что все значения x независимы между собой. Рассмотрим основные характеристики биномиальной переменной, то есть установим ее математическое ожидание, дисперсию и распределение.

Матожидание биномиальной переменной получить очень легко. Вспомним, что есть сумма математических ожиданий каждой складываемой величины, а оно у всех одинаковое, поэтому:

Например, математическое ожидание количества выпавших орлов при 100 подбрасываниях равно 100 × 0,5 = 50.

Теперь выведем формулу дисперсии биномиальной переменной. есть сумма дисперсий. Отсюда

Среднее квадратическое отклонение, соответственно

Для 100 подбрасываний монеты среднеквадратическое отклонение равно

И, наконец, рассмотрим распределение биномиальной величины, т.е. вероятности того, что случайная величина B будет принимать различные значения k , где 0≤ k ≤n . Для монеты эта задача может звучать так: какова вероятность выпадения 40 орлов при 100 бросках?

Чтобы понять метод расчета, представим, что монета подбрасывается всего 4 раза. Каждый раз может выпасть любая из сторон. Мы задаемся вопросом: какова вероятность выпадения 2 орлов из 4 бросков. Каждый бросок независим друг от друга. Значит, вероятность выпадения какой-либо комбинации будет равна произведению вероятностей заданного исхода для каждого отдельного броска. Пусть О – это орел, Р – решка. Тогда, к примеру, одна из устраивающих нас комбинаций может выглядеть как ООРР, то есть:

Вероятность такой комбинации равняется произведению двух вероятностей выпадения орла и еще двух вероятностей не выпадения орла (обратное событие, рассчитываемое как 1 — p ), т.е. 0,5×0,5×(1-0,5)×(1-0,5)=0,0625. Такова вероятность одной из устраивающих нас комбинации. Но вопрос ведь стоял об общем количестве орлов, а не о каком-то определенном порядке. Тогда нужно сложить вероятности всех комбинаций, в которых присутствует ровно 2 орла. Ясно, все они одинаковы (от перемены мест множителей произведение не меняется). Поэтому нужно вычислить их количество, а затем умножить на вероятность любой такой комбинации. Подсчитаем все варианты сочетаний из 4 бросков по 2 орла: РРОО, РОРО, РООР, ОРРО, ОРОР, ООРР. Всего 6 вариантов.

Следовательно, искомая вероятность выпадения 2 орлов после 4 бросков равна 6×0,0625=0,375.

Однако подсчет подобным образом утомителен. Уже для 10 монет методом перебора получить общее количество вариантов будет очень трудно. Поэтому умные люди давно изобрели формулу, с помощью которой рассчитывают количество различных сочетаний из n элементов по k , где n – общее количество элементов, k – количество элементов, варианты расположения которых и подсчитываются. Формула сочетания из n элементов по k такова:

Подобные вещи проходят в разделе комбинаторики. Всех желающих подтянуть знания отправляю туда. Отсюда, кстати, и название биномиального распределения (формула выше является коэффициентом в разложении бинома Ньютона).

Формулу для определения вероятности легко обобщить на любое количество n и k . В итоге формула биномиального распределения имеет следующий вид.

Словами: количество подходящих под условие комбинаций умножить на вероятность одной из них.

Для практического использования достаточно просто знать формулу биномиального распределения. А можно даже и не знать – ниже показано, как определить вероятность с помощью Excel. Но лучше все-таки знать.

Рассчитаем по этой формуле вероятность выпадения 40 орлов при 100 бросках:

Или всего 1,08%. Для сравнения вероятность наступления математического ожидания этого эксперимента, то есть 50 орлов, равна 7,96%. Максимальная вероятность биномиальной величины принадлежит значению, соответствующему математическому ожиданию.

Расчет вероятностей биномиального распределения в Excel

Если использовать только бумагу и калькулятор, то расчеты по формуле биноминального распределения, несмотря на отсутствие интегралов, даются довольно тяжело. К примеру значение 100! – имеет более 150 знаков. Вручную рассчитать такое невозможно. Раньше, да и сейчас тоже, для вычисления подобных величин использовали приближенные формулы. В настоящий момент целесообразно использовать специальное ПО, типа MS Excel. Таким образом, любой пользователь (даже гуманитарий по образованию) вполне может вычислить вероятность значения биномиально распределенной случайной величины.

Для закрепления материала задействуем Excel пока в качестве обычного калькулятора, т.е. произведем поэтапное вычисление по формуле биномиального распределения. Рассчитаем, например, вероятность выпадения 50 орлов. Ниже приведена картинка с этапами вычислений и конечным результатом.

Как видно, промежуточные результаты имеют такой масштаб, что не помещаются в ячейку, хотя везде и используются простые функции типа: ФАКТР (вычисление факториала), СТЕПЕНЬ (возведение числа в степень), а также операторы умножения и деления. Более того, этот расчет довольно громоздок, во всяком случаен не является компактным, т.к. задействовано много ячеек. Да и разобраться с ходу трудновато.

В общем в Excel предусмотрена готовая функция для вычисления вероятностей биномиального распределения. Функция называется БИНОМ.РАСП.

Число успехов – количество успешных испытаний. У нас их 50.

Число испытаний – количество подбрасываний: 100 раз.

Вероятность успеха – вероятность выпадения орла при одном подбрасывании 0,5.

Интегральная – указывается либо 1, либо 0. Если 0, то рассчитается вероятность P(B=k) ; если 1, то рассчитается функция биномиального распределения, т.е. сумма всех вероятностей от B=0 до B=k включительно.

Нажимаем ОК и получаем тот же результат, что и выше, только все рассчиталось одной функцией.

Очень удобно. Эксперимента ради вместо последнего параметра 0 поставим 1. Получим 0,5398. Это значит, что при 100 подкидываниях монеты вероятность выпадения орлов в количестве от 0 до 50 равна почти 54%. А поначалу то казалось, что должно быть 50%. В общем, расчеты производятся легко и быстро.

Настоящий аналитик должен понимать, как ведет себя функция (каково ее распределение), поэтому произведем расчет вероятностей для всех значений от 0 до 100. То есть зададимся вопросом: какова вероятность, что не выпадет ни одного орла, что выпадет 1 орел, 2, 3, 50, 90 или 100. Расчет приведен в нижеследующей самодвигающейся картинке. Синяя линия – само биномиальное распределение, красная точка – вероятность для конкретного числа успехов k.

Кто-то может спросить, а не похоже ли биномиальное распределение на… Да, очень похоже. Еще Муавр (в 1733 г.) говорил, что биномиальное распределение при больших выборках приближается к (не знаю, как это тогда называлось), но его никто не слушал. Только Гаусс, а затем и Лаплас через 60-70 лет вновь открыли и тщательно изучили нормальной закон распределения. На графике выше отлично видно, что максимальная вероятность приходится на математическое ожидание, а по мере отклонения от него, резко снижается. Также, как и у нормального закона.

Биномиальное распределение имеет большое практическое значение, встречается довольно часто. С помощью Excel расчеты проводятся легко и быстро. Так что можно смело использовать.

На этом предлагаю распрощаться до следующей встречи. Всех благ, будьте здоровы!