二项分布 若某事件概率为p,现重复试验n次,该事件发生k次的概率为:P=C(k,n)×p^k×(1-p)^(n-k).C(k,n)表示组合数,即从n个事物中拿出k个的方法数.二项分布概念 在医学领域中,有一些随机事件是只具有两种互斥结果的离散镇滚迅型随机事件,称为二项分类变量(dichotomous variable),如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。 考虑只有两种可能结果的随机试验,当成功的概率(π)是恒定的,且各次试验相互独立,这种试验在统计学上称为贝努里试验(Bernoulli trial)。如果进行n次贝努里试验,取得成功次数为X(X=0,1,…,n)的概率可用下面的二项分布概率公式来描述: (7.1) 式中的n为独立的贝努里试验次数,π为成功的概率,(1-π)为失败的概率,X为在n次贝努里试验中出现成功的次数,表示在n次试验中出现X的各种组合情况,在此称为二项系数(binomial coefficient)。 所以的含义为御此:含量为n的样本中,恰好有例阳性数的概率。 含量为n的样本中,发生各种阳性数的概率正好为下列二项式展开的各项 (7.2) 式中,π为总体阳性率;n为样本含量;X为阳性数;(nX)为组合数,即二项式展开后各项的系数。二项分布应用条件 1.各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料。 2.已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π,实际工作中要求π是从大量观察中获得比较稳定的数值。 3.n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。二项分布性质 1.二项分布的均数和标准差在二项分布资料中,当π和n已知时,它的均数μ及其标准差σ可由式(7.3)和(7.4)算出。 μ=nπ(7.3) σ=(7.4) 若均数和标准差不用绝对数表示,而是用率表示时,即对式(7.3)和(7.4)分别除以n,得 μp=π(7.5) σp=(7.6) σp是样本率的标准误的理论值,当π未知时,常用样本率p作为π的估计值,式(7.6)变为: sp= (7.7) 2.二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计两种方法。从阳性率为π的总体中随机抽取含量为n的样本,则 (1)最多有k例阳性的概率 (7.8) (2)最少有k例阳性的概率 (7.9) 其中,X=0,1,2,…,k,…,n。 3.二项分布的图形已知π和n,就能按公式计算X=0,1,…,n时的P(X)值。以X为横坐标,以P(X)为纵坐标作图,即可绘出二项分布的图形,如图7.1,给出了p=0.5和 p=0.3时不同n值对应的二项分布图。 二项分布的形状取决于π和n的大小,高峰在m=np处。当p接近0.5时,图形是对称的;p离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。当n→∞时,只要p不太靠近0或1,特别是当nP和n(1-P)都大于5时,二项分布近似于正态分布。 π=0.5时,不同n值对应的二项分布 π=0.3时, 不同n值对应的二项分布 两点分布的分布列就是 X 0 1 P p 1-p 不论题目有什么区别,只有两种可能,要么是这种结果要么是那种结果,通俗点,要么成功要么失败 而二项分布的可能结果是不确定的甚至是没有尽头的, 列一个二项分布的分布列就是 备举 X 0 1 2 ……… n P C(0)(n)·(1-p)^n C(1)(n)·p·(1-p)^(n-1) …… C(n)(n)·p^n·(1-p)^0 也就是说当n=1时,这个特殊二项分布就会变成两点分布, 即两点分布是一种特殊的二项分布 像一楼说的二项分布是两点分布的多重实验也不无道理,因为两者都是独立的重复实验,只不过次数不同罢了 E(n) = np, var(n) = np(1-p) (n是实验次数,p是每次实验的概率)
标签:二项式,分布