众所周知,统计是数据分析的基石研究统计数据后,你会发现很多时候分析并不那么准确,例如,许多人喜欢用平均值来分析一件事情的结果,但这往往是粗略的。统计可以帮助我们从更科学的角度看待数据,并逐渐接近数据背后的“真相”。大部分数据分析将使用以下统计知识,可以重点学习:
概率简介
离散概率分布和连续概率分布
抽样和抽样分布
区间估计
假设检验
1,概率简介概率是特定事件概率的数值度量,介于0和1之间我们掷硬币,它有两个结果:正面朝上和背面朝上,通常用样本空间S表示,S={正面,背面},而正面朝上的具体测试结果称为样本点对于小样本空间的实验,我们可以很容易地观察到它们样本空间的大小,而对于更复杂的实验,我们需要学习一些计数规则。
1,计数规则
(1)计数规则
用于多步测试如果一个测试可以按顺序分成k步,N1测试结果在步骤1,N2测试结果在步骤2...等等那么所有测试结果的总数就是N1*N2*N3...*Nk
例如:投掷两枚硬币,第一枚硬币有正面和负面结果,第二枚硬币有正面和负面结果因此,测试结果的总数是2X2=4
(2)组合计数规则
从n个项目中取n个项目的组合数
,并且
N和n的上下位置与我们通常看到的相反因为在这里我们是基于欧洲和美国的规范
示例:从5个彩球中选择2个彩球。有多少种方法?
(3)排列计数规则
从n个项目中取n个项目的排列数
示例:从5个彩球中选择2个彩球,有多少种排列方法?
的替换给出了20个答案
2,事件及其概率
(1)事件
实际上是样本空间的子集。一般来说,如果一个实验的所有样本点都可以确定,并且每个样本点的概率都是已知的,那么我们就可以计算事件的概率
(2)概率
事件A的基本性质补充:指事件A中未包含的所有样本点的组合,因此概率P(A)=1-P(A-)
事件:两个圆形区域相交的部分是事件A和b的并集,重叠部分表示一些样本点同时属于A和b,这可以称为交集
给出了
P(A∪B)= P(A)+P(B)-P(A ∪; B)的加法公式
P(A∪B)是两个圆形区域,P(A)是蓝色圆形区域,P(B)是橙色圆形区域。当两者相加时,将会有一个额外的重叠区域。因此,减去p(a≈b)进行校正,以获得正确的结果。
如果事件A发生的可能性受到另一事件B的影响,则事件A发生的可能性称为条件概率,记录为P(A|B)它表明我们考虑了在条件乙已经发生的情况下,事件甲发生的可能性,这在统计学上称为给定条件乙下事件甲的概率。
然后得到乘法公式:
(3)贝叶斯定理
简单来说,贝叶斯定理实际上是,我们首先假设一个事件的概率,然后找到一个消息,最后得到这个事件在这个消息下的概率
举一个我们生活的例子,当我们与一个被怀疑做坏事的人聊天时,我们首先假设他做坏事的概率是a,然后我们根据我们与他交谈的信息对他有了新的理解,并重新判断他做坏事的概率b
贝叶斯就是要解释这样一个事实:b的概率=新信息出现后b的概率x新信息带来的调整
如果很难直接计算P(A),但计算P(Bj),P(A|Bj) (j=1,2,...)相对简单,P(A)可以用全概率公式计算
的思想是将事件A分解成几个小事件,通过计算小事件的概率,然后将它们相加,得到事件A的概率。当划分事件A时,不是直接划分A,而是划分一个分区B1,B2,...首先找到样本空间ω的Bn,这样事件A被事件AB1、AB2,...荷兰银行。也就是说,A=AB1+AB2+...+ABn,每个Bj出现可能导致相应的概率P(A|Bj),从加法公式:
p (a) = p (ab1)+p (ab2)+....+p(ABN)= p(a | B1)p(B1)+p(a | B2)p(B2)+...+p (a | bn) p (pbn)
。因此,调整后的贝叶斯公式为
概率。测试结果通常被称为随机变量随机变量给每个可能的测试结果一个数值,包括离散随机变量和连续随机变量。由于随机变量可以取不同的值,统计学家用概率分布来描述随机变量取不同值的概率。相应地,也有离散概率分布和连续概率分布
1,数学期望和方差
数学期望是随机变量中心位置的度量是每个可能结果的概率之和乘以它在测试中的结果。简而言之,这是概率的平均值。
方差是随机变量的可变性或离差程度的度量
,其中u为E(x)
2,离散概率分布
(1)二项式概率分布
二项式分布是离散概率分布因此,正如定义所暗示的,二项式意味着它有两种可能的结果,一种叫做成功,另一种叫做失败。
除了规定的结果外,它还需要满足其他性质:每次测试成功的概率相同,记为P;失败的概率也是一样的,1-p每个测试必须相互独立,这个测试也称为伯努利测试,重复n次是二项式概率。抛硬币是典型的二项式分布当我们要计算抛硬币n次的概率时,恰好是正面朝上的x次,我们可以用二项式分布的公式:
,二项式概率的数学期望是E(x) = np,方差Var(x) = np(1-p)
(2)泊松概率分布
泊松概率是另一个常用的离散随机变量,主要用于估计一个事件在特定时间或空间发生的次数例如,一天中赢家的数量,一个月中机器损坏的次数,等等。
泊松概率的成立条件是,在任意两个等长的区间内,时间发生的概率是相同的,事件发生与否是相互独立的。由于
泊松概率代表一个事件在一个时间间隔内发生的次数,因此次数没有上限。x可以是无限的,但是概率无限接近于0,f(x)的最终值非常小。
x表示x次出现,u表示出现次数的数学期望,概率函数为
,其中泊松概率分布的数学期望和方差相等。
3和连续概率分布
都是离散概率分布。当随机变量是连续的,情况就完全不同了。因为离散概率的本质是找到x取某个值的概率,而连续随机变量不能,它的值可以被无限除,当它取某个值时,概率约为0连续变量是随机变量在一定区间内取值的概率,此时的概率函数称为概率密度函数。
(1)均匀概率分布
随机变量在任何两个子区间的概率是相同的
均匀概率密度函数:
数学期望:
方差:
(2)正态概率分布
正态概率分布是连续随机变量中最重要的分布世界上大多数的分布属于正态分布,还有人的身高和体重、检查结果、降雨量等。大约受其影响。
正态分布是相同的钟形曲线中间高,两边低,左右对称。想象一下身高、体重和考试分数是否都显示出这种分布:大部分数据集中在一个地方,一小部分向两端倾斜。
正态概率密度函数为:
u代表平均值,σ代表标准差。两者的不同值将导致不同形状的正态分布。平均值表示正态分布的左右偏差。标准偏差决定了曲线的宽度和平坦度。标准差越大,曲线越平坦。
正态分布的经验法则:69.3%的正态随机变量在均值±1个标准差范围内,95.4%在2个标准差范围内,99.7%在3个标准差范围内
均值u=0,标准差σ=1的正态分布称为标准正态分布其随机变量用z表示,均值和标准差代入正态概率密度函数,得到一个简化公式:
为了计算概率,需要学习一个新的函数,称为累积分布函数,它是概率密度函数的积分使用P(X & lt;=x)表示随机变量小于或等于某个值的概率,F(X)= P(X & lt;=x)
曲线f(x)是概率密度函数,曲线与x轴相交的阴影区域是累积分布函数
标准正态分布:
图像的分布函数如下:
计算三种概率(这里需要说明的是,只有当使用标准正态分布时,随机变量用z表示):
● z小于或等于给定值的概率直接带入分布函数,得到
,如:p(z & lt;= 1)=φ(1)= 0.8413(1值左侧标准正态曲线下的面积)
● z给定两个值之间的概率
,例如:P(-1 & lt;=z<。= 1.25)= P(z & lt;= 1.25)-P(z & lt;=-1)=φ(1.25)-φ(1)= 0.735
●z大于或等于给定值
的概率,例如:P(z & gt;1)= 1-P(z & lt;=1) =1-φ(1)= 0.1586
正态分布与正态分布的关系:任何正态分布都可以通过线性变换转化为正态分布它基于下面的定理:
做一个下面的主题练习!
现在有一个正态随机变量,u=10,σ=2。在10和14之间找到x的概率是多少?x=10时为
,z=(10-10)/2=2当x=14时,z=(14-10)/2=2那么x在10和14之间的概率等于标准正态分布中0和2之间的概率计算P(0 & lt;=z<。= 2)= P(z & lt;= 2)-P(z & lt;=0) =0.4772
(3)指数概率分布
指数概率密度函数:
其中x > 0。=0,u为平均值,e=2.71828
计算概率:
指数随机变量取小于或等于某一特定值X0的概率
和指数概率分布的期望值=标准差
4,指数分布对泊松分布
泊松分布:这是一个离散的概率分布,描述了每个区间内的事件数
指数分布:这是一个连续的概率分布,描述了事件发生的时间间隔长度
为了说明这个问题,简单地举两个小例子:
(1)20分钟内购买肯德基早餐的平均人数是10,那么如果计算出x个人在20分钟内购买肯德基早餐的概率,应该使用泊松概率函数:20分钟内购买肯德基早餐的平均人数是10,那么如果计算出两个顾客在20分钟内购买肯德基早餐的概率小于x0,那么应该使用指数概率函数
的平均购买间隔是u=10/20=0.5
,这就把u带入下面的公式:
3,抽样和抽样分布首先,无论是从有限总体抽样还是从无限总体抽样,都要满足抽样的随机性
1,
我们抽样获得样本统计量以便估计总体参数
样本均值(x-pull)是总体均值的点估计u
样本标准差s是总体标准差的点估计σ
样本比值(p-pull)是总体比值的点估计p
2,抽样分布
事实上如果我们拿一个简单的随机样本作为实验,那么(x-pull)具有期望、方差、标准差和概率分布((x-pull)概率分布是(x-pull)抽样分布)
(1)抽样均值的抽样分布
(x-pull)抽样:抽样均值的所有可能值的概率分布(x-pull)
(x-pull)数学期望:
其中u是整个人群的期望,以及(x-pull)
当样本量占总人口的5%以上时,计算样本标准差的公式如下:
当样本量占总人口的5%以下时,公式可简化为
,其中n为样本量,n为总人口量,σ为总人口标准差,σ(x-pull)为样本标准差的焦点
:
●256
●当人口不服从正态分布时:
a。中心极限定理:从总体中抽取一个容量为n的简单随机样本。当样本量较大时,样本均值(x-pull)的抽样分布近似服从正态概率分布
b。事实上,在大多数应用中,当样本量大于30时,( x-pull)的采样分布近似遵循
(2)的采样分布,而正态概率分布为
(p-pull):样本比率(p-pull)
的所有可能值的概率分布,其中:x=具有感兴趣特征的个体数量,N=样本量
(p-pull):
的数学期望 其中p=总体比率(p-pull)的标准偏差:当样本量占总体的5%以上时,
,计算样本标准偏差的公式如下:当样本量占总体的5%以下时,公式可简化为
,其中n为样本量,n为总体量。 p是总体比率,σ(p-pull)是样本标准差的抽样分布形式
(p-pull):
在上述公式中,x是服从二项式分布的随机变量,n是常数,所以(p-pull)也是离散概率分布事实上,如果样本量足够大并且大于。=5且n(1-p)> 1。=5,二项式分布可以用正态分布近似,而抽样分布(P-pull)可以用正态分布近似
4,区间估计点估计是用于估计人口参数的样本统计,但是我们不能通过点估计给出人口参数的精确值。一个更可靠的方法是加减一个边际误差。估计(区间估计)
1通过一个区间值,估计
(1)人口平均区间的估计:
为σ已知情况:
为人口平均估计:
●用人口标准差σ计算边际误差
●人口标准差可以在抽样前通过大量历史数据来估计
下面做一个例子来感受一下吧!
这是一个关于顾客购物消费的问题。根据历史数据,σ= 20美元,总体分布正常。现在取一个简单的随机样本,n=100个顾客,其样本均值(x-bar) =82美元求解总体均值的区间估计
开始回答:
●人口服从正态分布,所以样本均值的抽样分布也是正态分布
●根据σ= 20,
美元●因此,X-pull的抽样分布遵循正态分布
,标准偏差σ(x-pull) =2 ●任何正态分布的随机变量的95%的值在平均值附近的1.96标准偏差(可通过查表获得)
● σ (X-pull) =2内。(x-pull)所有值的95%落在[u+和-1.96σ(x-pull)范围内,即u+和-3.92]
,即
(x-pull)= 82,
美元,因此u的区间估计为(78.08,85.92)
,其中区间建立在具有置信系数的95%置信水平上置信区间(78.08,85.92)为95%
根据公式计算间隔。边际误差和区间估计如下图所示:
。因此,在90%、95%和99%置信水平的条件下,
为90%,在99%置信水平的条件下,置信区间为
。事实上,我们也可以得出这样的结论:我们想要达到的置信水平越高,边际误差越大,置信区间越宽。
(2)总体均值的区间估计:当σ未知时
●当σ未知时,我们需要用同一个样本来估计u和σ参数
●当σ用s估计时,边际误差和总体均值的区间估计是基于t分布的,总体是否正态可以用t分布来估计是很好的。
t分布:
具有由概率分布组成的相似分布族;一定的T分布取决于自由度的参数。自由度越大,T分布和标准正态分布之间的差异越小。T分布的平均值为0;
类似于z分布,是
例如,
使用以下计算公式:
边际误差:
区间估计
样本标准偏差
自由度:n-1
注意:
(3)样本大小的确定
我们可以选择足够多的样本 σ的初始值可通过以下方法确定:
●根据以前研究中的数据计算总体标准差的估计值
●使用实验研究,选择初始样本,初始样本的标准差用作估计值
●判断或最佳猜测σ:以计算范围/4为标准差的粗略估计值
2和以总体的区间估计值
直接公式:
边际误差:
区间估计:
(1)样本量的确定
我们可以选择足够的样本量来达到期望的边际误差
边际误差:
因此样本量为
,因为预采样(p-pull)未知。不能用于计算达到预期边际误差所需的样本量,因此使(p星)代表(p拉)计划值
(2)p星
的确定●使用以前研究中相似样本的样本比作为计划值
●使用实验研究选择初始样本,并使用初始样本的样本比作为计划值
●使用判断或最佳猜测作为计划值
●如果以上都不可能,则计划值为0.5,因为当P(星)=0.5时,P星*(1-p星)获得最大值,而样本大小也可以取最大值。
5,假设检验什么是假设检验?假设检验是对总体参数做出一个试探性假设,这个试探性假设称为原始假设,然后定义一个与原始假设完全相反的假设称为替代假设其中,替代假设是我们希望建立的判断,而原始假设是我们不希望建立的判断。
假设检验包括以下内容:
低总体均值检验:σ已知和σ未知情况下的
低总体比值假设检验:σ已知和σ未知情况下的
低总体比值假设检验:σ已知和σ未知情况下的
低总体均值检验,其他基于区间估计的证明和以下例子很容易理解检查
的总体平均值:σ已知案例
通过示例准备一个示例来说明该想法:
质量检查机构检查品牌咖啡的标签是否显示有3磅咖啡。现在质检机构需要确定每罐咖啡的质量至少为3磅,以确保消费者的权益。我们已经知道σ=0.18,现在我们已经采取了n=36罐咖啡形成一个随机样本,并计算出(x-pull) =2.92
开始回答:
●首先,我们理解期望的结果是证明u & lt3.因此,原始假设和替代假设提出如下:H0:单位& GT= 3;哈:u<。3
●允许我们在检验过程中以1%的概率出错,即α=0.01
●当样本n=36,σ=0.18时,原始均值的抽样分布服从正态概率分布
●因此,当(x-pull) =2.92时,z=-2.67
●由于原始假设 用标准正态概率表,当z=-2.69时,p=0.003856+
,其中我们可以理解,Z小于或等于-2.69,p=0.0038的概率很小,加上允许误差的概率为0.01(即发生概率为0.01,结果很小,我直接忽略)
,所以我们直接认为z小于或等于-2.69的事件太小,我们认为它不会发生。所以我们拒绝了h0: u > =3因此,在0.01的显著水平上,有足够的统计证据拒绝H0