统计学基础

描述性统计

统计学的大分类

  • 描述统计学
    使用特定的数字或图表来体现数据的集中和离散程度。如:平均值,最值,值的分布。
  • 推断统计学
    根据样本数据推断总体数据特征。如:产品质量检查时使用抽检。

集中趋势

一组数据向中心值靠拢的程度。

  • 均值:描述平均水平。
  • 中位数:描述中等水平。
  • 众数:描述一般水平。
优点 缺点
均值 充分利用所有数据,适用性强 容易受到极端值影响
中位数 不受极端值影响 缺乏敏感性
众数 当数据具有明显的集中趋势时,代表性好;不受极端值影响 缺乏唯一性:可能有一个,或多个,或没有

离散程度的描述

一组数据,距离中心越远,即极差或方差或标准差越大,则越离散。

  • 极差:最大值-最小值
  • 方差:每个数据距离中心的距离的平方的均值。其单位是原数据单位的平方。
    • 总体方差:$$\sigma^{2}=\frac{1}{N}\sum\limits_{i=1}^{N}(X_i-\mu)^2$$
    • 样本方差:$$\sigma^{2}=\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i-\bar x)^2$$
  • 标准差:方差的算术平方根。其单位与原数据单位一致。
    • 总体标准差:$$\sigma=\sqrt{\frac{1}{N}\sum\limits_{i=1}^{N}{(X_i-\mu)}^2}$$
    • 样本标准差:$$\sigma=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^{n-1}{(x_i-\bar x)}^2}$$
      其中,$X_i$表示总体中第i个数据的值,$x_i$表示样本中第i个数据的值;$\mu$表示总体数据集的均值,$\bar x$表示样本数据集的均值。

常见统计图表

直方图

  • 频数直方图频数图
  • 频率直方图

柱形图

显示一段时间内的数据变化或显示各项之间的比较情况。
柱形图

柱形图与直方图的区别:

  • 横坐标不同。直方图的横坐标是同一个变量的分组划分,而柱形图则是不同的组别。
  • 作用不同。直方图用于显示一组数据的分布情况,柱形图则是用于比较不同组别的数据差异。

箱线图

  • 下四分位数:Q1,将所有数据从小到大排列,排在第25%的位置的值。
  • 上四分位数:Q3,将所有数据从小到大排列,排在第75%的位置的值。
    分位数的位置:选择四分位的百分比值y,即样本总量n,分位数的位置可如下计算:
    $$L_y = n * \frac{y}{100}$$
    • 情况1:若L是整数,则取L和L+1的平均值;
    • 情况2:若L不是整数,则取下一个最近的整数。
      如:对于2,3,4,5,6这组样本数据,下四分位数的$y=25$,所以$L = n * \frac{25}{100} = 5 * 0.25 = 1.25$,故下四分位数应取位于第2位(L=2)的3.
  • 四分位距:IQR,为Q3-Q1。
  • 异常点:小于Q1-1.5IQR,或大于Q3+1.5IQR。
  • 上边缘:除异常点以外的数据中的最大值。
  • 下边缘:除异常点以外的数据中的最小值。箱线图的结构 箱线图的简单画法

茎叶图

茎叶图可以在保留全部数据信息的同时,直观地显示出数据的分布情况。
茎叶图的结构
茎叶图的简单画法

线图

线图

饼图

饼图

古典概型与几何概型

试验

对某种自然现象做一次观察或进行一次科学试验。

随机试验的特征

  • 可以在相同的条件下重复进行。
  • 试验的可能结果不止一个,但在试验前可以知道所有可能的结果。
  • 试验前不确定哪个结果会出现

样本空间

对于随机试验E,E的所有可能结果组成的集合称为E的样本空间,记为S。

  • 例1:抛掷一枚骰子,观察出现的点数。$S = \lbrace1,2,3,4,5,6\rbrace$
  • 例2:记录某车站某日某时刻的等车人数。$S = \lbrace0,1,2,3,…\rbrace$
  • 例3:考察某地区12月的平均气温。$S = \lbrace t|T_1<t<T_2\rbrace$

样本点

样本空间S中的元素,即E的每个可能的结果,称为样本点。

随机事件

试验E的样本空间S的某个子集,称为E的随机事件,简称事件。一般用大写字母A、B、C…表示。
如:在抛骰子试验中,“所得点数为偶数”是一个随机事件A,“所得点数为1”是一个随机事件B。

基本事件

由一个样本点组成的单点集。
如:在抛骰子试验中,“所得点数为1”是一个基本事件B。该实验共有6个基本事件。

必然事件与不可能事件

  • 事件发生:在每次试验中,当事件中的某个样本点出现时,称为事件发生。
  • 必然事件:在每个试验中一定会发生的事件。在抛骰子试验中,事件C”点数小于等于6点”是必然事件。
  • 不可能事件:在每个试验中一定不会发生的事件,用$\varnothing$表示。在抛骰子试验中,事件D”点数大于6点”是不可能事件。

事件关系

事件关系

事件运算定律

operator.png operator2.png operator3.png

概率

在相同条件下,重复n次试验,事件A发生的

  • 频数:A发生的次数$n_{_A}$
  • 频率:$\frac{n_{_A}}{n}$
  • 概率:大量试验证明,当试验的重复次数n逐渐增大时,事件A发生的频率会逐渐稳定于某个常数p。这个p就是事件A发生的频率,用于表示在一次试验中,事件A发生的可能性大小。记为P(A)。

概率的需要满足的条件

  • 非负性:$0 \leqslant P(A)\leqslant 1$
  • 规范性:对于必然事件S,有P(A)=1
  • 可列可加性:对于互斥(两两不相容)事件$A_1$,$A_2$,$A_3$…,即$A_i \cap A_j= \varnothing (i \neq j)$,有$$P(A_1\cup A_2 \cup …) = P(A_1)+P(A_2)+… $$

概率的性质

  • 不可能事件发生的概率为0,即$$P(\varnothing)=0$$
  • 有限可加性:对于互斥(两两不相容)事件$A_1$,$A_2$,$A_3$…$A_n$,即$A_i \cap A_j= \varnothing (i \neq j)$,有$$P(A_1 \cup A_2 \cup …A_n) = P(A_1)+P(A_2)+…P(A_n) $$
  • 对于A,B两个事件,若$A \supset B$,则$$P(A-B)=P(A)-P(B); P(A) \geq P(B)$$
  • 对于任一事件A,有$$P(A) \leqslant 1$$
  • 对于任一事件A,有$$P(\bar A)=1- P(A)$$
  • 加法公式:对于A,B两个事件,有$$P(A \cup B)=P(A)+P(B)-P(AB)$$ 推广:$$P(A_1 \cup A_2 \cup A_3)=P(A_1)+P(A_2)+P(A_3)-P(A_1A_2)-P(A_1A_3)-P(A_2A_3)+P(A_1A_2A_3)$$

古典概型

  • 有限性:试验的样本空间包含有限个元素。
  • 等可能性:试验中每个基本事件发生的概率相等。
    满足有限性和等可能性的试验称为古典概型。

几何概型

  • 无限性:试验的样本空间包含无限个元素。
  • 等可能性:试验中每个基本事件发生的概率相等。
    满足无限性和等可能性的试验称为几何概型。
    $ P(A)=\frac{构成事件A的区域长度(面积或体积)}{实验的全部结果所构成的区域长度(面积或体积)}$
geometry.png 几何概型的例子

Buffon投针试验

18世纪,Buffon提出以下问题:假设有一个以平行且等距(间距为a)木纹铺成的地板,现随意抛一支长度为b的针(b小于a),求针和其中一条木纹相交的概率。
Buffon投针试验

条件概率与贝叶斯公式

大爷,赏个铜板呗~