简单地聊聊统计学

写在前面

这个系列会写一下有关统计学的知识和实际中的运用,今天这篇文章先从最基本的开始。

1、什么是统计学?

统计学,就是收集、处理、分析、解释数据并从中得出结论的一个学科。不管你是做什么行业,只要接触到数据,就或多或少地会应用到统计学的知识,所以,学习统计学非常有用。

2、描述统计和推断统计

总的来说,统计方法有两种,描述统计是对数据进行概况分析的统计方法,推断统计是用样本推断总体特征的统计方法。

3、统计学中的几个基本概念

  • 总体:要研究的全部个体的集合
  • 样本:总体中的部分元素的集合
  • 参数:描述总体特征的数字度量
  • 统计量:描述样本特征的数字度量

如在全市200万个使用某wifi的用户中随机抽取2000个用户,推断全市用户对wifi的满意度情况。

这里的总体是:200万个使用某wifi的用户
样本:2000个用户
参数:200万个用户的满意度情况
统计量:2000个用户的满意度情况
这里用到的统计方法就是推断统计了。

4、数据类型

按计量尺度可以分为定性数据定量数据,定性数据就是用非数值来描述的数据,更进一步地,可以细分为分类数据顺序数据,分类数据就是某一类别的数据,如男和女、优秀良好和及格等。顺序数据就是分类数据中的类别不是杂乱的,而是有序的,如产品分为一等、二等和三等。

数值型数据就是用数字来表示的数据,这也是我们平时接触最多的一种类型的数据。

按数据被收集的方法来看,可以分为观测数据实验数据。观测数据就是通过观测、调查得出的数据,而实验数据则是在实验中收集到的数据。

按被描述现象与时间的关系,可以分为截面数据时间序列数据,截面数据指在相同或相似时间点上收集的数据,如2019年我国城镇家庭人均收入的数据。时间序列数据是按照时间顺序收集而来,现象随时间变化的数据,如2015~2019年我国城镇家庭人均收入。

对不同类型的数据我们会进行不同的统计分析方法,因此做好数据类型的区分也是很重要的。

简单地聊聊统计学

5、调查方法

有时候我们使用的数据源可能来自调查,那么如何从总体中抽取出有效的样本呢,就要看调查的方法了。可以分为概率抽样和非概率抽样。

概率抽样,就是我们常说的随机抽样,即按照随机的原则去抽取样本,确保每个个体都有机会被选中。

随机抽样中还可以细分几种:

  • 简单随机抽样:最基本的抽样方法,抽选的概率是相同的。优点是简单,缺点是大规模的调查中实施会有困难。
  • 分层抽样:将抽样单位按照某种特征或规则划分为不同的层,从不同层中独立随机地抽样。优点是样本结构与总体结构相近。
    分层抽样
  • 整群抽样:将总体中若干单位合并为组,称之为群,抽取群。对总体的估计精度较差。
  • 系统抽样:将总体中的所有单位按一定顺序排列,在规定范围内随机抽取一个单位作为初始单位,接着按事先定好的规则确定其他样本单位。

如为了调查某学校学生的身高情况,从男生中抽取60人,女生抽取40人,这属于分层抽样;从4个年纪中抽样,这属于整群抽样;将全校学生名字按拼音顺序排列,每隔50人抽取一名,这属于系统抽样。

非概率抽样,顾名思义,就是抽样时不随机,同样也可以细分为以下几种:

  • 方便抽样:调查过程中调查员依据方便的原则抽样的方法。
  • 判断抽样:研究人员有目的地选择一些单位作为样本。
  • 自愿样本:被调查者自愿参加。这种样本是有偏的,但可以反映出某类群体的看法。
  • 滚雪球抽样:首先选择一组调查单位,再请他们提供调查对象继续调查,滚雪球下去,适用特定群体
  • 配额抽样:先将总体中的所有单位按一定类别分成若干类,再在每类中采用方便抽样、判断抽样的方法抽取样本,同分层抽样,但抽样方法不是随机的。

具体采用哪种抽样方法,要看所研究问题的目的、特征等综合考量。需要说明的是,非概率抽样因为不是随机原则,因此无法用样本的特征去估计总体,非概率抽样适合探索性的研究

简单地聊聊统计学

6、数据误差

通过调查收集到的数据与研究结果的真实数据之间的差异,通常可以分为抽样误差和非抽样误差。

抽样误差:由抽样的随机性引起的样本与总体结果的差异,抽样误差的大小同多种因素有关,最主要的是样本量,样本量越大,抽样误差就越小。什么是抽样误差,比如随机抽样的产品的合格率为60%,再抽样的结果是61%,误差在59%~61%之间波动,这就是抽样误差。

非抽样误差:除抽样误差外其他原因引起的样本与总体结果的差异。在非概率抽样时可能会产生非抽样误差,常见的如抽样框误差、回答误差、无回答误差、测量误差等。

简单地聊聊统计学

写在后面

非常抱歉断更了一段时间,在想一些事情,总想着一定要想明白了再行动,结果就是又没想明白,也没有去行动,所以还是边行动边想吧,年纪轻轻的怎么可能就一下子顿悟了呢,那我就可以立地成佛了。

接下来可乐又回来了!

来源:可乐的数据分析之路,本文观点不代表自营销立场,网址:https://www.zyxiao.com/p/45676

发表评论

登录后才能评论
侵权联系 投诉举报
返回顶部