在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
统计分析一般是针对批量数据,如何反映这批数据的特征,是做数据分析的根本目的,对于这些目标数据集合而言,类型其实是没有限制的,但为了能进行更好的分析,特别是利用数学的方法进行,一般都会将这些数据数字化和量化.因此一般情况下,我们统计分析的指标都可以定在数量上.那如何刻画这些数据的特征呢? 平均值: 这是最简单的一个指标,这个指标反映的是数据的平均水平或能力,其优点是简单易算,但缺点也很明显,一是不能反映数据的分布情况,二是真实度不高,很容易受到干扰数据的影响.一个典型的例子就是1个1000W,9个穷光蛋,平均下来各个都是王百万. 极值与极差:从极大值和极小值,我们可以看出数据的取值范围,也能反映数据的分布情况,不过对于整体数据的分布,极差并不能很准确的反映数据的真实分布,因为其受到个别数据的影响非常大,比如有1000个观察值,998个观察值都在50附近,有两个观察值一个是0,一个是100,就会造成极差非常大, 均差:平均值和极差都不能很好的反映数据的分布,要反映数据的分布,一个简单的方法是我们可以算算每个值与均值的差的绝对值的和,然后除以n,求出均差,这个概念可以在一定程度上反映数据的离散程度(差异程度).均差可以反映数据的离散程度,,但很难反映数据的分布偏好. 方差:每个观察值与均值之差的平方加起来然后除以值得数量n,但当用(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]作为样本X的方差的估计时,发现其数学期望并不是X的方差,而是X方差的(n-1)/n倍,[1/(n-1)][(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]的数学期望才是X的方差,用它作为X的方差的估计具有“无偏性”,所以我们总是用[1/(n-1)]∑(xi-X~)^2来估计X的方差..方差与均差一样也会存在不能反映真实数据的分布偏好的问题,同时受到观察异常值的影响也还是比较大. 中位数,最大值,最小值,分位数:这些数字特征都是反映样本数据的一些直观特征.对于中位数,分位数都是顺序统计量,即样本数据必须是经过排序的.最大值和最小值最直观的意识是反映数据的范围.中位数和最大值和最小值结合,可以反映样本数据的偏度,特别是结合均值,可以反映样本数据的平衡性(偏度),中位数和平均值约接近,表示数据分布整体对称性越好.分位数是更一般的分位概念,中位数就是50%分位数. 以上的统计概念反映的基本都是样本数据的本身特征,是概率分布刻画的基本量.
|
请发表评论