六西格玛统计数据分析的正态假设原理

现实数据没有完全的正态,而正态又是很多统计分析工具使用的前提,那么很多统计分析工具在实际中如何其作用呢?在实践中你不需要完全的正态,你只需要近似的正态即好。

一、关于正态假设的第一个原理:

这个假设一般不应用于原始的未加工的数据,但用于模型的残差或误差项。如公司的总资产(x1)和分期偿还的年数(x2)的基础上,预测收购的商誉(Y),你可能会使用这个标准回归模型:

Y=b0+β1X1+β2X2+ε,式中,ε代表残差或预测误差(模型预测和你实际观测到的差异);b0 代表常数项;β1,β2代表预测变量X1X2的系数,在这个模型中,不是对商誉(Y)做正态假设,而是对残差值ε。因此在该情形下衡量正态假设的有效性,不是要衡量商誉的正态性,而是要进行回归分析对残差进行计算,并衡量残差的正态性。这种情况下应该寻求近似正态,而不是完全的正态。原始数据商誉的极端非正态,是残差很可能极端非正态的指示器,这一点成立。不过在很多情况下,原始数据不是近似正态,而残差是。这是因为原始数据包含了X变量的影响,在这里是总资产和分期偿还。

二、关于正态分布和正态假设的第二个重要原理是中心极限定理:

中心极限定理指出无论原始数据是何分布,随机样本中计算出的均值都趋向于服从正态分布。换句话说,即使商誉极端偏斜,对五个不同收购取均值,分析这些均值都可以发现是一个近似正态分布。这个理论的实际影响是我们用统计分析工具分析均值不是单个值时,我们可以对正态性的关注减少。例如标准t检验和方差分析均值检验。所以均值分析的统计分析工具对正态假设都不敏感,即当原始数据不是正态的时候,它们也很有效。因此我建议教授t检验和方差分析之前可以不用过于强调正态性检验。

对于非正态数据(或偏斜分布),我通常处理的战略如下,供读者参考。

1、什么都不做:即继续做下去,仿佛数据是正态分布的一样进行处理。当满足以下三个标准中的任何一个,这个方法就可取:

a.数据近似正态;

b.使用统计分析工具是基于均值的;

c.使用的统计分析工具对正态假设不敏感。

对于非常之的数据,经正态检验分析,一般都不是正态分布的。因为现实中的数据没有完全正态的,同时也因数以万计甚至10万计的大容量样本提供了足够统计学力量来察觉与完全正态分布的微小差别。在很多此类情况下,数据图表揭示了一个近似正态分布,这对实用目的来说已经足够了。如果正在通过如t检验或方差分析等技术来比较均值,中心极限定理使正态假设变得不太重要。因此使用此方法,你可很少需要考虑正态性,哪怕样本只有5个,你也可继续采用这些建议,而不用管是否为常态。另外回归分析中的系数估计是另一个对正态假设不敏感的技术例子。

2、利用适当的分布识别技术:在有些情况下,你可以确定数据服从那种特殊的非正态分布。如有些周期时间数据趋向于服从威布尔分布。比较幸运有些统计分析工具软件中有为处理威布尔分布数据专门制定的菜单。类似的广义线性模型的回归分析方法,能使使用者对大量的服从不同分布的数据进行恰当的分析,包括指数分布甚至是离散分布。

3、利用非参数统计分析工具:在你不知道数据会满足何种分布时此方法特别适用。这些方法没有特殊概率分布的假设,因此对大量的潜在问题和数据都适用;但有一点需记得,一般非参数建议不如基于特定分布的检验有效;

4、利用变换:当变换是一个非线性函数,就有能力把偏斜的数据正态化为近似正态,至少在某些情况下是可以的。常用的包括对数、平方根、(特别对于离散的数据)和倒数。为了找到恰当的变换,可用Box-Cox法。但在分享结果时记得要把变换了的单位记得转回最初的单位,否别人就看不懂。

总而言之,制造领域以外的六西格玛应用中的很多数据不是正态分布或接近正态分布的。虽然在统计学中正态假设可能很重要,但很多时候不是这样的。即便这个假设很重要,六西格玛黑带应能采用有效的分析工具来分析这些数据。因此缺乏正态性是一个值得思考的技术问题,但不是一个恰当地应用六西格玛方法的一个障碍。

精彩内容请关注公众号young666
@声明:用户在本网站发布的内容仅为发布者个人的立场或观点,并不代表本网站的立场或观点。作为内容的发布者,需自行对所发布内容负责,因发布内容引发的一切纠纷,由该内容的发布者承担全部法律及连带责任。本网站不承担任何法律及连带责任。本网站有权利对涉嫌违反相关法律、法规内容进行相应处置。如内容存在侵权问题,请与本网站联系删除。
回复

使用道具 举报

相关推荐
  • 六西格玛测量阶段的基本任务是什么?

    众所周知,测量阶段是六西格玛DMAIC过程的第二个阶段,它是衔接分析阶段的桥梁。因为测量是六西格玛项目的关键过程,所以企业在推行六西格玛时,一定要了解六西格玛测量阶段的基本任务,那么六西格玛测量阶段的基本任务是什么 ...

  • 六西格玛必看书籍推荐

    梳理了几本六西格玛经典书籍推荐给大家,可以根据自己的学习阶段来选择适合自己的学习哦。 1 《六西格玛管理》 大家又喜欢称它为“红宝书”或“红皮书”,它是中国质量协会指定的教材,既然是教材,自然是面面俱到,基本上围绕 ...

  • 划重点!六西格玛项目立项注意哪五点

    六西格玛项目立项选择五大点如下: 第一点:确定现状 六西格玛改善项目,首先是问题导向的。项目负责人所要完成的第一个任务是要了解现在存在的问题:是质量的问题、交货的问题、产品开发的问题、库存太高的问题、货款逾期不能 ...

  • 对ISO9001质量体系原理的认识和总结

    ISO9001质量管理体系作为管理科学中质量管理皇冠上最耀眼的那颗明珠,是组织管理学和质量管理科学管理多年发展最精华的结晶。9001管理体系条款简洁易记(刚开始接触会觉得很拗口)、内涵直白质朴(恰好印证了真理往往是简单质 ...

  • 如果他不爱你了,你就假设他死了

    如果他不爱你了,你就假设他死了 亲爱的溏心: 我要出国去学习了,还有可能留在外国,这是很多人都羡慕的生活吧,因为那边有个人会等我,他说好的一切都许给我。他的家人朋友都认可了我的存在,要他和我好好在一起,让他 ...

  • “三不”女人的抽屉原理

    如果把女人的一生比喻成一座衣柜,真正的“三不”女人通常都会有多个抽屉。总有一个或几个抽屉是属于自己的秘密,是上了锁的,是不会轻易打开给男人看的,女人的幸福是离不开抽屉的,抽屉会为女人带来一丝神秘,也赢来一分尊重 ...

  • 生活不接受假设

    讲述: 男朋友突然跟我交代在和我恋爱期间曾喜欢别人,他说他大一进校就对班上一个女生很有感觉,之前没有什么来往,后来大三有了接触发现不是很适合就放下了。而且那个女生有男友,他也有女朋友不可能的。我就问是不是如果没 ...

  • 恋爱是不能假设的

    世上最遥远的距离,不是生与死的距离,不是天各一方,而是我就站在你面前,你却不知道我爱你。   那些曾经以为念念不忘的事情就在我们念念不忘的过程里,被我们遗忘了。我们放下尊严,放下个性,放下固执,都只是因为放不下 ...

  • 统计数据说出了真相

    我们都知道,在中国,男性人口数量大于女性人口数量。而超过70岁以上年龄段中,女性人口开始远远多于男性,这个并不令人吃惊。但最令我们感到吃惊的是,在27-51岁这个年龄段中,女性人口比例是超过男性的,极端数据出现在32-36 ...

  • 求职数据分析,工作经验该怎么写

    在职场竞争日益激烈的今天,一份出色的简历往往能让你在众多求职者中脱颖而出。特别是工作经验部分,它不仅展示了你的专业技能,更是潜在雇主评估你能否胜任工作的关键。但是,如何有效地撰写工作经验,使其既真实又吸引人呢? ...

  • 联系客服 关注微信 下载APP 返回顶部 返回列表