篇一:响应面交互作用怎么分析
图片:
图片:
图片:
请教:PB-design,最陡爬坡实验,CCD等中的响应面分析的相关问题
请教:PB-design中的相关问题
在实验设计的过程中,通过阅读文献了解到了很多的,但是同时也积累了很多问题解决不了,希望各位高手们指点一二不胜感激.
1在PB设计中出现的dummyvariable的具体含义到底是什么?是对照组吗?如果不是应该遵循什么样的原则去设计呢?
2在PB中实验组数应该是变量数加1,那么在相关的文献中看到15个变量设计为:15+1+4,其中4是dummyvariable,但是表格中这4个变量也是有高低水平的变化的,那么设计时是作为15个变量来考虑还是19个呢?
3想问问在最陡爬坡实验中,步长的选择有什么要求吗?纯经验还是有公式的?
4在设计CCD试验那的时候是否要包括全因子实验设计?
5什么是中轴点?
各位高手帮帮忙啊,谢谢了
小妹我也正在做这块试验,是培养基优化的刚做完单因素试验
正在想下面该怎么设计呢?是PB?还是最陡爬坡?还是两个都要做??
反正最后是要做响应面的~~希望大虾们多多多指点一下下……
另外,关于PB,我也在想,是不是必须要做空白项的呢?
那么空白项里面的+1,-1是没有具体的水平值的亚,那么在实验中具体该怎么操作呢??
谢谢各位不吝指教了……
我自己是怎么想的:单因子实验只是为了保险使PB实验的结果更加明显而进行的预实验,PB实验本身就是有筛选单因子的功能,如果有把握是可以直接做PB的.而我的实验是先进行单因子,然后是PB,根据PB的实验分析数据做最陡爬坡实验,否则不能很好的确定爬坡的方向以及步长.
最陡爬坡实验的步长的选择:根据前面PB实验的结果,做一阶方程的法线,法线方向就是爬坡方向,步长就根据回归系数和规范变量的比值在通过自然变量来换算,算到的结果在综合实际的情况就可以基本确定步长了
这个是最近看文献理解到的一些,希望哪位高手指点一下
dummyvariable不是对照组。如果你的实验次数为4的整数倍。那么看你考察的因素是多少个。比如你有9个,那么至少要使用
runs=12次
的PB设计。此时,有3个空列。一般的处理方法是,等间距空列。实在不行,你就随机选吧。这并不妨碍你的实验结果。空列只是为了估算误差。
2.这样吧,如果我这样表述,看你是否能够理解。
我刚好有15个因素,想做PB,正好
runs=16符合我的要求。可是,这样一来,估算误差呢?因为没有多余空列了。那么,再往上加列,只有再加4列。刚好19因素,20次实验,其中有4个空列。
你认为这多出来的一列(16-15=1),我想你是这样算的吧。那你运行一下软件,看看15因素的PB,runs=16,到底是15列,还是16列?列是因素,行是实验次数。并不是列数=行数。
描述:如何确定步长:
图片:
图片:
描述:4在设计CCD试验那的时候是否要包括全因子实验设计?图片:
看了这张图,我想答案应该是不言而喻了!
描述:CCD各个设计点的作用:
图片:
综合最后两个问题.如有异议,欢迎继续发帖,大家共同学习!
几篇用响应面优化培养基的文章!
这几篇都是用响应面优化培养基的文章。响应面现在是比较常用的优化培养基的方法,但是好多人(包括我在内)都不是很清楚。由于最近我要进行培养基的优化,所以找了很多文章来研究。一般的文章都是一带而过,看了也不明白。这几篇过程还算详细,对理解有一定的帮助。希望对大家有所帮助。
我在看文章的过程中,我总结出了优化培养基的步骤。拿出来跟大家分享一下,共同学习和交流一下。有错误的话希望大家及时提出。
第一步:在众多实验因素中找出主要因素。
在这步实验中你可以应用正交试验(因素比较少)和PB(Plackett-Burman)实验。这两种方法都可以找出主要因素。尤其是PB实验,它可以在很多的因素中,用较少的实验筛选出主要因素(一般选取大于90%)。通过PB实验还可以看出各因素的作用效果,即是增加还是减少浓度会使响应值向最优移动。
第二步:是主要因素的取值逼近中心点,最陡爬坡实验
这步实验不是必须做的,如果你确定你的实验取值已经逼近中心点,那么你可以直接进行第三步的分析。但是你要是不能确定或不相信这些取值那你就要进行最陡爬坡实验。这步实验
根据第一步实验进行。为了尽快逼近最优值,增加步长通常取最大。我现在还没找到取最大步长的公式,有谁知道的话麻烦发一下。细履平沙版主,帮忙解决一下,谢谢。这样就能找到中心点。
第三步:响应面分析
现在常用的有中心复合法和BB法(Box-Behnken)。在这步实验时最好因素不要太多,因素太多直接影响到试验次数,现在经典的一般是三因素。通过这步分析可以的回归方程,进而得到最优培养基。并且还能得到因素相互作用对响应值的影响。
在这里我对△x,即+1、—1的取值还不太清楚,α的取值也不是很清晰,希望大家帮忙解答一下。
这是我最近的学习结果,希望大家批评和指正。
[此贴被细履平沙在2008-06-0518:55重新编辑
]附件:
采用响应面分析法优化吩嗪_1_羧酸的发酵条件.pdf
(180K)下载次数:4需要经验值:20附件:
发酵法产氢培养基的响应面分析优化.pdf
(908K)下载次数:4需要经验值:2附件:
酵母内海藻糖积累条件的优化.pdf
(213K)下载次数:4需要经验值:2附件:
响应面法优化纳豆激酶液体发酵.pdf
(217K)下载次数:5需要经验值:20关于培养基的优化试验套路
正交试验和均匀设计方法进行培养基优化已取得诸多成功的例子。
正交试验适合因子较多而因子水平不多的试验设计,从试验次数上看,是至少为因子数的平方。
均匀设计适合于因子少,而水平多的试验,从试验次数看,至少是因子数的两倍。
两种方法虽然多从拉丁方设计衍生而来,不过效率却更高。
现如今,大多流行响应曲面设计来优化培养基。
首先,我们要从众多培养基成分及影响的环境因素中筛选出具有主效应的因子。这时,通常采用筛选试验。主要有全因子因析设计和Plackett-Burman设计。两种筛选试验,各有千秋,但都能以最少的试验次数筛选出主效应因子。其中全因子设计能够表现出因子的三级以上交互作用,而Plackett-Burman设计由于是两水平设计,所以交互作用只在二级交互作用。另外还有部分因子因析设计。
筛选到了主效应因子,我们就可以开始进行下一步优化试验。此时,主要有中心复合设计和Box-Behnken设计。
中心组合设计是一种国际上较为常用的响应面法,是一种5水平的实验设计法。采用该法能够在有限的实验次数下,对影响生物过程的因子及其交互作用进行评价,而且还能对各因子进行优化,以获得影响过程的最佳条件。
Box-Behnken设计是另一种国际上较为常用的响应面法,是一种3水平的实验设计法。同样具有响应面法的优点。近年来利用该法进行生物过程优化的文献比用中心组合设计法的明显地少。
通常以上说的响应曲面设计和数据分析,都可以通过一些统计软件来运行,十分简便。
为此,我将本人一直在使用的Mintab绿色软件上传,希望大家能够好好利用,搞好试验设计,节省人力无力,为经济带来腾飞(别忘了日本很大程度上就是因为田口宏一的正交设计表,在二战后迅速崛起!)
谢谢西风,看你的回复我很有同感,我当时刚开始做RSM也是摸不到头脑,没办法,只有看文献一步一步的摸索过来的。
为了不让帖子沉了,也为了有需要的战友节省时间,心中对试验设计有个大概的框架,我先抛砖引玉,简单讲下我做培养基优化的一点体会。
可能有些战友认为,试验设计优化培养基就是找几种培养基成分放在一起做几个组合进行试验就行了,其实这样做往往是得不到最适的结果的,尤其在做响应面分析(RSM)的时候,试验得到的图形可能不是一个完美的曲面图,我见过一些别人发的文章,它的曲面图是一个扭曲的图形,高点根本没有出现在图形中,那试验得到的根本不是最适的培养基组分,当然这种文章一般不会出现在核心期刊上的。这种情况一般都是没有在做RSM前,做“爬坡试验”的结果,“爬坡试验”的目的在于找出RSM设计的中心点,保证结果的准确性。另外一点需要提出的是RSM的一个缺点就是分析的因素不能太多,经典的是三因素的试验设计,如果你的因素比较多,那不妨试试方开泰的均匀设计。要做RSM就要先找出有显著影响的因素,剔除一些对结果影响不显著的因素,所以在“爬坡试验”之前还需要一个PB试验,PB能从众多因素中很简单的找出对试验结果影响最为显著的因素,排除一些影响不显著的因素,降低后续试验的工作量,又能保证结果的准确性。PB和“爬坡试验”对于刚接触试验设计的战友,比较陌生点,加上发表文章中很少,全面的把整个试验设计写出来的,一般的都是只写RSM这部分,也有几篇文章是PB+RSM的,还有先做RSM后做“爬坡试验”的。我个人认为PB--“爬坡试验”--RS,这种试验设计的思路比较符合逻辑,又比较全面。如果做毕业论文的培养基优化部分,可以使内容比较丰富。当然如果是做毕业论文的话,在综合试验设计之前,还有个更基础的工作,就是单因素试验,那种放弃单因素试验的想法也完全错误的,尤其是没有一个基础配方的时候。我做的菌种是我自己从本实验室菌种库筛出来,然后又做了诱变育种,所以是没有合适的培养基的,所以做了很多工作,用单因素试验首先大致确定C、N、P、无机盐、微量元素的种类及水平。大致讲了一下,说的比较散乱,或许不太好明白。希望大家把问题提出来,我们一起针对具体问题具体分析。
讲得不错,都是很好的心得。先用PB进行显著性分析是一个很好的建议。
另外可以从历史数据中找到合适的数据,然后再用软件进行分析,就可以不用再做实验就可找到影响显著的因素和水平范围。
响应面分析,其实用我们常见的软件就可以做出来。首先对各个单因素的试验结果进行归纳,后选择变量的变化区间还变化间隔就可以,常见的软件如DPS就可以了。用这个软件可以完成你所需的所有工作,要是想让你的响应面好看,用MATLAB也可以,三维,四维的都可以,在MATLAB区中有我写的现成的用MATLAB语句实现第四维的表示方法,很好用。另外用SARS软件也是可以的,不过语句能比MATLAB复杂一点点。EXCEL也可以,不过做出的响应面,美观程度差一点点。
我有个想法,能不能在初始时用正交实验确定出中心点的范围,然后将数据用SAS中的主成份分析,得到影响最显著的几个因素,然后用RSM做,这样主要影响因素有了,中心点也有了。做起来也好做,不会PB等软件的战友也可以轻松操作。
不知这样可不可行?希望大家讨论讨论
PB实验设计的数据处理
我使用SAS进行试验设计的,11个因素+4个dummyvariables,做16次实验。
PB实验设计的数据已经出来了,但是怎么分析不了。
用Analysist→Statistics→Regression→Linear分析出来的结果像图里面这样,怎么回事呢?后面几列的StandardError,tvalue以及p值都没有。
我给试验设计的表也列出来吧,请各位高手分析一下,到底是哪方面原因导致的。
表中X2,X4,X8,X15这4列是dummyvariables,没有赋值,其余11个是考查的因素。
y是考查指标(转化率%)
上面是图片,顺便给表格放在word里面,以附件传上来,请大家帮分析分析。
想知道的几个问题:
1.试验设计有没有问题?
2.就按照表中设计的试验做了16次实验,没有将每次重复3遍取平均值,是不是可以?
3.这些数据该怎么处理,怎么用SAS处理会出现上面的情况,没有标准误差,t值以及p值?
谢谢了先~附件:
CodedDesign.rar(7K)下载次数:5很想问一下,那个虚拟变量如何设置啊
一般多少个
还有最重要的是
实验过程中到底如何进行啊
小妹真的没有概念
虚拟变量好像一般设个三个左右
实验次数都为四的的倍数,如果你要测定8个因素,实验次数仍为12,那么就可以设三个虚拟变量。
8+3=11<12记住k个因素和实验次数之间的关系是
K小于或等于n-1具体实验过程中,我个人觉得就是高低水平都为-,就是什么都不加,只是增加了实验次数,控制误差的作用。
实验过程中控制误差可以通过重复试验达到。而实验误差的计算可以通过增加中心点次数实现。如果不能进行误差分析,那么就谈不上数据分析了。
我也是刚刚起步,幸亏有发酵人,大家可以一起交流!
一般来说,试验设计的时候k次实验的话,(考查因素+虚拟变量)=k-1。
比如,12次实验,考查8个因素,那么剩下的3个变量就可以不赋值,仍为uncoded。
不过这种dummyvariables选择国内期刊和国外期刊有所不同:
国内的:如版友们所说,随机选择的比较多。
外文期刊:1.没有标出dummyvariables,比如12次实验,设计表就列出了8个考查因素,而3个dummyvariables没有标出;
2.标出了,但是给dummyvariables都列在一块,比如就放最后几列。
3.也看到就根本没有设
dummyvariables的,比如12次实验就考查11个因素的。
初学求教:什么是PB实验和爬坡实验啊
什么是PB实验和爬坡实验啊
刚开始做实验,什么都不知道,万望各位赐教!!
pb是plackett-Burman的缩写,是一种筛选试验。就是从众多影响因素中筛选出具有主效应的因子。至于最陡爬坡我也不太清楚。我也想知道。
额要点名了,细履平沙斑竹,指点一下吧。
谢谢了!
斑竹,给大家讲解一下吧,我也特别想知道什么是最陡爬坡,我看过你的帖子,知道你是试验设计的行家。望斑竹不吝赐教。
最陡爬坡实验它能最快逼近最大响应面区域,确定中心组合实验的中心点,能保证响应面分析结果的准确有效性.我只知道这么一点吧.还望楼下的人能补充细化一下呢.一般都会作,但是如果实验结果由方差分析发现选取的水平已接近最大响应区域,那么就可以不再进行最陡爬坡实验,最后用中心复合设计及响应面分析来确定主要影响因子的最佳浓度。
你可以看看有关资料.一般是先作部分因素实验(FFD),再做最陡爬坡实验.再利用中心组合实验确定中心点,如果采用PB实验,一般不作最陡爬坡实验,直接用中心组合实验确定中心点.具体原理我不记不清了.明天我上传一个这个方面的资料吧.上传一篇文章.可能对你有帮助.
[此贴被细履平沙在2008-06-0815:02重新编辑
]附件:
生物过程的优化.pdf
(358K)下载次数:63需要经验值:3怎么又方差分析看所选水平是否已经接近最大响应区域呢?谢谢!
PB试验可以用来筛选培养基中不同成分对试验结果的影响,通过PB试验得到影响较大的试验因素;爬坡试验就是从PB试验的中心点开始,根据PB试验的得出的每种因子的系数来确定爬坡方向以及步长,爬坡试验主要目的是逼近主要试验因子的最适添加水平;之后根据爬坡试验的结果就可以做相应面了,也就可以最后确定每种重要因子的添加量了。
嘿嘿,我也是初学者,希望这些能对你有帮助
请教一下:响应曲面1.414到-1.414中间5个水平的步长如何设计?
还需要看回归系数吗?设计的时候凭经验还是有具体的公式?
紧急求救~
0是中间,1如果相当于中间偏大2.0水平,那么1.414就相当于中间偏大2.828水平.我是这么理解的,这个不能靠经验,而是根据程序要求。
关于PB设计中的t检验和P检验
请问各位大侠,PB设计中的t检验和P检验的功能是否是一样的?如何通过t检验来认定显著因素?另外,某因子的显著性大于90%或80%等是如何判断的?
感谢赐教
P的意思是概率,不是P检验,是根据T值查到的概率和F值查到的概率。
楼主可能没有学习过数理统计。进行实验设计,一些数学基本知识还是要具备的。
关于最陡爬坡(最速上升)的问题
我下了发酵人上的“Pathofsteepestascent/descent”。在学习中有些地方不明白,希望大虾能给予帮助。
在设计中需要编写一个“最速上升宏”命令,请问这个“最速上升宏”在Minitab15这个版本中有没有,如果有在哪里?(本人愚钝,如果翻译错误望大虾指出以便更正)
还有我点击“编辑器(D)——启动命令(E)”然后按照minitab技术支持文件上所给出的方法在会话窗口里输入以下命令:
ascentyx.1-x.n;soreu.1-u.j;steps;baseb;descent;runsr.然后回车出现“*错误*未知
Minitab命令:ASCE
MTB>”
我不知道这个命令应该在哪里输入。望高手指点啊!
最陡爬坡必须要输入命令才能完成吗?可不可以像pb一样直接用minitab软件现有的程序就可以完成设计和分析?
最陡爬坡实验
我觉得最陡爬坡实验不需要软件分析的,直接观察数据变化的趋势,找到极点值,附近找到因子参数范围再做下一步的响应面实验和分析就可以了。可以参考http://www.fajiaoren.com/read.php?tid=906PB试验设计
外文资料里面dummyvariables要么没有列出来,有些就根本没有设(比如8次试验就做7个因素),要么所有的dummyvariables就全部都列在一起,只有看到国内的文章才是将dummyvariables随机的列出来。
在版上也看到说要有dummyvariables,并且要随机的选择。
那么dummyvariables到底要不要,要的话是不列出来,还是所有的就放最后几列呢?
我认为dummyvariables的位置
不影响分析结果。但是这个参数应该有。
有道理,另外,每一组试验只做一次,还是做个重复比如同一组做3次,然后取他们的平均值呢?
要是只做一次会不会误差比较大,影响试验结果?
重复多次可以减少某些异常点引入的误差,减少噪音,提高模型显著性。
有两种方法,一种是在程序中设置3个重复,实验结果都输入实验表,也可以在程序中设1个duplication,然后将数值平均后输入实验表。
从pb到最陡爬坡,如何设计步长,求救啊~pb做完了,也做了重复,现在真是不会确定步长
真的是很笨,希望高手指点一下
求救啊~细心看看以前的贴子,有详细的介绍。
一个参数(A)根据自己的经验确定,其它参数根据PB试验公式中的系数来确定。具体找贴子吧。
看下面的贴子,topmit有介绍。
http://fajiaoren.com/read.php?tid=6999&keyword=%E7%88%AC%E5%9D%A1做了响应曲面分析,图形不对,麻烦大家看看哪里出了问题
图片:
我是先单因素----pb----最陡爬坡----响应曲面的结果很不如意啊,想听听大家的意见,修改一下,继续向前挺进
呵呵大家多提意见啊
hope59你好,我想请教一下你爬坡实验怎么设计的,是用minitab设计的吗?
关于爬坡步长
我看了些文献,关于爬坡步长的说法不一。
有文献这样确定最陡爬坡的,步长公式=e×△j×bj,其中bj为一次回归的回归系数,△j为变化半径.这样看来,回归系数越大,步长应该越大啊。
而有的文献又说回归系数越大,步长应该越小。我觉得这种说法也对,因为回归系数大,说明对响应值的影响越大啊,响应值对因素变化非常灵敏,所以步长取值应该小点,以免错过最优点。不知我的理解对不对,请大家指教。
求助:可不可以用pb方法进行非培养基优化的发酵实验啊
小女子刚接触发酵实验,对很多东西不是太了解,最近查文献资料发现PB方法进行实验优化很方便,但是所查的资料都是关于培养基优化的,很想知道是不是可以用PB进行其他非培养基优化的实验?比如说有很多因素像温度、PH、钙离子浓度等。如果可以用PB法优化,那在进行“确定因素水平”阶段是不是也可以用“最陡爬坡实验”进行非培养基优化的实验呢?希望高手给予解决,小女子不胜感激
没有问题,可以用。但是进行试验之前,要考虑好试验的目的,不能只是为了试验而试验,而要考虑试验的结果是不是能够达到某种效果和实验条件能不能实现。
优化包括:培养基优化(碳源,氮源,无机盐等),培养条件优化(温度、PH、转速,装液量等)
实验设计:根据需要,自由组合,可以同时优化众多因素,不必拘泥于是培养基还是培养条件。
响应面设计的三个阶段
ItispossibletoseparateanoptimizationstudyusingRSMintothreestages.Thefirststageisthepreliminaryworkinwhichthedeterminationoftheindependentparametersandtheirlevelsarecarriedout.Thesecondstageistheselectionoftheexperimentaldesignandthepredictionandverificationofthemodelequation.Thelastoneisobtainingtheresponsesurfaceplotandcontourplotoftheresponseasafunctionoftheindependentparametersanddeterminationofoptimumpoints.
三个阶段。
1,准备阶段,决定独立变量及其水平。
2,实验设计的选择及模型的验证
3,根据响应面来确定优化条件。
求救:pb试验我做了好几次,总是找不到影响显著的因子
我做了好几次pb试验,可是总也找不到影响显著的因子,就是大于95%的两个到三个因子,我的基本都在80%左右,很是郁闷啊
备受打击,但是郁闷完了,还是想找找问题,调整浓度继续筛选
不知道大家有没有遇到类似的问题?都从哪里入手调节?
对了,我看很多文献上都说,高水平一般是低水平的1.25倍,这个很固定吗
我都是按照1.25倍做的,不会是这里有问题吧
还是要focus到上面的问题,遇到显著性不高的问题,应该如何调整?
希望高手多多指教!
试试高水平是低水平的1.5倍看看~
生物过程存在严重的交互作用,而PB实验次数少,因此在交互作用解决上有一定的问题。所以在生物领域先进行单因素考察,然后再进行组合试验是有一定道理的。我感觉也可以先进行PB实验多考察一些因素,然后再减少因素并进一步探索因素间的交互作用。
首先:你考察的是几个因素?如果存在交互作用,确实会存在上述情况。
第二:你的响应量是什么,该数据是否可靠?
比如,我们做糖的,响应量就是胞外多糖,胞内多糖。测糖的方法是浓硫酸苯酚法。如果实验设计者对该方法掌握不好,就算是同一个样品,测定结果差别甚大,那么,这就不是实验设计分析本身的错误,而是实验设计者的错误!
只要大于75%就行了
我是以生物量作为指标,用涂平板检测的我用了七个因子,用minitab设计的12次试验,经过分析,只有一个因子的可性度在90%以上
在此之前,我做过比较全面的单因子试验,但是由于单因子试验用的是化合物能清楚的知道碳浓度、氮浓度等详细的参数
现在做工业发酵,用的都是豆饼粉之类的,所以在量上还是需要摸索
后期要做响应面,所以pb试验做的比较谨慎,怕后期出现更大的错误。
我这周重复一下上次的试验,再把倍数扩大到1.5试试看
非常感谢大家这么热心的帮助我,真是很感动哦
不知道我现在的设计有没有什么地方不合适?希望大家多多批评指正!
不知道楼主,为什么7个因子要用12次实验设计呢?
minitab上自动生成的啊
还有就是每次生成的图表都不一样呢,很是奇怪
版主是不是觉得我的设计有问题啊
我刚准备瓶子,准备做了,呵呵,看样子是有问题了哦
我回去再看看,晚上再做吧,版主加我qq吧
43787903可能需要和您好好讨论一下呢
谢谢,我在线等
首先:7个因子,做8次实验足够。不知道你设计过程中是否有哪一步没选好。
其次:低水平和高水平的倍数,一般在1.5左右,多了少了并没太大关系。只要不是认为的胡乱加大水平值,PB筛选还是比较可靠的。
再次:我实验室是不准安装QQ等聊天软件的。所以,只能我回家加你了。
关于爬坡实验的疑问!
爬坡试验需要软件设计吗?我刚做完pb试验,筛选完重要因子,然后是不是应该以高水平为中心,上下筛选几个浓度(一般也要七八个浓度吧),这时候步长设计有什么要求吗?浓度个数设置有要求吗?需要软件设计吗?
版主快来指导一下吧!
最爬坡试验最后要达到什么要求才能进一步进行响应曲面试验?
爬坡试验需要或者能用minitab设计吗?
我看到的论文上好像只是将得到的数据比较产量高低呢?
puzzledandhelp!
你做完了PB从分析的数据上就可以看出每个因子的影响是正还是负!所以设计的时候一定注意不要搞错了!
步长的设置也要看你自己实验本身,不能套用!所选择几个比较好,能达到你的实验目的,就是逼近最有的响应区域!越逼近越有利于下一步的实验!
回归与相关
回归与相关
--------------------------------------------------------------------------------
一、直线回归分析
直线回归是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。
1.直线回归方程的求法
(1)回归方程的概念:
直线回归方程的一般形式是Y(音yhat)=a+bx,其中x为自变量,一般为资料中能精确测定和控制的量,Y为应变量,指在x规定范围内随机变化的量。a为截距,是回归直线与纵轴的交点,b为斜率,意为x每改变一个单位时,Y的变化量。
(2)直线回归方程的求法
确定直线回归方程利用的是最小二乘法原理,基本步骤为:
1)先求
b,基本公式为b=lxy/lxx=SSxy/SSxx,其中lxy为X,Y的离均差积和,lxx为X的离均差平方和;
2)再求a,根据回归方程
a等于Y的均值减去x均值与b乘积的差值。
(3)回归方程的图示:
根据回归方程,在坐标轴上任意取相距较远的两点,连接上述两点就可得到回归方程的图示。应注意的是,连出的回归直线不应超过x的实测值范围.
2.回归关系的检验
回归关系的检验又称回归方程的检验,其目的是检验求得的回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。方法有以下两种:
(1)方差分析
其基本思想是将总变异分解为SS回归和SS剩余,然后利用F检验来判断回归方程是否成立。
(2)t检验
其基本思想是利用样本回归系数b与总体均数回归系数?进行比较来判断回归方程是否成立,实际应用中因为回归系数b的检验过程较为复杂,而相关系数r的检验过程简单并与之等价,故一般用相关系数r的检验来代替回归系数b的检验。
3.直线回归方程的应用
(1)描述两变量之间的依存关系;
利用直线回归方程即可定量描述两个变量间依存的数量关系
(2)利用回归方程进行预测;
把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。
(3)利用回归方程进行统计控制
规定Y值的变化,通过控制x的范围来实现统计控制的目标。如已经得到了空气中NO2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO2的浓度。
4.应用直线回归的注意事项
(1)做回归分析要有实际意义;
(2)回归分析前,最好先作出散点图;
(3)回归直线不要外延。
二、直线相关分析
1.直线相关的概念
直线相关分析是描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法。用以描述两变量间相关关系的指标是相关系数(常用r表示),两变量间相关关系的种类有正相关(0 2.相关系数的计算 相关系数是x,Y的离均差积和lxy除以X的离均差平方和lxx与Y的离均差平方和lyy之积的算术平方根的商。故此相关系数又被称为积差相关系数。 3.相关系数的假设检验 相关系数检验的目的是判断两变量的总体是否有相关关系,方法有t检验和查表法,t检验法是样本与总体的比较,查表法是直接查相关系数界值表得到相应的概率p。 三、直线相关与回归的区别与联系 区别:1.相关说明相关关系,回归说明依存关系; 2.r与b有区别; 3.资料要求不同。 联系:1.r与b值可相互换算; 2.r与b正负号一致; 3.r与b的假设检验等价; 4.回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。 四、等级相关分析 等级相关分析适用于资料不是正态双变量或总体分布未知,数据一端或两端有不确定值的资料或等级资料。常用的Spearman等级相关系数rs是利用x,Y的秩次来进行直线相关分析的。因此当x,Y的相同秩次较多时,计算出的rs需矫正。同样的,等级相关系数rs也需要进行假设检验。 五、相关分析应用中的注意事项 1.相关分析要有实际意义; 2.相关关系不一定都是“因果”关系; 3.相关系数r假设检验中p的大小不能说明相关的密切程度; 4.直线相关和等级相关有各自不同的适用条件 方差分析 方差分析 -------------------------------------------------------------------------------- 一、方差分析的基本思想 1.方差分析的概念 方差分析(ANOVA)又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。我们要学习的主要内容包括单因素方差分析即完全随机设计或成组设计的方差分析和两因素方差分析即配伍组设计的方差分析。 2.方差分析的基本思想 下面我们用一个简单的例子来说明方差分析的基本思想: 如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下,患者:0.841.051.201.201.391.531.671.801.872.072.11健康人:0.540.640.640.750.760.811.161.201.341.351.481.561.8问该地克山病患者与健康人的血磷值是否不同? 从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均数的变异情况,则总变异有以下两个来源: (1)组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等; (2)组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。 而且:SS总=SS组间+SS组内 v总=v组间+v组内 如果用均方(即自由度v去除离均差平方和的商)代替离均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较,若F值接近1,则说明各组均数间的差异没有统计学意义,若F值远大于1,则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。 3.方差分析的应用条件 应用方差分析对资料进行统计推断之前应注意其使用条件,包括: (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。 (2)正态性,即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法,它用卡方值作为检验统计量,结果判断需查阅卡方界值表。 二、方差分析的主要内容 根据资料设计类型的不同,有以下两种方差分析的方法: 1.对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单因素方差分析。 2.对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即两因素方差分析。 两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:SS总=SS组间+SS组内,而对配伍组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配伍组变异,即:SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下: (1) 建立检验假设; H0:多个样本总体均数相等。 H1:多个样本总体均数不相等或不全等。 检验水准为0.05。 (2) 计算检验统计量F值; (3) 确定P值并作出推断结果。 三、多个样本均数的两两比较 经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。 1.多个样本均数间两两比较 多个样本均数间两两比较常用q检验的方法,即 Newman-kueuls法,其基本步骤为: 建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。 2.多个实验组与一个对照组均数间两两比较 多个实验组与一个对照组均数间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q’界值表。 t检验和u检验 t检验和u检验 -------------------------------------------------------------------------------- 简而言之,t检验和u检验就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布),当x为未知分布时应采用秩和检验。 一、样本均数与总体均数比较的t检验 样本均数与总体均数比较的t检验实际上是推断该样本来自的总体均数μ与已知的某一总体均数μ0(常为理论值或标准值) 有无差别。如根据大量调查,已知健康成年男性的脉搏均数为72次/分,某医生在一山区随即抽查了25名健康男性,求得其脉搏均数为74.2次/分,标准差为6.0次/分,问是否能据此认为该山区成年男性的脉搏均数高于一般成年男性。 上述两个均数不等既可能是抽样误差所致,也有可能真是环境差异的影响,为此,可用t检验进行判断,检验过程如下: 1.建立假设 H0:μ=μ0=72次/分,H0:μ>μ0,检验水准为单侧0.05。 2.计算统计量 进行样本均数与总体均数比较的t检验时t值为样本均数与总体均数差值的绝对值除以标准误的商,其中标准误为标准差除以样本含量算术平方根的商。 3.确定概率,作出判断 以自由度v(样本含量n减1)查t界值表,0.025 应注意的是,当样本含量n较大时,可用u检验代替t检验。 二、配对设计的t检验 配对设计是一种比较特殊的设计方式,能够很好地控制非实验因素对结果的影响,有自身配对和非自身配对之分。配对设计资料的t检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。故其检验过程与样本均数与总体均数比较的t检验类似,即: 1.建立假设 H0:μd=0,即差值的总体均数为“0”,H1:μd>0或μd<0,即差值的总体均数不为“0”,检验水准为0.05。 2.计算统计量 进行配对设计t检验时 t值为差值均数与0之差的绝对值除以差值标准误的商,其中差值标 准误为差值标准差除以样本含量算术平方根的商。 3.确定概率,作出判断 以自由度v(对子数减1)查t界值表,若P<0.05,则拒绝H0,接受H1,若P>=0.05,则还不能拒绝H0。 三、成组设计两样本均数比较的t检验 成组设计两样本均数比较的t检验又称成组比较或完全随机设计的t检验,其目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t检验也没有大的差别,只是假设的表达和t值的计算公式不同。 两样本均数比较的t检验,其假设一般为:H0:μ1=μ2,即两样本来自的总体均数相等,H1:μ1>μ2或μ1<μ2,即两样本来自的总体均数不相等,检验水准为0.05。 计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。 应注意的是当样本含量n较大时(如大于100时)可用u检验代替t检验,此时u值的计算公式较t值的计算公式要简单的多。 四、t检验的应用条件和注意事项 两个小样本均数比较的t检验有以下应用条件: (1)两样本来自的总体均符合正态分布,(2)两样本来自的总体方差齐。 故在进行两小样本均数比较的t检验之前,要用方差齐性检验来推断两样本代表的总体方差是否相等,方差齐性检验的方法使用F检验,其原理是看较大样本方差与较小样本方差的商是否接近“1”。若接近“1”,则可认为两样本代表的总体方差齐。判断两样本来自的总体是否符合正态分布,可用正态性检验的方法。 若两样本来自的总体方差不齐,也不符合正态分布,对符合对数正态分布的资料可用其几何均数进行t检验,对其他资料可用t’检验或秩和检验进行分析。 实验设计基本概念 实验设计 -------------------------------------------------------------------------------- 一、实验设计的概念、特点和分类 1.实验设计的概念 将一组随机抽取的实验对象随机分配到两种或多种处理组,观察比较不同处理的效应,这种研究称为“实验研究”. “实验设计”是为实验研究做的周密计划。 2.实验研究的特点 (1)能有效地控制误差,节省人、财、物力,提高效率。 (2)研究者能人为地设置处理因素。 (3)受试对象接受何种处理及处理因素的水平是随机分配的。 3.实验研究的分类 (1)动物实验:在动物身上进行的实验研究。 (2)临床实验:在临床患病人群中进行的试验研究。 (3)社区干预实验:在某地区所有人群中进行的试验研究。 二、实验设计的基本要素 1.处理因素 又称研究因素,一般是外部施加的因素,确定处理因素时应注意: (1)抓住实(试)验中的主要因素。 (2)确定和控制非处理因素。 (3)处理因素要标准化。 2.受试对象 即研究的对象,一般有人和动物两类。 人的选择:要注意病人和正常人的正确区分,诊断要明确,受试对象依从性要好等。 动物选择:注意所选动物的种类、品系、年龄、性别、窝别、体重等。 3.实验效应 即处理因素的效果,应注意: (1)正确选用观察指标来反映实验效应。所选指标要灵敏、精确、客观,最好选用定量指标。 (2)指标观察时应避免偏性,可采用盲法。 三、实验设计的基本原则 1.对照原则:即实(试)验要设立对照,使得除实验因素外,对照组与实验组其余因素保持一致,常用的对照有:空白对照、安 慰剂对照、标准对照、实验对照、自身对照和历史对照等。 2.重复原则:即研究对象要有一定的数量,或者说样本含量应足够。根据每个具体研究,可有不同的方法来进行样本含量估计。 3.随机化原则:即应保证每个实验对象都有同等机会进入实验或接受某种处理。常用方法有查随机数字表和随机排列表等。随机化是保证均衡性的重要手段。 4.均衡原则:即各处理组非实验因素的条件基本一致,以消除其影响。 四、常用的实验设计方法 1.完全随机设计 将实验对象随机分配至两个或多个处理组去进行实验观察,又称单因素设计、成组设计。 优点:操作简单、应用广泛。 缺点:效率低,只能分析单因素的效应。 资料处理方法:t,u检验,方差分析、秩和检验、卡方检验等。 2.配对(伍)设计 将受试对象配成对子或配伍组,以消除非实验因素的影响。配伍设计又称随机区组设计。配对有自身配对和不同个体配对,配 伍实际上是配对的推广。 优点:所需样本数和效率均高于成组设计,而且很好地控制了混杂因素的作用。 缺点:配对条件不宜满足。 资料处理方法:配对t,u检验,秩和检验、配伍组方差分析、配对四格表卡方检验等。 3.其它实验设计方法: (1)交叉设计:在配对设计基础上再加入时间因素,可分析不同阶段的效应。 (2)析因设计、拉丁方设计和正交设计等。 实验设计的意义、原则与基本内容<转>实验设计的意义、原则与基本内容 一、实验设计的意义 实验设计是科学研究计划内关于研究方法与步骤的一项内容。在医学科研工作中,无论实验室研究、临床疗效观察或现场调查,在制订研究计划时,都应根据实验的目的和条例,结合统计学的要求,针对实验的全过程,认真考虑实验设计问题。一个周密而完善的实验设计,能合理地安排各种实验因素,严格地控制实验误差,从而用较少的人力、物力和时间,最大限度地获得丰富而可靠的资料。反之,如果实验设计存在着缺点,就可能造成不应有的浪费,且足以减损研究结果的价值。总之,实验设计是实验过程的依据,是实验数据处理的前提,也是提高科研成果质量的一个重要保证。 二、实验设计的原则 实验设计有属于专业方面的,有属于统计方面的。从统计方面说,主要应当考虑对照、重复、随机化等问题,这就是所谓实验设计的三原则。其具体内容我们将在第二、三、四节介绍。 三、实验设计的基本内容 (一)拟定相互比较的处理 所谓处理,指的是在实验研究中欲施加给受试对象的某些因素。如营养实验的各种饲料,治疗某病的几种疗法或药物,药理研究中某药的各种剂量等。在实验的全过程中,处理因素要始终如一保持不变,按一个标准进行实验。如果实验的处理因素是药物,那么药物的成份、含量、出厂批号等必须保持不变。如果实验的处理因素是手术,那么就不能开始时不熟练,而应该在实验之前使熟练程度稳定一致。 (二)确定实验对象及数量 这里指的是实验所用的动物或活体组织标本等。在实验设计中,要根据实验观察的目的与内容,明确规定采用什么样的实验对象,实验对象中的每个实验单位必须具备的条件与要求,以保证受试对象的一致性。实验对象需要有一定的数量,例数不能太少,也不宜过多。如何估计例数,详见第四节。 (三)确定将各实验单位分配到各种处理中去的原则 这主要是随机分配或随机化问题。第三节将介绍几种常用的随机分组方法。 (四)拟定观察项目和登记表 要根据研究目的和任务,选择对说明实验结论最有意义,并具有一定特异性、灵敏性、客观性的观察项目。必要的项目不可遗漏,数据资料应当完整无 缺;而无关紧要的项目就不必设立,以免耗费人力物力,拖延整个实验的时间,尔后,要按照观察项目之间的逻辑关系与顺序,编制成便于填写和统计的登记表,以便随时记录实验过程中获得的数据资料。同一项目的度量衡单位必须统一符号(如+、++、+++等),应有明确的定义。 (五)拟定对资料整理分析的预案 这就是对将获得的数据资料准备如何进行整理?要计算哪些统计指标?用什么统计分析方法?事先必须有个初步的设想。例如对计数资料,是计算率还是百分比?若计算率,分子是什么?分母是什么?各组同一项目的某个率或百分比如何进行比较?又如对计量资料,是计算算术均数、几何均数还是中位数?同一项目各均数间应采用什么方法作比较?切忌实验设计时不认真考虑,实验过后拿数字去找统计方法。 Blocking是什么? Blockingisatechniqueusedtoremovetheexpectedvariationcausedbysomechangeduringthecourseoftheexperiment.Forexample,youmayneedtousetwo differentrawmaterialbatchestocompletetheexperiment,ortheexperimentmaytakeplaceoverthecourseofseveralshiftsordays.Design-Expertprovidesvariousoptionsforblocking,dependingonhowmanyrunsyouchoosetoperform.Thedefaultof1blockreallymeans"noblocking." Forexample,inexperimentswith16runs,youmaychoosetocarryouttheexperimentin2or4blocks.Twoblocksmightbehelpfulif,forsomereason,youmustdohalftherunsononedayandtheotherhalfthenextday.Inthiscase,daytodayvariationmayberemovedfromtheanalysisbyblocking. Whenyouchoosetoblockyourdesign,oneormoreeffectswillnolongerbeestimable.Youcanlookatthealiasstructuretoseewhicheffectshavebeen"losttoblocks."Thisisespeciallyimportantwhenyouhave4ormoreblocks.Incertaincases,atwo-factorinteractionmaybelostandsothenyouwillwanttomakesurethattheinteractionisnotonethatyouareinterestedin. Anothernoteaboutblocking-itisassumedthattheblockvariabledoesnotinteractwiththefactors.Theeffectmustonlybealinearshift,andnotbedependentonthelevelofoneormoreofthefactorsunderstudy. Important:Ifyoutrytoblockonafactor,thatfactorwillbealiasedwiththeblockandyouwillnotgetanystatisticaldetailsontheeffectofthatfactor.OnlyblockonthingsthatyouareNOTinterestedinstudying. Example:Youaretryingtodeterminetheeffectsoffactorsinacoatingprocesssuchasspeed,temperature,andpressureonyourproduct’stensileandelongationproperties.Duetothenumberofrunsinvolved,youwillneedtousetwodifferentbatchesofrawmaterial.Youexpectthatvariationsintherawmaterialmayhaveaneffectontheresponse,butyouarenotinterestedinstudyingthateffectatthistim e.Therefore,rawmaterialisNOTafactorandyoushouldblockonitinstead.ThiswillremovetheeffectofrawmaterialontensileandelongationfromtheANOVA andallowyoutobetteridentifytheotherfactoreffects. Ontheotherhand,ifyouwanttostudytheeffectofrawmaterialbatchvariation,thenitshouldbeincludedasafactorandyoushouldNOTsetupblocksonthisfactor.Youmayneedtorestricttherandomizationbymodifyingtherunorder.Beawarethatunidentifiedtime-basedeffectscouldinfluencetheresultsofyourexperimentwhenyourestrictrandomization.[原创 来自发酵人]区块化设计有利于提高分析质量。在培养基优化过程中由于因素之间的交互性和生物反应的复杂性,任何其它因素都有可能对实验产生巨大的干扰现象。为了尽可能减少其它因素的作用,而突出主因素效应,选择blocking是很有意义的。比较在实验过程中一次BB设计需要60多个RUNS。那么因为消毒锅不能同时灭菌,接种时间长,放瓶时间长等,这样我们就可以设计2个blocking。将实验分成两次,这样将消除灭菌时间不同的影响和减少接种和放瓶时间长度。这是一个例子,也不一定合理,因为分两次做的时候会带来种子的差异,这种差异通过对照实验不一定能很好的消除。所以它只是用来解释一下blocking设计可以将几个不想分析的干扰去除,合理性大家可以讨论。 另外区块化实验可以使实验的风险大大降低,一次在的试验如果失败,损失也会很大,同时特别打击人的积极性。而区块化之后可以将一次大的实验分成几次完成,这就是sequentialexperimentation的一项重要措施。 BlockinginCentralCompositeDesigns(fromdesignexperthelp)BlockinginCentralCompositeDesigns(中心组合中的区块化) Centralcompositedesignsmaybecarriedoutinblocks.Blockingisadvantageouswhenalloftheexperimentscannotbecarriedoutinonedayorwithonebatchof material.Thefactorialpointscanbedividedinsuchawaythattheblockedeffect iseliminatedbeforecomputationofthemodel.Thefirstoneormoreblocksconsistsofthefactorialdesignwithsomecenterpoints.Theremainingblockconsistsof thestarpoints(也叫轴向点) withadditionalcenterpoints.(两个区块中都包括中心点,这是进行误差分析必须的) Blockingschemesvarydependingonthedesignandthenumberoffactors.Asampleblockingselectionforacentralcompositedesignwith4factorsisshownbelow. (4因素实验需要的run) 1Block:30experiments 2Blocks:20experiments,10experiments 3Blocks:10exp.,10exp.,10exp. 1blockisreallynoblocking.2blockssplitthedesignintothefactorialportionand thestarpoints.For3blocksthefactorialdesignportionissplitintotwoblocksw hilethestarpointsmakeupthethirdblock. Variousblockingpatternsareofferedasoptionsforthecentralcompositedesigns.Inaddition,theblockassignmentscanbechangedafterthedesigniscreated.(Rightclickontheblockcolumnheaderinthedesignlayoutscreen.) Whentheexperimentisblocked,therewillbeanadditionalchoiceofthealphaleveltouse.Thechoiceisbetweenthealphavalueforperfectrotatabilityandthealphavalueforperfectorthogonalityoftheblocks.Often,thesevaluesarecloseenoughtomakethedifferenceunimportant.(有两种alpha值,一个是为了旋转分析需要,一种是正交分析需要,这些值经常比较接近,这样可能减少差异)Thedefaultisthevalueforrotatability.[求助]数据分析 大家帮忙看看我做的响应曲面数据如何?谢谢!Response ANOVAforResponseSurfaceQuadraticModelAnalysisofvariancetable[Partialsumofsquares-TypeIII] Sumof Mean F p-valueSource Squares df Square Value Prob>FModel 12.141.3527.250.0001significantA-时间 2.422.4248.90.0002B-功率 2.922.9258.920.0001C-料液比 0.140.142.80.1328AB 0.50.511.60.0112AC 0.250.255.050.0594BC 0.330.336.60.0362A^23.63.674.4<0.0001B^21.21.224.10.0017C^20.20.24.050.0840Residual 0.350.049LackofFit 0.20.0956.220.054notsignificantPureError 0.0610.015CorTotal 12.416Std.Dev. 0.22R-Squared 0.9722Mean 7.95AdjR-Squared 0.9366C.V.% 2.8PredR-Squared 0.6267PRESS 4.66AdeqPrecision 19.201AdjR-Squared 0.9366这一项合格吗?模型显著,失拟不显著。看起来不错。应该是合格。 [实验设计]什么是爬坡试验,如何设计呀?什么是爬坡试验,如何设计呀?谢谢大家指点!帮我看看决定是否做最陡爬坡试验的一句英文的意思 Aslongaslackoffit(duetopurequadraticcurvatureandinteractions)isverysmallcomparedtothemaineffects,steepestascentcanbeattempted. 请各位高手帮我看看这句话什么意思,以及其背后的意义。 看文献时,没有发现这样的分析。 当平方项和交互项占的比例高时,需要进行析因实验以确定主因素的影响,但是当他们占的比例到多少时,需要做析因实验?这个问题与楼主的问题看起来是相似的。 我想如果主效应的方差分析是显著的,而失拟不显著应该算合适了。 这样上面的英文翻译: 当失拟影响(因平方项与交互项引起)与主效应相比很小时,可以考虑应用最陡爬坡试验。 这是当你的主要因素数值不是最佳数值的时候,应用最陡爬坡实验.简单的说就是你所设计的影响显著因素的数值不是最适宜的,你可以,设定步长,使数值增加以达到影响显著的效果, 一般应用这个的是SAS软件,你可以下载一些这方面的中文文献,很详细的关于最陡爬坡试验 想请教一下大家,在PB做完后哪些数据是用来做最陡爬坡试验的?还是需要重新设计试验,那么minitab里的什么程序可以来设计和分析呢??谢谢大家不吝赐教啊~还有就是PB做完一定有必要做最陡爬坡试验么?? 我来回答吧 PB后不一定做最陡试验 要看你的试验结果 如果你对你自己的试验数据了解很好的话,应该估计出中心点的值 那么从PB后确定主效果因子后,选择该值做为CCD的中心点优化即可 当然如果你估计不出来,或者不相信,还是要做的对PB试验的结果应该是选择P值小的,应该是在0。1以下为好,选择好后利用CCD优化(designexpert) 想请问各位,在做最陡爬坡实验时,步长值如何才能确定呢?还是自己定 关于步长,可以先粗略的试一下,然后在细化,就可以了.响应面优化 在响应面优化时:在使用最陡爬坡实验时,步长如何确定? 根据因素的标准偏回归系数的大小确定步长 步长先大点,效果不理想再进行补充实验.关于placket-burman的求教 1、我是用minitab软件进行placket-burman试验设计,本来是7因素,但是考虑到空列,所以为11列,共12次处理(runs),出来的结果是用该软件里面的软件能分析出来吗?? 如果不行的话,用其它软件分析,那分析是方差分析还是t检验呢?/能出来回归方程?? 2、设计好表头后如何确定哪几列作为因素列(空列)?其选择有什么原则?? 关于Plackett-Burman的求教! 请楼主注意名称的拼写。 发文章我们都写成:Plackett-Burmandesign. 多谢楼下的更正了我一贯的拼写。 关于placket-burman的求教 老大,发文章的时候大部分是 plackett-burmandesign吧 我查很多文章都是这么写的,当然我的也写错了 用SAS很简单的分析结果也可以显示出来的sas是可以办到。可是有多少人用得了sas,我说的是普及率问题,要价太高! 统计软件多种多样,实用才是最重要的。 三楼同志,有机会我们一起讨论一下心得。谢谢。 PB实验设计中的问题,请大家指教! 我在做PB设计的时候,选择7个因素,4个空项,16次实验进行设计,为什么minitab中没有16次实验的设计表格呢?只有12和20呢?我不知道这是为什么!! 我正准备用PB设计,刚刚接触这方面,很白痴,呵呵:请大家多多指教!不胜感激!! 描述:步骤一 图片: 描述:步骤二 图片: 描述:步骤三 图片: 针对你的问题: 谢谢!! 可为什么我看的文献中的设计没有0这一个设计呢 看图:表2M=16的Plackett-Burman实验设计与结果 Table2ExperimentaldesignandresultofM=16Plackett-Burman 序号 A B C D E F G H I J K L M N O 酶活 u/ml1+ + + + - + - + + - - + - - - 110.42- + - - - + + + + - + - + + - 267.33- - + - - - + + + + - + - + + 169.44+ + + - + - + + - - + - + + + 126.15+ - + - + + - - + - - - + + + 103.76+ - - + - - - + + + + - + - + 202.9+ + - + - + + - - + - - - + + 223.0- - - - - - - - - - - - - - - 81.4- - + + + + - + - + + - - + - 123.21+ - + + - - + - - - + + + + - 137.411- - - + + + + - + - + + - - + 131.812- + + - - + - - - + + + + - + 321.713+ - - - + + + + - + - + + - - 184.114- + + + + - + - + + - - + - - 194.515+ + - - + - - - + + + + - + - 140.516- + - + + - - + - - - + + + + 205.3Prob>F*10-20.1.355.7513.625.516.24.9.46.533.128.23R-squared0.9726AdjR-Squared 0.9589我怎样才能做出文献中做的这种设计呢?? 中心点我们一般要求重复3次,以利于估计模型的误差.文献中,缺少这样一个设计.所以没有中心点.也就是0水平的实验.在因素设计中,不是已经设计了4个空项了吗?他们不就是用来估计误差的吗?? 我用minitab怎样设计才能设计出如文献所述的设计呢?? 在这方面我懂得的很少 请大家指教,不胜感激 Runs x1x2x3Biomass(g/l) ?1?16.4?18.41?17.6610.21?1?16.6?18.05?18.8410.45?1?16.34?18.511?18.111210.31310.0149.26159.7怎样对其进行RSM设计的多元二次模型和变量分析情况?请大家指教,不胜感激!!!!!!!! 大家帮帮忙 关于plackett-burman 小弟最近做发酵实验用到SAS进行培养基优化,在做plackett-burman设计时对虚构变量(空白对照)的安插问题吧是很明白。 请问各位高手前辈其安插顺序是不是随意的,还是另有要求? 我没有用过SAS,但是从实验原理来讲:虚构变量的用途是进行误差分析和交互分析用的。应该没有顺序之分,但是一些软件(如正交表)在考虑交互作用时,安排了特定的列,这可能与它算法有关。 试试designexpert吧,很好用! 刚发了! 多谢老大的帮忙 我自己又查了点资料,发现好多人都是随意安插的。 请教最陡爬坡实验问题 在做响应面优化培养基过程中,一般先是用Placket-Burman(或其他)筛选出重要影响因子,再进行最陡爬坡实验,最后进行中心复合设计。我想请教两个问题:(1)如何判断要不要进行最陡爬坡实验? (2)在进行最陡爬坡时培养基浓度变化有没有原则依据? 最陡爬坡实验一般都是要进行的,因为要确定CCD试验的中心点,保证结果的准确性,要不很难保证你的RSM图形有最高点。爬坡实验因素的变化步长一般根据PB试验中个因素的显著性大小确定。 一般是要做的不过最近看了很多文章,可以不做的,但是必须保证,PB试验后的最大值在整个试验中是最显著的,可以通过T检验得之 至少第二个问题,可以看看CCD文章,有很多。 帮帮忙!plackett-burman实验结果分析 实验所得结果如下,只知道CDE是影响显著的因子,不知道这几个因子是取高水平还是低水平,是不是看前面的系数,正取高,负取低? 系数标 项 效应 系数 准误 T P常量 17.1442.7036.340.003A 0.730.3652.7030.140.899B 6.133.062.7031.140.320C 7.543.772.7031.390.235D 8.1524.0762.7031.510.206E 25.62212.8112.7034.740.009F -1.915-0.952.703-0.350.741G -5.508-2.7542.703-1.020.366H 1.0060.5032.7030.190.861J -6.120-3.062.703-1.130.321K -1.145-0.5732.703-0.210.843L 0.730.3652.7030.140.899M 0.860.4342.7030.160.880N 2.6841.3422.7030.500.646O 1.8160.902.7030.340.754P -1.481-0.742.703-0.270.79是一个简单的方法,也可以看偏导的变化。 请教下 偏导在哪看啊 可以手工求 就看前面的系数行不?我是刚刚才接触这个软件 还有一点:因素D是空白 你的效应值是正的,所以说明增加该因子的量,对你最终的结果起到正的影响;如果是负的那就要降低该因子的含量,所以应该选择高水平的,进一步优化 你的效应值是正的,所以说明增加该因子的量,对你最终的结果起到正的影响;如果是负的那就要降低该因子的含量,所以应该选择高水平的,进一步优化 是负选择高水平的?正的选择低水平的? 这要看你要求最大值还是求最小值。 楼主的说法是正确的但是做这种试验,你最好把回归方程表示出来 方法是 点击 regression中的分析 就会出来了 系数的正负表明对响应值的效应 大小表示显著性 可以通过大小决定下一步的最陡爬坡步长 或者是CCD的步长 请教:PB-design,最陡爬坡实验,CCD等中的响应面分析的相关问题 请教:PB-design中的相关问题 在实验设计的过程中,通过阅读文献了解到了很多的,但是同时也积累了很多问题解决不了,希望各位高手们指点一二不胜感激. 1在PB设计中出现的dummyvariable的具体含义到底是什么?是对照组吗?如果不是应该遵循什么样的原则去设计呢? 2在PB中实验组数应该是变量数加1,那么在相关的文献中看到15个变量设计为:15+1+4,其中4是dummyvariable,但是表格中这4个变量也是有高低水平的变化的,那么设计时是作为15个变量来考虑还是19个呢? 3想问问在最陡爬坡实验中,步长的选择有什么要求吗?纯经验还是有公式的? 4在设计CCD试验那的时候是否要包括全因子实验设计? 5什么是中轴点? 各位高手帮帮忙啊,谢谢了 小妹我也正在做这块试验,是培养基优化的刚做完单因素试验 正在想下面该怎么设计呢?是PB?还是最陡爬坡?还是两个都要做?? 反正最后是要做响应面的~~希望大虾们多多多指点一下下…… 另外,关于PB,我也在想,是不是必须要做空白项的呢? 那么空白项里面的+1,-1是没有具体的水平值的亚,那么在实验中具体该怎么操作呢?? 谢谢各位不吝指教了…… 我自己是怎么想的:单因子实验只是为了保险使PB实验的结果更加明显而进行的预实验,PB实验本身就是有筛选单因子的功能,如果有把握是可以直接做PB的.而我的实验是先进行单因子,然后是PB,根据PB的实验分析数据做最陡爬坡实验,否则不能很好的确定爬坡的方向以及步长. 我也是才刚刚接触这个课题希望大家能够多多交流哟 最陡爬坡实验的步长的选择:根据前面PB实验的结果,做一阶方程的法线,法线方向就是爬坡方向,步长就根据回归系数和规范变量的比值在通过自然变量来换算,算到的结果在综合实际的情况就可以基本确定步长了 这个是最近看文献理解到的一些,希望哪位高手指点一下 1.dummyvariable不是对照组。如果你的实验次数为4的整数倍。那么看你考察的因素是多少个。比如你有9个,那么至少要使用 runs=12次 的PB设计。此时,有3个空列。一般的处理方法是,等间距空列。实在不行,你就随机选吧。这并不妨碍你的实验结果。空列只是为了估算误差。 2.这样吧,如果我这样表述,看你是否能够理解。 我刚好有15个因素,想做PB,正好 runs=16符合我的要求。可是,这样一来,估算误差呢?因为没有多余空列了。那么,再往上加列,只有再加4列。刚好19因素,20次实验,其中有4个空列。 你认为这多出来的一列(16-15=1),我想你是这样算的吧。那你运行一下软件,看看15因素的PB,runs=16,到底是15列,还是16列?列是因素,行是实验次数。并不是列数=行数。 描述:如何确定步长: 图片: 描述:如何steepestascent实验,红色字体为最佳条件 图片: 3想问问在最陡爬坡实验中,步长的选择有什么要求吗?纯经验还是有公式的? 描述:4在设计CCD试验那的时候是否要包括全因子实验设计?图片: 看了这张图,我想答案应该是不言而喻了! 描述:4在设计CCD试验那的时候是否要包括全因子实验设计?图片: 看了这张图,我想答案应该是不言而喻了! 描述:CCD各个设计点的作用: 图片: 综合最后两个问题.如有异议,欢迎继续发帖,大家共同学习! 谢谢Topmit如此详尽的回答,非常感谢.由于我现在是在准备开题,所以还没有开始使用软件,现在只是在进行理论上的学习 小妹我实在愚钝,看了回帖后还是有几个疑问:1在PB实验中,实验组数是4的倍数是约定俗成的?还是方法本身的要求?在准备过程中参考了一些外文文献发现他们的设计中似乎没有什么规则,有时候就像你上面说的是随机设置的2还是关于虚拟变量的问题,在PB实验中似乎不一定需要设置虚拟变量,而且如果要设定是在什么样的情况下才需要呢?设置了和不设置有什么差别?3在上面CCD图中提到的角点就是四面体的8个顶点吧,那么轴点和星点是不是就是数量上相等的不同轴上的点的不同叫法?还有就是这两个点是怎么定的?数学意义是什么啊?4a主要是用来评价旋转性的吧?那么在实验的设计过程中如何体现a的价值呢? 真是不好意思,基础太差,问题很多,请多多指教啊
篇二:响应面交互作用怎么分析篇三:响应面交互作用怎么分析
DOE就在你身边DOE系列之一DOE,即试验设计(DesignOfExperiment),是研究和处理多因子与响应变量关系的一种科学方法。它通过合理地挑选试验条件,安排试验,并通过对试验数据的分析,从而找出总体最优的改进方案。从上个世纪20年代费雪(RonaldFisher)在农业试验中首次提出DOE的概念,到六西格玛管理在世界范围内的蓬勃发展,DOE已经历了80多年的发展历程,在学术界和企业界均获得了崇高的声誉。然而,由于专业统计分析的复杂性和各行各业的差异性,DOE在很多人眼中逐渐演变为可望而不可及的空中楼阁。其实,DOE绝不是少数统计学家的专属工具,它很容易成为各类工程技术人员的好朋友、好帮手。本文将以一个日常生活中的小案例为线索,结合操作便捷的专业统计分析软件JMP,帮助大家揭开DOE的神秘面纱,了解DOE的执行过程,自由自在地建立属于自我的DOE空间。场景:相信大家都吃过爆米花,但是大家是否都了解爆米花的制作过程?在品尝爆米花的时候,不知道您是否注意到有很多爆米花没有爆开,也有很多被爆焦。这两种情况都是生产过程中的质量缺陷。这里,我们基于六西格玛软件JMP来实现我们的目标:寻找使用微波炉加工一包爆玉米花的更佳程序。凭借经验,我们很容易就能确定重要因子的合理范围:加工爆玉米花的时间(介于3至5分钟之间)微波炉使用的火力(介于5至10档之间)使用的玉米品牌(A或B)在爆玉米花时,我们希望所有(或几乎所有)的玉米粒都爆开了,没有(或很少)玉米粒未爆开。因此玉米的"爆开个数"是最终关注的重点。第1步:定义响应和因子(如图一所示)图一定义响应和因子第2步:定义因子约束(如图二所示)根据经验,你知道:不能在试验中长时间高火力加工爆玉米花,因为这样会烧焦某些玉米粒。不能在试验中短时间低火力加工爆玉米花,因为这样只有少数玉米粒爆开。所以要限制试验,以使加工时间加上微波炉火力小于等于13,但大于等于10。图二定义因子约束
第3步:添加交互作用项(如图三所示)我们可以推测:与爆开玉米比例相关的任意因子效应可能取决于某些其它因子的值。例如,品牌A时间变化的效应可能大于或小于使用品牌B相同时间变化的效应。这种因子表现出的协同效应统称为二因子交互作用。我们决定在爆玉米花加工过程的先验模型中纳入所有可能的二因子交互作用。图三添加交互作用项第4步:确定试验次数(如图四所示)根据在模型中添加的效应,执行试验需要一定的试验次数。我们可以使用最小值、建议值,也可以指定试验次数,只要其值大于最小值。本例中,我们将使用默认的试验次数16。图四确定试验次数第5步:指定输出表格(如图五所示)生成的数据表保留了随机化的特性,显示了我们应该运行试验的顺序,首先在7级火力下将第一包B牌的玉米加工3分钟,然后在5级火力下将B牌玉米加工5分钟,依次进行。图五指定输出表格第6步:收集和输入数据(如图六所示)
根据设计方案加工爆玉米花。然后,计算每包中爆开的玉米粒的数量。最后,保存结果至数据表。图六收集和输入数据第7步:分析结果(如图七所示)可以构建数据模型了,一般使用最常见的分析方法--最小二乘法,但是如果响应数据明显不呈正态分布时,选择广义线形模型法会显得更为合适。图七分析结果简要地查看输出报告中的"参数估计"表,发现所有的p值都小于0.05,表明所有的模型效应,包括一次主因子作用、二次主因子作用和双因子交互作用,均是显着的。我们已确认时间、火力以及品牌与爆开玉米粒个数之间存在着紧密关系,要进行进一步研究,可以打开"预测刻画器",分析因子组合的变化如何影响爆开玉米粒的个数。预测刻画器显示了每个因子对响应的预测轨迹,移动红色虚线,便能查看更改因子值对响应产生的影响。例如,单击"时间"图中的红线并左右拖动,当"时间"值从3转移至5时,"爆开个数"也在发生相应得变化。同时,随着时间的增加和减少,时间和火力预测轨迹的斜率也随之改变,表明确实存在时间和火力的交互效应。
最后,还可以通过"预测刻画器"寻找出最优设置,即最合意的设置。我们根据试验分析结果而推荐的方法是:使用A品牌,加工5分钟,并将火力调为6.96级。试验预测在此种设置下加工,产出的玉米粒445个以上都爆开了。类似这种爆玉米花的案例在我们的生活和工作中还有很多很多,有兴趣的读者完全可以将平时遇到的问题抽象成一个DOE模型,然后借助JMP这样的专业统计分析软件,轻轻松松地得到问题的解决方案。有关DOE的更加深入的理论和应用,笔者会在今后的文章中继续与大家交流。初识DOE-DOE系列之二其实,DOE对中国人来说,也不是一个完全崭新的内容。早在新中国成立初期,华罗庚教授就在我国农业、工业领域大力倡导与普及DOE,只是当时他运用的是另一个名词——优选法。七十年代末,方开泰教授和王元院士又提出了著名的“均匀设计”法,这一方法在我国航空航天事业中的导弹设计中取得了巨大成效。与此同时,“均匀设计”法也在全球研究DOE理论的学术界得到了高度赞誉。但是,在将DOE的先进理念和科技方法向各行各业转移,向一般技术人员转移,并转换为高效生产力的道路上,我们的进展还很有限。通过“DOE系列之一”我们已经知道:DOE与人们的生活及工作密切相关,在专业六西格玛统计分析软件JMP的帮助下,掌握DOE也不再是一件难事。从本质上讲,DOE是这样一门科学:研究如何以最有效的方式安排试验,通过对试验结果的分析以获取最大信息。所以,DOE有两大技术支柱:试验规划和分析方法。其中,试验规划又可以分为均分设计、因子设计、响应面设计等,分析方法又可以分为极差分析、方差分析、多元回归分析等。虽然DOE的理论体系中涉及统计分析的专业词汇很多,但为便于读者理解,本文包括后续的系列文章将尽量避免过多地涉及统计分析的基本概念,而是将以“解决问题的思路”为导向,由浅入深地向读者介绍DOE的理论体系和应用过程。另外,感谢当代高速发展的计算机技术,我们可以借助六西格玛统计分析软件JMP来实现上述所有的试验设计方案,顺便提一下,JMP是目前唯一能实现上述所有试验设计方案的六西格玛统计分析软件,而且已经面向大中华地区推出中英文双语版软件。一般的实际问题都是纷繁复杂、千变万化的,但是透过现象看本质,所有实际问题的共同点也可以通过统一的模型来抽象概括。图一就是一个高度简化的过程模型,其中Y1,Y2,…,Ys是我们关心的输出变量,例如质量指标、生产能力和成本等,通常被称为“响应变量”(Response);X1,X2,…Xk是我们在工作中可以加以控制的输入变量,例如人员、设备、原材料、操作方法和环境等,通常被称为“可控因子”(Factor),它们可以是连续型数据,也可以是离散型数据;中间的“黑匣子”是“过程”(Process),在前两者之间起着衔接转换的作用,它与不同行业、不同产品、不同技术密切相关,但整体都可以用的数学模型来表示。这个数学模型的具体表达式越精准,说明我们对这个过程的理解越深刻,DOE就是协助我们揭示或验证数学模型表达式的利器!
图一过程模型在某些要求不高的工作环境中,往往不需要用一个复杂的数学表达式来描述过程的全貌,但至少要了解哪个或哪几个因子(X)对响应(Y)的影响显著,哪些因子之间存在着相互影响的关系等。这时,“主因子作用”(MainEffect)和“交互作用”(Interaction)可以帮助我们回答这些问题。在此,不强调具体的计算过程,主要以视觉效果阐述主要概念。主因子作用是指一个因子在不同水平下的变化导致响应的平均变化量。正如图二所示,X在-1和+1两个水平下Y值的落差反映的就是主因子作用。交互作用是指当其他因子的水平改变时,一个因子的主因子作用的平均变化量。正如图三所示,左半部分的因子A对Y的影响没有受因子B的变化而变化,两组A与Y的回归直线完全平行,表明因子A与B之间没有任何交互作用;反之,右半部分的因子A对Y的影响受因子B的变化而变化,两组A与Y的回归直线明显相交,表明因子A与B之间存在显著的交互作用。图二主因子作用示意图图三交互作用示意图
秉承“理论联系实际”的原则,接下来我们用一个真实的案例来说明上述原理的实际意义。场景:一位工程师希望通过减小厚度来改善涡轮叶片质量,首先他想定量地研究在相关的生产过程中,三个最有可能会影响厚度的变量:铸造温度(MoldTemp)、浇注时间(MoldTime)和放置时间(SetTime)。根据DOE理论中最简单的“完全因子设计”,工程师决定开展一个“三因子,两水平,共八次”的现场试验。试验方案和最终结果如表一所示,试通过主因子作用和交互作用进行分析。铸造温度(C)300350300350300350300350浇铸时间(S)11331133放置时间(M)11112222厚度(mm)3.613.776.753.723.343.247.014.14表一涡轮叶片厚度试验记录相关的统计计算可以借助专业六西格玛统计分析软件MP轻松实现,在此不一一详述,重点用形象直观的图形说明分析结果。图四各因子的主因子作用
图五各因子间的交互作用由图四可知,铸造温度和浇铸时间对涡轮叶片的厚度有比较显著的影响,而放置时间则几乎没有任何影响。由图五可知,铸造温度与浇铸时间之间、放置时间与浇铸时间之间的交互作用比较明显,而铸造温度与放置时间之间的交互作用则几乎为零。通过上述可视化的分析过程,我们清楚地理解了该过程中铸造温度和浇铸时间的正确设置对最终产品质量的重要性。当然以上只是有关DOE的一个最基础的应用,笔者会在下期文章中进一步与大家交流更深层次的内容。(资深六西格玛咨询专家周暐)多因子DOE的魅力-DOE系列之三通过前两期的介绍,我们已经初步认识到了DOE的强大分析功能。但是有的读者可能会不以为然:在此之前的两个案例中因子的数量太少(只有3个),而实际需要解决的问题会复杂得多,涉及的因子数量也可能会很多(至少有6个)。因此,他就可能会得出一个结论:DOE只适合于少数因子的问题分析,至于处理多因子问题,则显得无能为力了。这个结论显然有失偏颇,其实DOE的一大特点就是可以处理包含多达50个(并不限于50个)因子的复杂问题,本期的主要内容就是向读者介绍多因子DOE的方法。从理论上讲,上一期的DOE案例实质上采用的是完全因子设计(FullFactorialDesign),这类方法在因子数量较少的时候实施起来比较方便。但是正如表一所示,当试验中的因子数量逐步增加时,试验次数却呈指数增加,庞大的试验规模意味着巨额的试验费用,意味着实施DOE的可行性越来越小。
因子数量2345678910…试验次数481632641282565121024…表一完全因子DOE的局限为了解决这个矛盾,我们可以用一种更具魅力的方法——部分因子设计(FractionalFactorialDesign)来替代一般的完全因子设计。顾名思义,部分因子设计源于完全因子设计,是与其对应的完全因子设计中的一部分。但究竟是哪一部分,是否可以随机选取?举一个简单的例子来说明。表二显示的是一个完全因子设计的计划表,A、B和C表示三个主因子,+1和-1表示因子的两个不同水平,AB、AC和BC表示二阶交互作用,ABC表示三阶交互作用,总共需要做8次不同的水平组合来完成1次完全因子设计的计划。Run12345678A-11-11-11-11B-1-111-1-111C-1-1-1-11111AB1-1-111-1-11AC1-11-1-11-11BC11-1-1-1-111ABC-111-11-1-11表二3因子的完全因子设计计划表
以上这个试验计划适用于3个或以下因子,可支持8次试验运行的DOE。如果增加了第四个因子D,但依然只能支持8次试验运行时,我们应该怎么办呢?原来表二中的计划表有8行7列,任意两列间是相互正交的。我们希望增加一列来安排因子D,而且希望此列仍然能与前面各列保持正交性。数学上可以证明,“找出一个与前7列不同的列而与前3列保持正交”是不可能的。换句话说,D列必须与第4、5、6、7列中的某列完全相同。完全相同意味着这两列的效应会被“混杂”(Confounded),即获得计算所得的分析结果后,分不清两种效应各是多少。权衡之下,我们认为取D=ABC是最好的安排,因为通常主因子作用与三阶交互作用混杂的可能性最小。根据上述决定,将D列取值设定与ABC列相同,并将其前移至第4列,可以得到表三所列的计划表。Run12345678A-11-11-11-11B-1-111-1-111C-1-1-1-11111D-111-11-1-11AB1-1-111-1-11AC1-11-1-11-11BC11-1-1-1-111ABC(=D)-111-11-1-11表三4因子的部分因子设计计划表聪明的读者一定会猜到还可以使用图二的计划表继续构建出第5、第6乃至第7个因子,但试验的规模依然保留在8次。当然,当同等规模的试验中所涉及的因子数量越多时,产生“混杂”的概率会越大,后期分析结果的精确程度也会有所降低。这就是试验成本与分析精度这对矛盾的平衡,也是“部分因子设计”产生的基本原理。值得一提的是,在制定部分因子设计的具体方案时,不必如此繁琐地逐一推算,成熟的六西格玛统计分析软件JMP早已能够自动地实现了这一功能。下面我们想通过一个发生在国外的DOE案例来体会部分因子设计的实际意义。场景:ACB公司是一家网络公司,主要为个人用户提供服务。近阶段以来公司网站的点击数总体偏低,排名在同行业中持续下滑,高层管理层决定通过一个DOE项目找到少数几个关键因素,提高公司网站的每周访问量。经过初步分析,项目团队发现关键词的个数、关键词的类型、URL标题、每周的更新频率、关键词在标题中的位置和免费礼物是最具可能性的关键因子。但是如果按传统的完全因子设计的思路,至少要做26=64次试验,项目的时间跨度超过一年,分析结果的价值性大大降低,有什么好办法来克服这个困难呢?显然,这个案例用部分因子设计的DOE来实现是再合适不过了。针对已知的6个关键因子,各取两个最具代表性的水平值,鉴于该项目的主要目的是寻找关键因子,选择筛选效率最高的设计方案26-3(=8),不同水平组合时分别运行1周,八周后统计相应的点击数量,结果如表四所示。
URL标题短长短长短长短长关键词的个数551010551010关键词的类型旧旧旧旧新新新新每周的更新频率41144114关键词在标题中的位置第70个字符第40个字符第70个字符第40个字符第40个字符第70个字符第40个字符第70个字符免费礼物有有无无无无有有点击数50832272201243286359367647796549表四DOE实施记录接着,专业六西格玛统计分析软件JMP可以帮助我们做出具体的定性和定量的分析,不仅如此,它还等借助丰富生动的图形甚至动画将分析结果展现给我们。在此笔者不想强调过多的统计概念,只想用形象直观的图形说明分析结果。图一主因子作用的Pareto图图二主因子作用的正态性图
无论是从图一的Pareto图,还是从图二的正态性图,我们都能清晰地发现每周的更新频率和关键词的类型是影响点击数的关键因子。由此可见,在部分因子设计的思想指引下,多因子试验的时间成本、经济成本大大减少,而主要的分析目的没有受到丝毫的影响,多因子DOE的魅力正吸引着更多的工作人员将DOE的分析方法应用到更多的应用领域中。用DOE方法最优化质量因子配置-DOE系列之四经过筛选试验的精简和全因子试验的描述,很多人会满足已经取得的成绩,但也有一些精益求精的人会提出这样的问题:现有的最佳因子水平组合一定是所有因子设置中最理想的选择吗?如果不是,又应当如何找出最优化的因子设置?确实,以往的DOE侧重于分析哪些因子是重要的,到底有多重要以及它们之间是否会相互影响,却没有刻意去从整体中寻觅最佳的因子设置。为了解决这个问题,需要引入DOE中另一种新方法——响应曲面方法(ResponseSurfaceMethodology,即RSM),这也是我们本期DOE系列介绍的主题。在这里,笔者仍将借助目前业界公认的高端六西格玛统计分析软件JMP来为大家展现响应曲面方法的实现和应用,顺便提及,JMP6是迄今业界唯一的中英文双语版六西格玛软件,来自全球顶尖的统计学软件集团SAS。在实际工作中,常常需要研究响应变量究竟如何依赖于自变量X的,进而能找到自变量的设置使得响应变量得到最佳值。当自变量的个数较少(通常不超过4个),则响应曲面方法是最值得推荐的方法,适合于要求响应变量望大(即越大越好)、望小(即越小越好)和望目(即越接近目标值越好)等各种常见情形。通常来说,DOE的核心技术可分为试验计划和数据分析两大类,响应曲面方法也不例外。在数据分析方面,它和以前介绍的方法没有什么本质的不同,但在试验计划方面,则有显著的改进。响应曲面方法的试验计划主要有中心复合设计和Box-Behnken设计两种形式,具体用图形说明如下。图一三因子中心复合设计布点示意图
图一是以三维空间立方体的形式展示了一个三个因子的中心复合设计的试验计划示意图,在以下的叙述中给出的坐标都已将各因子代码化。整个试验由下面三部分试验点构成。1.立方体点(CubePoint),用蓝色点表示。各点坐标皆为1或-1,这是全因子试验相同的部分。2.中心点(CenterPoint),用绿色点表示。各点的三维坐标皆为0。3.轴点(Axial(旋转性指数)外,其余维度的自变量坐标皆为0。αPoint),用黄色点表示。除了一维自变量坐标为±在三个因子情况下,共有6个轴点。试验计划的另一种形式就是Box-Behnken设计。这种设计的特点是将因子各试验点取在立方体每条边的中点上。图二三因子Box-Behnken设计布点示意图图二同样以三维空间立方体的形式展示了一个三个因子的Box-Behnken设计的试验计划示意图。整个试验由下面两部分试验点构成。1.边中心点(SideCenterPoint),用白色点表示。除了一维自变量坐标为0外,其余维度的自变量坐标皆为±1。在三个因子情况下,共12个边中心点。2.中心点(CenterPoint),用黑色点表示。各点的三维坐标皆为0。由以上两个示意图可以清晰地发现,响应曲面方法有规律、有目的地在试验计划中增添了有限次数的各因子的中心试验点和拓展试验点,这为研究曲率的变化趋势、最优区域的确定等提供了极大的便利。关于响应曲面方法在数据分析方面的特点,由于其和一般的因子设计DOE非常类似,此处就不做赘述。主要还是通过一个工业案例来一并介绍响应曲面方法的实际应用。场景:如何通过催化剂(Catalyst)和稳定剂(Stabilizer)配置比例的具体设定,才能获得某化学试剂的最低不纯度(Impurities%)?因子催化剂%(Catalyst)稳定剂%(Stabilizer)低水平(-1)0.5860.586高水平(+1)3.4143.414显然,此时的工程师已经不满足于从仅有的四次全因子组合中选择最优的选项,而是希望在一个更广阔的可行性空间里充分挖掘过程的潜能,寻觅到一个最理想或是最接近理想值的配置比例。当然,实现这一目的的同时还要兼顾试验的经济成本和时间次数等。
这时候,将传统的因子设计方法搁置一旁,适时地调用响应曲面方法,往往会起到最佳的效果。为了提高我们应用DOE的工作效率,本文将直接使用专业统计软件JMP进行响应曲面方法分析,试图获得化学试剂的不纯度最低时的配置比例。首先,我们根据实际情况,以中心复合设计为原则,迅速地确定了13次运行次数的试验规模以及每次试验时的因子具体设置。接着,根据既定的试验计划进行实施,并且及时收集每次试验的响应值。将以上结果汇总之后,即可得到如图三所示的JMP文件格式的数据表格。图三中心复合设计的试验结果汇总表然后,运用“模型拟合”的操作平台,就可以得到具体详尽的定量分析。遵循我们“强调通俗易懂,淡化统计原理”的一贯原则,我们不多在统计参数上花费笔墨,依然通过形象直观的图形来说明分析结果。在求出精确解之前,我们先观察一下图四所示的等高线图(ContourPlot)和图五所示的曲面图(SurfacePlot)。从两个图中都可以清楚地看到,在原试验范围内确实存在一个最小值。
图四等高线图图五曲面图那么这个最小值究竟是多少?它又是在什么条件下产生的呢?进一步借助JMP自带的模型预测刻画器(PredictionProfiler),如图六所示,我们可以轻轻松松地得到最优化的配置比例:催化剂%=1.410568,稳定剂%=3.282724,这时产生的最低不纯净度%=3.156636。顺便提及,笔者尝试了多种统计分析软件,只发现JMP集成了模拟功能,实在难能可贵。
至此,我们匆匆走过了应用DOE优化流程的探索之路。其实在DOE的优化过程中,还有很多其他实用的知识和技巧,笔者将会在今后的文章中在做深入的介绍。图六模型的预测刻画器顾此不失彼的DOE-DOE系列之五本连载前四个系列已经介绍了几种不同背景、不同要求的情况下,应用DOE的原理和技巧。但细心的读者会发现之前的案例有一个共同的特点(或者称为局限):数据分析仅限于单个响应变量。在实际工作中,常常会遇到要同时考虑多个响应变量的情况,例如希望断裂强度越大越好,同时希望厚度越小越好;希望质量水平越高越好,但同时希望成本越低越好等等。这类问题与古人所说的有些相像:“鱼与熊掌,能否兼得”?确实,如何同时考虑多项指标是个很复杂的课题。今天我们的任务就是另辟蹊径,设法解决处理多指标问题,使DOE也可以顾此不失彼。DOE方法的实现离不开统计分析软件的支持,高端六西格玛统计分析软件JMP是目前业界最先进的六西格玛工具,其在DOE方面的表现最为优秀,本期案例我们仍以中英文双语版JMP软件作为DOE方案实现的载体。其实,解决这个问题的关键是能否创建一个新指标,用它来代表所有的旧指标,然后通过优化这个新指标,就可以实现多指标的平衡化最佳,也就是总体最佳了。这个新指标用什么来表示呢?答案是首先将原先的响应变量转化为另一个变量:意愿(Desirability)d,它的建立可以将求任意响应变量达到最优的问题转化为求一个取值范围在0至1之间的单个意愿达到最大的问题。意愿的函数形式可分为三大类,同时根据实际情况,分别确定它们的容许范围,即“下限”(Lower)和“上限”(Upper)。当试验的指标是越大越好,即“望大”型(Maximize)时,可以用图一来描述此时意愿的规律;当试验的指标是越小越好,即“望小”型(Minimize)时,可以用图二来描述此时意愿的规律;当试验的指标是越接近某值越好,即“望目”型(Target)时,可以用图三来描述此时意愿的规律。这三种不同的函数形式反映了三种不同的指标需求,它们的共同特征是d的取值越接近于1表示越结果越令人满意,d的取值越接近于0则表示相反。
此外,一个过程可能有很多响应变量,而且这些响应变量的重要程度对我们来说也可能不尽相同。权重(Weight)w就是用来表示不同响应变量的重要程度的变量,它的默认值为1,取值范围一般从0.1到10,越小说明其越不重要,越大说明其重要性越强。在单个意愿di及其对应的权重wi的基础上,就能够合成一个综合指标:复合意愿。它的一般定义公式为:重全部相等,则上式可以简化为:,如果这些单个意愿的权。复合意愿D就是我们需要创建的一个新指标,有了它,就可以来考虑k个响应变量的同时优化问题了。图一“望大型”意愿示意图图二“望小型”意愿示意图
图三“望目型”意愿示意图在掌握了多变量响应优化的原理之后,再加上专业DOE软件JMP的具体实施,相应的问题就迎刃而解了。遵循理论联系实际的风格,本文继续通过一个工业案例来介绍多指标DOE的实际应用。场景:在半导体行业中,蚀刻率(Etch)和不均匀性(Ununiformity)都是非常重要的质量指标,它们的表现与生产过程中的间隙(Gap)和功率(Power)这两个因素密切相关(具体信息参见图四)。在以往的DOE研究中,曾分别独立地对Etch和Ununiformity做过优化,但产生的矛盾是各自所要求的Gap和Power之间的设置差距较大,怎样才能兼顾两种不同效应的表现,找到最合适的输入控制因素的设定呢?图四某半导体生产流程的输入输出表显然,此时的半导体技术人员已处于流程的优化阶段,但同时正面临着一个“鱼与熊掌,孰轻孰重”的两难境地,寄希望于普通的DOE理论是于事无补的。而基于复合意愿理论的DOE方法就有了用武之地,使我们“鱼与熊掌,一举兼得”。首先,根据已掌握的信息,按照中心复合设计的原则,制定12次运行次数的试验规模以及每次试验时的Gap和Power的具体设置。接着,根据既定的试验计划进行实施,并且同时收集每次试验时Etch和Ununiformity的响应值。将以上结果汇总之后,即可得到如图五所示的JMP文件格式的数据表格。
图五中心复合设计的试验结果汇总表然后,与以往一样,运用JMP软件中的“模型拟合”的操作平台,就可以得到生产过程的量化分析。我们从大量的分析报表中精选了两个直观形象的图形(图六和图七)来具体说明分析结果。图六为等高线图,平面地二维坐标表示输入变量Gap和Power,而红蓝两色的等高线分别表示输出变量Etch和Ununiformity。红色阴影区域是Etch的“不可行区域”,蓝色阴影区域是Ununiformity的“不可行区域”,中间一带的白色区域是可以同时满足Etch和Ununiformity要求的“可行域”,它为我们指明了Gap和Power的合理设置范围,也可以将它看作能使输出结果最稳健的取值区域。图六等高线图
图七为预测刻画器,它是一个二维坐标系矩阵。我们可以从中观察到输入变量与输出变量之间的变化规律,各个输出变量与其对应的单个意愿之间的关系,以及各个输入变量对复合意愿的影响。更可以精确地找到理想的因子设置:Gap=1.110417,Power=371.0027,它们将会形成复合意愿的最大值:D=0.571931,它所对应的实际输出因子的结果是:Etch=1124.607,Ununiformity=103.5209。与实际要求相比较,这样的结果无疑是令人满意的,既能“顾此”,亦能“不失彼”。图七预测刻画图别具特色的稳健参数设计—DOE系列之六之前的五个DOE系列已经系统地介绍了很多经典试验设计的基本原理和使用技巧。但是,DOE是一个理论和实践高度联系的统计科学门类,在不到一百年的发展历程中,企业界不断地向学术界提出新的意见和建议,而学术界也积极响应,推陈出新地向企业界提供了大量理论指导,逐步形成了更多专业化、精细化的DOE应用分支。比如说,稳健参数设计(RobustParameterDesign)(也称健壮设计、鲁棒设计,简称参数设计)就是其中的典型代表,它是一种在研究工程实际问题中很有价值的统计方法。日本的田口玄一(GenichiTaguchi)博士在参数设计方法方面贡献非常突出,他在设计中引进SN比(信噪比)的概念,并以此作为评价参数组合优劣的一种测度,这是很有价值的,以至于很多文献和软件都把稳健参数设计方法称为田口设计(TaguchiDesign)。
稳健参数设计最主要的贡献是通过选择可控因子的水平组合来减少一个系统(或产品、过程)对噪声变化的敏感性,从而达到减少此系统性能波动的目的。同样,它的实现也离不开统计分析软件的支持。高端六西格玛统计分析软件JMP是目前业界最先进的六西格玛工具,其在DOE方面的表现最为优秀,在本期案例中我们将继续以中英文双语版JMP软件作为DOE方案实现的载体。通俗地说,稳健参数设计区别于其它DOE方法最显著的特征是在关注响应平均值改善的同时,更关注其标准差的改善。那么它是如何实现标准差的改善,也就是说,如何使响应变量的变差减小呢?很自然的想法是,通过减小噪声的变差来实现减小响应变量的变差,噪声因子的来源可能有很多类型,例如原材料参数的变化、环境的变化、载荷因子的变化、单元间的差异和耗损降级等等。通常噪声因子是无处不在的,减小噪声的变差往往需要付出较高的经济代价。稳健参数设计则是更好的一种策略选择。这种策略是通过探索可控因子与噪声因子间的相互作用,从而用改变可控因子的水平组合的办法来减小响应变量的变差。因为可控因子通常易于改变,所以稳健参数设计比直接减小噪声变差更经济更方便。我们可以通过一个简单直观的例子来理解这一点。正如图一所示,可控因子X本身受到噪声的影响而有波动,且响应变量Y与这个可控因子的关系是非线性的,则我们可以选择斜率较小的平坦区域从而使响应变量的变差减小。这样减小变差的方法比直接减小可控因子的噪声波动要便宜得多。一般地说,工程技术人员在系统设计(SystemDesign)选择确定了系统的构造之后,把选择参数的最佳设置以求减少响应变量变差的方法称为参数设计(ParameterDesign);再进一步把如何限定可控因子的噪声波动的方法称为容差设计(ToleranceDesign)。图一稳健参数设计的原理示意图目前,在稳健参数设计中公认较好的试验与建模的方法是:用乘积表进行位置与散度建模。接下来,我们将会详细说明。
首先观察乘积表。过程的输入变量(因子)有两类:可控因子(ControlFactor)和噪声因子(NoiseFactor)。为了考查可控因子的不同水平搭配的效果,我们要在一张控制表(ControlArray)中安排这些可控因子,通常用全因子设计或部分因子设计来进行,此表也常被称为“内表(InterArray)”。为了考查噪声因子的效应,要对控制表中每个试验条件安排一个噪声表(NoiseArray)。这样做就相当于控制表中的每个水平组合与噪声表的所有组合相乘构成一个乘积表(CrossArray)、内外表(Inter-OuterArray)(也有称直积表的)。乘积表的图例可参见图二。记验次数为行72次试验。。图二中的和分别为控制表及噪声表的试验次数,则乘积表的试=8,表中带“*”的地方表示一次试验,总计要进=9,图二稳健参数设计的乘积表接着再看位置与散度建模。位置和散度建模法(LocationandDispersionModeling)就是分别建立位置和散度的度量值关于可控因子主效应的模型。对每个控制水平的组合,用噪声重复试验的样本均值作为位置的度量,用样本方差的对数或样本方差本身作为散度的度量。对这两种度量,分别找出对它们有显著影响的因子来。凡对位置度量有显著影响者,称为位置因子(LocationFactor);凡对散度度量有显著影响者,称为散度因子(DispersionFactor);是位置因子但又非散度因子者,称为调节因子(AdjustmentFactor)。这三者的关系可以参见图三。
图三稳健参数设计的因子分类图对于望目型问题,我们解决问题的程序是这样的:先选择散度因子的水平使散度最小化;再选择调节因子的水平使位置达到目标值。对于望大或望小型问题,我们解决问题的两步程序是这样的:先选择位置因子的水平使位置达到最大(小);再选择非位置因子的散度因子的水平使散度最小化。取什么指标来作为位置及散度的度量是最好的呢?前面所说的样本均值及样本方差是常见的选择,但我们的响应变量优化的目标可能有望大、望小和望目三种形式,统一使用“信噪比”及“灵敏度”是田口提出的建议之一。粗略地说,对于望大、望小和望目三种形式,用不同的公式来定义信噪比后,我们的位置-散度建模法的优化步骤的第一步,都可以归结为信噪比极大化,第二步再根据不同的目标选不同的因子予以调节,不一定都选“灵敏度”作指标。关于信噪比(SignaltoNoiseRatio,SNRatio)具体的定义公式,有兴趣的读者可查阅相关书籍或统计软件JMP的帮助文件说明。这里还是通过一个工业案例来介绍稳健参数设计的实际应用。场景:如何找到最合适的因子设置,使附着性能够最经济地实现最大化?因子名称类型水平干扰可控3管道和连接器干扰壁厚可控3连接器的壁厚度深度可控3将管道插入至连接器的深度粘度可控3粘度百分比时间噪声2温度噪声2湿度噪声2注释处理时间温度相对湿度为了能够“最经济地实现附着性的最大化”,我们不能刻意地对噪声因子提出过高的要求,而是必须从所有可控因子的组合中找到一个最佳设置,但同时阻抗噪声因子干扰的能力也要足够的强。完成这样的任务,用稳健参数设计的方法是再合适不过的了。首先,根据乘积表构建出总共72次的试验计划开展试验,完成试验后将数据汇总,得到附着性的平均值和信噪比,如图四所示。
图四稳健参数设计的试验结果汇总表在此之后,通常的做法是判定位置因子、散度因子和调节因子,然后依次调整这些因子的水平以达到响应最佳的效果。统计软件JMP在完成传统解决方案之外,提供了更简便的解决方案,即构建一个整合了平均值和信噪比的意愿函数(Desirability),通过预测器的自动优化,迅速找到最合适的因子设置。在本例中,我们就可以从图五中清楚地发现,当干扰的水平为2,壁厚的水平为2,深度的水平为3,粘度的水平为1时,附着性的平均值达到最大,最大值为22.825。同时,附着性的信噪比也达到最大,最大值为26.90753,意味着此时附着性的抗干扰能力也是最强的。图五田口设计模型的刻画器
关于高级DOE的内容还有很多,稳健参数设计/田口设计只是其中之一,我们会在今后的系列中陆续为大家介绍更精彩的DOE理论与应用。解决配方问题的DOE高手-DOE系列之七在实际工作中,常常需要研究一些配方(或称为配比)的试验问题,这种问题常常出现在冶金、化工、医药、食品等行业中。例如,不锈钢是由铁、镍、铜和铬4种元素组成;闪光剂由镁、硝酸钠、硝酸锶及固定剂组成;复合燃料、复合塑料、混纺纤维、混凝土、粘接剂、药片、饲料等都是由多种成分按相应比率制作而成,等等。这些产品都可以被统称为混料(Mixture),组成混料的各种成分可以被称为混料成分或分量,同时它们也是混料试验中的因子(Factor)。它们的比例关系对产品的最终质量特性起到了决定性的作用。这时候,如果我们要用试验设计的方法进行分析的话,会发现两个与众不同的特征。一是通常人们关心的是各种分量的比例而不是其绝对数值,二是所有分量之间存在一种特殊的约束条件,即总和一定为1或其他常数。这两个与众不同的特征使此类试验设计的研究方法与此前我们讨论过的所有试验设计类型都有明显的区别,直接应用以往的试验设计方法显得颇为牵强,所得到的分析结果也降低了可信度。如何解决这个棘手的问题呢?事实上,对于这种分量之和总是为一定常量的试验设计,我们常常会请一位精于此道的DOE高手——混料设计(MixtureDesign)来帮忙。本期的DOE系列连载就将具体介绍混料设计的原理与应用。同样,混料设计的实现也离不开统计分析软件的支持。高端六西格玛统计分析软件JMP是目前业界最先进的六西格玛工具,其在DOE方面的表现最为优秀,在本期案例中我们将继续以中英文双语版JMP软件作为DOE方案实现的载体。一般来说,混料设计中的混料成分至少有3种,它们之间的约束特征可以用图一来形象地表示。也就是说,所有的试验点均落在一个特定三角形平面上,而不是以往的一个立方体内。这个现象进一步地提示我们可以利用“三线坐标系”巧妙又直观地揭示混料设计中各分量的组成状况。其原理来源于平面几何中的有关知识:等边三角形内的任何一点到三条边的距离之和等于该三角形的高。如果设三角形的高为1,则任何一点的坐标就可以用其到三个边的三个距离来表示。当然,这三个坐标并不独立——三者之和恒为1,这恰好与混料设计中“共有3种混料成分,所有成分的比例之和总是为1”的条件相对应,图二就是一张三线坐标系的示意图。当混料设计中的混料成分增至4种时,等边三角形将变成正四面体,增至5种以上时,就没有直观的图形了,但是我们可以以此类推,想象一个多维空间图形的存在。
混料设计中最重要,也是最有特色的当属试验点的选取方法。常见的选取方法有四种,分别是单纯形中心设计(SimplexCentroid)、单纯形格子点设计(SimplexLattice)、极角点设计(ExtremeVertices)和筛选设计(ABCDDesign)。本文将以最为典型的“单纯形格子点设计”为代表,详细介绍如何选取试验点。单纯形格子点设计的基本思想是将全部格子点集内每个点依次选中。格子点是由因子和阶数两个参数给定,此格子点集记为{,}。以三种混料成分(即三个因子)为例,三因子一阶数的格子点集合(记作{3,1})就是3个顶点全体(参见图三的左图),三因子二阶数的格子点集合(记作{3,2})就是将3条边各二等分,由3个顶点及3条边中点
全体组成的集合(参见图三的中图)。三因子三阶数的格子点集合(记作{3,3})就是将3条边各三等分,过各分点画与另两边平行的直线,由平行线所交而形成的格点(共10个)组成的集合(参见图三的右图)。依此类推,但通常阶数到3为止就足够了。{3,3}格子点的坐标如图四所示。X1123456789101000.6670.3330.6670.333000.333X20100.3330.667000.6670.3330.333X3001000.3330.6670.3330.6670.333顶点顶点顶点双混双混双混双混双混双混中心图四三因子三阶数的单纯形格子点设计计划表关于混料设计其他众多的选点设计方案,有兴趣的读者可查阅相关书籍或统计软件JMP的帮助文件说明来进一步丰富自己的视野。这里还是通过一个实际的工业案例来介绍混料设计的应用特点。场景:在新型高强度合金冶炼技术中,关键是添加剂的配比问题。假设添加剂总量占总量2%,而添加剂由A,B,C共3种成分构成。试安排一个试验设计,求出3种分量的配比使断裂强度达到最大。显然,这个试验非常适合用混料设计的方法来解决。综合考虑试验成本等因素,首先采用了前文介绍过的“三因子三阶数的单纯形格子点设计”选择试验点。然后根据试验计划开展试验,完成试验后将数据汇总,得到断裂强度的测量值,如图五所示。
同时,我们也可以利用统计分析软件JMP提供的绘图工具“三元图”来形象地表现此次混料设计中的选点方案,如图六所示。图六展示混料设计中选点方案的三元图关于混料设计的数据分析,其方法和之前介绍的方法类似,主要也是通过“标准最小二乘法”来实现。有了统计分析软件JMP的帮助,这部分的工作显得更加轻松有效。延续以往的做法,在此依然用JMP软件中可视化效果极佳的预测刻画器说明统计建模的分析结果。如图七可知,当添加剂的配比中成分A为0%,成分B为20.329%,成分C为79.671%时,断裂强度将会达到最大的142.7659。我们可以在此基础上进行验证试验。
图七混料设计模型的刻画器到目前为止,我们已经向大家介绍了很多关于DOE的内容,但是近百年来学术界和企业界不断积累起来的DOE知识经验还远远不止这些。从下一期起,更多新颖实用的DOE理论与应用将会陆续登场亮相。(资深六西格玛咨询专家周暐)解码公差设计—DOE系列之八试验设计DOE常常用在新产品的设计和研发工作中,而产品设计常常可以分为系统设计、参数设计和公差设计(又称容差设计)三个阶段,或称三次设计。所谓系统设计,是指用专业技术研制产品(即样品)及其生产工艺。所谓参数设计,是指确定产品零部件的结构参数和生产过程的工艺参数,选择最佳的参数组合。所谓公差设计,是指对各种参数寻求最佳的容许误差,使得质量和成本综合起来达到最佳经济效益,这是产品设计中不可或缺但又往往被忽略的一个环节容。公差设计(ToleranceDesign)通常是在完成系统设计和参数设计后进行的,此时一般来说,各元件(参数)的质量等级较低,参数波动范围较宽。公差设计的输出结果就是在参数设计阶段确定的最佳条件的基础上,确定各个参数合适的公差。按照一般原理,每一层次的产品(系统、子系统、设备、部件、零件),尤其交付顾客的最终产品都应尽可能减少质量波动,缩小公差,以提高产品质量,增强顾客满意;但同时,每一层次产品也应具有很强的承受各种干扰(包括加工误差)影响的能力,即应容许其下属零部件有较大的波动范围。对于下属零部件通过公差设计确定科学合理的公差,作为生产制造阶段符合性控制的依据。因此,公差设计的指导思想是:根据各参数的波动对产品质量特性贡献(影响)的大小,从技术的可实现性和经济性角度考虑有无必要对影响大的参数给予较小的公差(例如用较高质量等级的元件替代较低质量等级的元件)。另外值得注意的是,三次设计的顺序并不是一成不变的。虽然公差设计的实施一般晚于参数设计,但有时为了获取总体最佳,公差设计也会影响参数设计的再实施。
公差设计的实现途径很多,比较常见的有极值分析法(WorstCase)、统计平方公差法(Root-Sum-Squares)和模拟法(Simulation)三类,下面将会结合实际案例作各自的说明和相互的比较。在高端六西格玛统计分析软件JMP的协助下,公差设计的工作效率更加高速,分析结果更加清晰。在本期的案例分析中,我们将在必要的地方用中英文双语版JMP软件作为DOE方案实现的载体,值得一提的是,JMP软件是目前唯一一款集统计分析功能和专业模拟功能于一身的六西格玛统计分析软件,也是目前全球试验设计方法的领导品牌。一极值分析法(WorstCase)极值分析法是目前应用范围最广泛、操作最简便的方法,大多数的设计都基于这个概念。在这种方法中,零部件都设计为名义值,然后假定公差完全向一个或另一个方向积累,最终的结果仍能满足产品的功能要求。在极值分析法分析中主要考虑的是设计规格的线性极值,它虽然确保了所有零件的组合,但往往导致最终结果过于保守,产生过大或过小的公差。而且严格地说,极值分析法并不属于统计方法,但它为后面讲到的统计平方公差法提供了比较的基础,能够帮助我们更好地意识到应用统计方法的好处。我们通过一个典型的机械系统设计案例来加深理解。场景:在一个装配环中装入4个零件,如图一所示,要求装配间隙Gap的目标值T=0.016,波动范围尽可能小。已知现在的零件1~4服从技术规范1.225±0.003,装配环服从技术规范4.916±0.003。试问:该系统的的目标值是否达到要求?公差范围是多少?根据极值分析法的分析思路,装配环的名义值=4.916零件1的名义值=-1.225公差=±0.003公差=±0.003零件2的名义值=-1.225零件3的名义值=-1.225零件4的名义值=-1.225公差=±0.003公差=±0.003公差=±0.003总公差=±0.015由此我们可以得到,间隙的名义值=0.016间隙的最小值=0.001间隙的最大值=0.031也就是说,系统的目标值达到了要求,系统的公差范围是[0.001,0.031],然而实际情况果真如此吗?系统中每个零部件出现极值的概率分别只有0.0027,由此组成的系统(即间隙)出现极值的概率=0.00275=0.000000000000143,几乎接近于0。这说明,通过极值分析法估算出来的公差范围过大,没有反应系统的真实情况。二统计平方公差法(Root-Sum-Squares)统计平方公差法基于这样一个假设理论:大多数的零部件在它们的公差范围内呈正态概率分布,此时由它们所构成的系统与各个零部件线性相关,则系统的分布也可以用一个正态分布或近似正态的分布来表示。结合上一个机械系统的案例,这个理论可以用图二表示。所谓的统计平方是指系统的方差是其零部件方差之和,即:设零部件的公差,所以得到系统的统计平方公差:。,一般假统计平方公差法采用统计分析方法进行公差分析,防止了产生过于保守的设计,适当地扩展了零部件的允许公差,如果清楚过程能力,甚至可以得到更宽松的公差。
这时候,在同一个机械系统的状况下,根据统计平方公差法的定义公式,间隙的总公差=间隙的最小值=0.016-0.0067=0.0093间隙的最大值=0.016+0.0067=0.0227也就是说,系统的公差范围变为[0.0093,0.0227],相对于极值分析法的结论,它显得更加接近现实情况。但是,统计平方公差法也存在一个先天性的缺陷:当初始的假定理论不成立,即零部件明显不呈正态概率分布,或者系统与各个零部件呈非线性相关时,原先统计平方公差的计算公式也就不成立了。三模拟法(Simulation)模拟也称仿真,是指通过设定若干个随机变量以及相互之间的关系建立系统的数学模型或逻辑模型,并对该模型进行充分的试验,以获得对该系统行为的认识或者帮助解决决策问题的过程。自上世纪八十年代起,随着电子计算机软硬件的普及,模拟得到了广泛应用,它的操作也越来越简单。在公差设计时应用模拟技术,分析人员无需组建真实的系统就能够评价模型,或者在不干扰现有系统的情况下对模型进行验证。而且模拟法对零部件的分布和模型的线性性要求较低,比许多其他的分析方法更容易被人理解。
再次借用机械系统的案例,我们首先在高级DOE分析软件JMP里对装配过程中的各个零部件参数进行设置,一般认为参数服从正态分布,均值等于中心值,标准差为半公差的1/3即(具体操作参见图三)。短短几秒钟后,汇总十万次模拟结果的间隙分布就由JMP软件自动生成了。从图四可以看到,通过模拟法得到的系统的公差范围变为[0.009,0.023],与统计平方公差法的结论十分相似,非常接近现实情况。同时,模拟法的分析过程生动形象,由它获取的结果的可读性依然很强。更重要的是,当遇到电子线路等非线性模型时,统计平方公差法已不适用,但模拟法却依然有效。以上花了很多篇幅介绍了如何正确地预测系统的公差范围。一旦发现系统的公差范围过大时,应该怎样调整零部件参数的公差设置呢?正如我们所知道的,减少零部件参数的公差会提高质量,减少系统功能波动的损失,但缺憾是往往需要增加成本。通过公差设计,可以确定各参数的最合理公差,使总损失(质量损失与材料成本之和)达到最佳(最小)。接下来将用最简单易懂的模拟法来简要说明。
例如,设定在上述的机械系统中顾客满意的间隙波动范围为[0.012,0.020],显然会有相当一部分产品被判为不合格。如果将各个零部件参数的公差都缩小一半,即,效果是否会明显改善呢?在高级统计分析软件JMP自带的模拟器的帮助下,我们很快会得到如图五所示的缺陷前后对比。间隙地缺陷数量从原先的74030PPM迅速下降到改进后的340PPM,充分说明效果是明显的。如果能够证明因此改进而增加的成本不高时,那我们就更有信心将零件1~4的公差范围设定为1.225±0.0015,装配环的公差范围设定为4.916±0.0015。
推荐访问: 响应面交互作用怎么分析 交互 响应 作用