一、可靠性概念的来源
可靠性(reliability)现在是大家所熟知的一个非常热门词语,多年来一直被用来称赞一个人或一个产品的属性。可靠性一词最早开始于1816年,这远远早于我们大多数人的猜测。“可靠性”一词最早是由诗人塞缪尔·泰勒·柯勒律治(Samuel Taylor Coleridge)提出的。在统计学中,可靠性是指一组试验结果或试验设备的一致性。可靠性是与随机误差相对的。在心理学中,可靠性指的是测试结果的一致性。如果我们反复得到相同的结果,测试就被认为是可靠的。例如,如果一个测试被设计用来测量一个特质(比如内向),那么每次对一个受试者进行测试时,结果应该大致相同。因此,在第二次世界大战之前,可靠性这个词的意思是可信性(dependability)或可重复性(repeatability)。美军在1940年代重新定义了该词的用途,并发展到了现在。可靠性最初的意思是一个产品能够按需正常运行的能力。而现在的可靠性加入了更多的附加属性,这些属性跨越产品、服务、软件或人类活动。这些特性现在渗透到当今技术密集型社会的方方面面。让我们跟随“可靠性”这个词看一下可靠性从早期到现在的发展历程。
二、可靠性发展历程
20世纪20年代的可靠性
可靠性的早期应用可能与电报有关。这是一个电池供电的系统,包含简单的发射器和接收器,并且通过电线相互连接。这个设备主要的故障模式可能是断线或电压不足。在灯泡、电话、交流发电和配电出现之前,可靠性在电子设备的应用还没有太多新的东西。到了1915年,带有几根电子管的收音机开始出现在公众面前。到1920年,汽车的使用也越来越普遍,这也可能代表了可靠性的机械应用。20世纪20年代,贝尔实验室的Walter A.Shewhart博士提倡通过使用统计质量控制来改进产品。我们通过回顾统计学和可靠性发展历史可看出,二十世纪统计学的发展与产品可靠性发展相辅相成的,统计与可靠性概念的发展是密不可分,统计为可靠性的度量提供了重要工具基础。
在这个阶段,产品设计师仍然负责产品的可靠性,而维修人员负责处理产品的故障。还没有所谓的主动预防维修或者考虑经济因素。
20世纪20-30年代的可靠性
在整个20世纪20年代和30年代,泰勒(Taylor)致力于使设计出来的产品更加一致,制造过程更加高效的研究工作。他是第一个将工程从管理与控制分开的人。查尔斯·林德伯格(Charles Lindberg)要求1927年横渡大西洋飞行的9缸风冷发动机能够连续运行40个小时而无需维护(明确提出可靠性要求)。进入20世纪30年代,一些特定行业取得了很大的进步,而质量和工艺措施尚处于起步阶段,但仍在不断发展。瓦洛迪·威布尔(Wallodie Weibull)在此期间是在瑞典研究材料的疲劳工作。他提出了一个称为威布尔(Weibull)的分布模型。在20世纪30年代,罗森(Rosen)和拉姆勒(Rammler)也在研究一种类似的分布来描述粉煤的纯度。
20世纪40年代的可靠性
到了20世纪40年代,可靠性和可靠性工程仍然还不存在。二战的需求使得许多新的电子产品进入了军事领域。这些设备包括电子开关、电子管便携式收音机、雷达和电子雷管。电子管计算机是在战争结束时开始的,但直到战后才完成。战争开始时,发现50%以上的机载电子设备无法满足空军和海军的要求。更重要的是,这一时期的许多可靠性研究工作也与新材料的试验和材料的疲劳有关。M.A.Miner于1945年在ASME期刊上发表了题为“疲劳累积损伤”的开创性论文。B. Epstein于1948年2月在《应用物理》杂志上发表了《断裂问题的统计概念》。这时候可靠性的主要军事应用对象仍然还是电子管,不管是在雷达系统还是其他电子设备。通过战争证明,这些系统在战争中不仅是有问题的而且昂贵。对于战后的舰上安装的设备,估计有一半的电子设备在使用时都坏的了。电子管是其主要的问题。敲打系统或拆卸电子管然后重新安装是修复故障电子系统的两种主要方法。这一问题正在逐渐受到军队思考。他们不能承受一半的设备一直没用。如果不尽快解决这些问题,设备维护和运输成本将会成天文数字。1948年,IEEE成立了可靠性协会,理查德·罗尔曼任第一任主席。也是在1948年,Z.W.Birnbaum在华盛顿大学建立了统计研究实验室,通过与海军部办公室的长期合作研究,有助于加强和扩大统计的使用。
20世纪50年代的可靠性
20世纪50年代初(注:我国也是在1950年代关注可靠性,并将可靠性概念引入中国),人们在军事和商业应用中发现了更大的可靠性问题,并提出了解决方案。据报道,早期的大型Sperry电子管计算机体积较大,需要放在一个大房间,且耗电数千瓦,内存是1024位,平均每小时就会发生一次故障。Sperry方案是将失效部分关闭,然后换上新的管子。1951年,罗马空军发展中心(RADC)在纽约罗马成立,主要研究空军相关的可靠性问题。同年,Wallodi Weibull在ASME应用力学杂志上发表了他的第一篇名为“一种应用广泛的统计分布函数”的英文论文。到1959年,他为美国军方编写了一份59-400号报告《疲劳和蠕变断裂试验数据的统计评估:基本概念和一般方法》。
在军事国防方面,美国成立了一个研究小组。这个小组被称为电子设备可靠性咨询小组,简称AGREE(注:可靠性分配有一种分配方法称为AGREE分配方法)。到1952年,该小组的一份报告为建立可靠系统提出了以下三项建议:
1) 供应商有必要设计开发更好、更稳定的设备。
2) 军方应为零部件供应商制定质量和可靠性要求。
3) 应收集设备的实际现场数据,以确定问题的根本原因。
1955年,一个关于电子连接器和接触器的会议开始了,会上强调了可靠性物理和以及理解失效机制。20世纪50年代的其他会议也主要讨论这些可靠性问题。同年,RADC发布了“地面电子设备的可靠性因素”,作者是约瑟夫·纳雷斯基(Joseph Naresky)。到1956年,ASQC作为美国质量大会的一部分,提供了关于可靠性的相关论文。无线电工程师、美国机械工程师协会(ASME)、美国材料试验协会(ASTM)和《应用统计学杂志》(Journal of Applied Statistics)都在撰写相关研究论文。IRE召开了一次会议并出版了题为“电子产品的可靠性与质量控制”的论文集。这从1954年开始一直持续到IRE与IEEE可靠性会议合并(合并为可靠性和可维护性研讨会)
1957年,AGREE委员会发布了一份最终报告,建议如下:1、大多数电子管无线电系统的失效遵循浴盆曲线规律。2、设计可更换的电子模块(后来被称为标准电子模块(或SEM)),以快速恢复故障系统能力,他们强调了设计的模块化。其他建议还包括对产品进行带置信度的验证试验。此外,还建议进行更长更严酷的环境试验,包括极端温度和振动试验。这后来被称为AGREE试验,并最终成为军事标准MIL-STD-781。AGREE报告提供的最后一项是可靠性的经典定义。报告指出,该定义是“产品在规定条件下,在规定的时间段内不发生故障地执行规定功能的概率”。1957年关于“可靠性预测”的另一份重要报告是由红石军火库的罗伯特·卢瑟(Robert Lusser)撰写的,他在报告中指出,一个陆军导弹系统60%的故障是由部件引起的。他指出,目前获取电子元件质量和可靠性的方法是不够的,还需要更多的方法。ARINC(注:可靠性分配方法有专门的ARINC分配法)与电子管供应商共同建立了一个改进流程,将电子管早期失效率降低了四倍。这十年结束时,RCA在TR1100中发布了一些军用部件故障率的信息。RADC收集了这些信息,并将这些作为军用手册MIL-HDBK-217的基础。这十年期间的可靠性工作取得的成功和发展非常迅速的。埃德·卡普兰(EdKaplan)将他关于电子管可靠性的非参数统计论文与保罗·迈耶(PaulMeyer)的生物统计学论文相结合,于1957年JASA期刊上发表了删失寿命数据的可靠性函数的非参数极大似然估计(称为Kaplan-Meyer)论文(注:Kaplan-Meyer是寿命数据非参数分析的一种重要方法)。另外,像F.E.Dreste于1958年6月在Electronic Engineers出版的《设计工程师可靠性手册》, W.F.Leubbert于1956年4月出版的《I.R.E.会议录》都是很好的例证。在接下来的几十年中,Birnbaum对概率不等式(即Chebychev)、非参数统计、复杂系统的可靠性、累积损伤模型、竞争风险、生存分布和死亡率均作出了重大贡献。十年结束时,C.M.Ryerson创作了一部到1959年的可靠性历史[26],发表在IRE的学报上。
20世纪60年代的可靠性
20世纪60年代发生了几件重大可靠性相关的事件。RADC召开了由伊利诺伊理工学院(IIT)主办的电子故障物理会议。坚定太空探索信念的NASA,是促进设备和系统可靠性发展的动力。RADC的Richard Nelson编制了文件“单片微电路的质量和可靠性保证程序”,最终成为MIL-STD-883和MIL-M-38510的重要基础。
随着小型便携式晶体管收音机的出现,半导体的应用越来越普遍。弗兰克格瑞纳博士通过无线电工程师协会发表了一篇可靠性培训文章。核电工业在此时也得到飞速发展。从导弹到飞机、直升机和潜艇的军事需求推动了各种技术的发展。电磁兼容对系统影响的研究也是在RADC发起的,并在20世纪60年代产生了许多进展。
编者注:资料源于James McLinn
未完待续,内容持续更新中