[!NOTE]
本文尚未进行深入学习和思考,未来仍可能大量修改。
复杂系统的异常#
每次发生重大产品故障,人们的第一反应总是惊人地一致:找出那个犯错的人,或者那个出了故障的零件。我们急切地寻找一个清晰的 “根本原因”,因为这能给我们一种虚幻的掌控感 —— 似乎只要修复这个点,一切就能重回正轨。
在某些情况下,这种简单的思考方式并无过错,简单意味着迅速。我认为迅速定位 “根本原因” 并且声称解决了它,在一个急切解决客诉、急切解救现场的工作人员的情况下是一种解决方案。我们常常会因 "解决问题" 而感到满足甚至沾沾自喜,其实我们得清楚地意识到,这种 "解决方案" 是解决了人的问题,而非整个系统的。
无论是能源网络、公司、设备、软件系统,这些东西在设计或实际意义上都是复杂的,没有人能简单搞懂它们当前到底如何工作,它们实际上充满各种各样的小毛病,只是足够多的冗余设计让他们能够正常工作。
当某一时刻,一些小毛病突然联手,使得一个预计的任务无法完成,于是事故爆发了。我们需要解决事故,并依据浅薄的认知打上一个不算难看的补丁,说服那个发现问题的人,声称解决了问题。我曾经陪同学和一位学校的行政主任打交道,虽然当时我和同学一起咒骂她屁事儿多,但是她有句话我认为非常有哲理 ——“燕过留痕,你做什么事情都是有后果的”,同样,我们急切地打上一个补丁会给整个系统带来更多难以察觉的小毛病。
工程管理中,人们往往执着于寻找浅显的 “根本原因”,而忽略真正的根本原因。因为实际做事的人是在给更上面的人 “一个交代”,而这个交代通常需要将责任归咎于一个特定的人或事,这样交代起来会更容易通过,但最终只会掩盖系统性的根本原因。
这个思想处于质量控制的第二阶段 “统计质量控制阶段” 早期,1是 “福特流水线” 工业时期的遗产,过分注重拆解和标准化,这带有强烈的因果关系。相比第一阶段 “质量检验阶段”,这当然是方法论的巨大提升。但在当前时代,产品、工程、社会、组织,这些系统的复杂度急剧上升,形成多变量、非线性、实时变化,变量之间相互影响的复杂系统,人力已经很难把握各个环节的因果关系了,但我们的思维模式依然停留在原始地天然地处理简单、线性关系的旧模式中,就带来了巨大的认知鸿沟。
着眼系统#
如果一家咖啡店的品质时好时坏,并且某一天出现了客诉,管理者的第一反应总是 “救火”。开一场紧急会议,迅速找到那个轮值的店员,控诉他没有调好咖啡机,然后罚款,补偿消费者。
这就足够了吗?客诉处理非常及时,但为什么同样的事情总会发生呢?在整个咖啡店系统上,依赖店员手艺来出品咖啡的本质没有改变。
在我们这个时代已经几乎没有这样的咖啡店了,想一想,只要是连锁品牌的咖啡店,是不是每家店的产品口味都几乎一致?当然我们知道这样的口味并不足够优秀,或许不如那个偶尔出错的店员。但这就是连锁咖啡店的定位,我只是出产这个品质的产品,也自然只服务于满足于这个品质的客户。
戴明2将所有的质量问题分为两种
第一种叫 “可控故障”。这就像是你的电脑突然蓝屏死机。这是一个不正常的、突然的干扰,原因很明确 —— 可能是操作失误、某个硬件坏了,或者驱动程序崩溃了。对于这种问题,你必须立刻采取行动,找到它,修复它,确保它不再发生。这就像是救火,要立即执行。
但更常见、也更麻烦的是第二种问题,戴明称之为 “偶发故障”。这更像是你的电脑整体运行速度时快时慢。它不是由一个单一的、明确的故障引起的,而是系统固有的一部分。可能是你的操作系统有点臃肿,后台开了太多程序,硬盘空间不足…… 无数个微小的、随机的因素共同作用,造成了这种整体的、难以名状的 “卡顿感”。这就是系统的 “背景噪音”,它永远存在。
显而易见,因为店员是人,所以咖啡店员导致的品质问题是 “偶发故障”,而连锁咖啡店的管理者聪明地将目标客户降级,建立稳定完善的咖啡豆供应体系,并将店员的操作复杂度降到最低,以此作为优化系统的手段。
戴明给出的路径是,首要将那些突然着火的 “可控故障” 全部扑灭。通过建立一套标准 (后续说明) 科学地判断哪些是真正的异常信号,当消除所有的 “可控故障” 后,系统进入 “稳定状态”,此时仍然有问题和波动,但这些都是正常的噪音。
此时,真正重要的改进才刚开始,此后的所有问题的根本原因都不再是某个人或某件事,而是整个系统本身。管理者需要更聪明和审慎地改善系统,并不断重复思考和改善的过程。
如何判断系统进入 “稳定状态”#
一些数学方法和指标,还没看懂。
PDCA 和 PDSA#
首先戴明环的概念,是反复进行几个阶段以实现系统的优化。
PDCA 是现在广泛认同的 “戴明环”。指 Plan-Do-Check-Act ,规划 - 执行 - 评估 - 改进。虽然戴明本人明确表示从未提出过可能是误传。
PDSA 是原教旨 “戴明环”。指 Plan-Do-Study-Act ,规划 - 执行 - 学习 - 改进。
重复进行 4 个阶段,实现系统的阶梯式提高。
现代所谓的方法论中有提及 “大环套小环” 的概念,也有某些阶段装模作样地拓展,例如将 C 拓展为 4C——Check(检查)、Communicate(沟通)、Clean (清理)、Control(控制),但我的观点是方法论不要过分细化,细化到最后等于没有方法论。
我认为过分强调环驱动,会抹杀系统的创新性,这在系统的某些阶段是致命的。同时这种方法在降低系统的上限,系统亮眼的突破性、创新性天然会带来更多的小毛病。因此我认为这种质量优化体系仅适用于 “稳定状态”,并且将自己当作工具人执行。
而戴明在 [戴明的新经济观(原书第 2 版) | yono 的文件](https://data.yono233.cn/ 书籍 / 戴明的新经济观(原书第 2 版)=THE NEW ECONOMICS FOR INDUSTRYK,GOVERNMENT,EDUCATION SECOND EDITION_13726844.pdf) 一书中亦有 “不要迷信方法,而是因地制宜” 类似这样的观点。这本书是戴明最后的著作,强烈建议下载拜读。此书也有绩效排名无用论、人人致力于优化系统、以尊重而非物质奖励员工,这些相当理想主义的观点,跟 PDCA/PDSA 一样领会大师的思想就好。
另外有著名的 戴明十四法则 可自行搜索学习,与我们小喽啰不太相关。
思考#
我最大的收获是,不要再将错误归咎于某个点,当问题发生时,实际上是系统的设计出了漏洞。所以不必焦虑不必自责,这些都是更上面的人的问题。
此文由 Mix Space 同步更新至 xLog
原始链接为 https://www.yono233.cn/posts/white/25_6_24_FailSysPDSA