[!NOTE]
本文尚未進行深入學習和思考,未來仍可能大量修改。
複雜系統的異常#
每次發生重大產品故障,人們的第一反應總是驚人地一致:找出那個犯錯的人,或者那個出了故障的零件。我們急切地尋找一個清晰的 “根本原因”,因為這能給我們一種虛幻的掌控感 —— 似乎只要修復這個點,一切就能重回正軌。
在某些情況下,這種簡單的思考方式並無過錯,簡單意味著迅速。我認為迅速定位 “根本原因” 並且聲稱解決了它,在一個急切解決客訴、急切解救現場的工作人員的情況下是一種解決方案。我們常常會因 "解決問題" 而感到滿足甚至沾沾自喜,其實我們得清楚地意識到,這種 "解決方案" 是解決了人的問題,而非整個系統的。
無論是能源網絡、公司、設備、軟件系統,這些東西在設計或實際意義上都是複雜的,沒有人能簡單搞懂它們當前到底如何工作,它們實際上充滿各種各樣的小毛病,只是足夠多的冗餘設計讓它們能夠正常工作。
當某一時刻,一些小毛病突然聯手,使得一個預計的任務無法完成,於是事故爆發了。我們需要解決事故,並依據淺薄的認知打上一個不算難看的補丁,說服那個發現問題的人,聲稱解決了問題。我曾經陪同學和一位學校的行政主任打交道,雖然當時我和同學一起咒骂她屁事兒多,但是她有句話我認為非常有哲理 ——“燕過留痕,你做什麼事情都是有後果的”,同樣,我們急切地打上一個補丁會給整個系統帶來更多難以察覺的小毛病。
工程管理中,人們往往執著於尋找淺顯的 “根本原因”,而忽略真正的根本原因。因為實際做事的人是在給更上面的人 “一個交代”,而這個交代通常需要將責任歸咎於一個特定的人或事,這樣交代起來會更容易通過,但最終只會掩蓋系統性的根本原因。
這個思想處於質量控制的第二階段 “統計質量控制階段” 早期,1是 “福特流水線” 工業時期的遺產,過分注重拆解和標準化,這帶有強烈的因果關係。相比第一階段 “質量檢驗階段”,這當然是方法論的巨大提升。但在當前時代,產品、工程、社會、組織,這些系統的複雜度急劇上升,形成多變量、非線性、實時變化,變量之間相互影響的複雜系統,人力已經很難把握各個環節的因果關係了,但我們的思維模式依然停留在原始地天然地處理簡單、線性關係的舊模式中,就帶來了巨大的認知鴻溝。
着眼系統#
如果一家咖啡店的品質時好時壞,並且某一天出現了客訴,管理者的第一反應總是 “救火”。開一場緊急會議,迅速找到那個輪值的店員,控訴他沒有調好咖啡機,然後罰款,補償消費者。
這就足夠了嗎?客訴處理非常及時,但為什麼同樣的事情總會發生呢?在整個咖啡店系統上,依賴店員手藝來出品咖啡的本質沒有改變。
在我們這個時代已經幾乎沒有這樣的咖啡店了,想一想,只要是連鎖品牌的咖啡店,是不是每家店的產品口味都幾乎一致?當然我們知道這樣的口味並不足夠優秀,或許不如那個偶爾出錯的店員。但這就是連鎖咖啡店的定位,我只是出產這個品質的產品,也自然只服務於滿足於這個品質的客戶。
戴明2將所有的質量問題分為兩種
第一種叫 “可控故障”。這就像是你的電腦突然藍屏死機。這是一個不正常的、突然的干擾,原因很明確 —— 可能是操作失誤、某個硬件壞了,或者驅動程序崩潰了。對於這種問題,你必須立刻採取行動,找到它,修復它,確保它不再發生。這就像是救火,要立即執行。
但更常見、也更麻煩的是第二種問題,戴明稱之為 “偶發故障”。這更像是你的電腦整體運行速度時快時慢。它不是由一個單一的、明確的故障引起的,而是系統固有的一部分。可能是你的操作系統有點臃腫,後台開了太多程序,硬盤空間不足…… 無數個微小的、隨機的因素共同作用,造成了這種整體的、難以名狀的 “卡頓感”。這就是系統的 “背景噪音”,它永遠存在。
顯而易見,因為店員是人,所以咖啡店員導致的品質問題是 “偶發故障”,而連鎖咖啡店的管理者聰明地將目標客戶降級,建立穩定完善的咖啡豆供應體系,並將店員的操作複雜度降到最低,以此作為優化系統的手段。
戴明給出的路徑是,首要將那些突然著火的 “可控故障” 全部撲滅。通過建立一套標準 (後續說明) 科學地判斷哪些是真正的異常信號,當消除所有的 “可控故障” 後,系統進入 “穩定狀態”,此時仍然有問題和波動,但這些都是正常的噪音。
此時,真正重要的改進才剛開始,此後的所有問題的根本原因都不再是某個人或某件事,而是整個系統本身。管理者需要更聰明和審慎地改善系統,並不斷重複思考和改善的過程。
如何判斷系統進入 “穩定狀態”#
一些數學方法和指標,還沒看懂。
PDCA 和 PDSA#
首先戴明環的概念,是反覆進行幾個階段以實現系統的優化。
PDCA 是現在廣泛認同的 “戴明環”。指 Plan-Do-Check-Act ,規劃 - 執行 - 評估 - 改進。雖然戴明本人明確表示從未提出過可能是誤傳。
PDSA 是原教旨 “戴明環”。指 Plan-Do-Study-Act ,規劃 - 執行 - 學習 - 改進。
重複進行 4 個階段,實現系統的階梯式提高。
現代所謂的方法論中有提及 “大環套小環” 的概念,也有某些階段裝模作樣地拓展,例如將 C 拓展為 4C——Check(檢查)、Communicate(溝通)、Clean (清理)、Control(控制),但我的觀點是方法論不要過分細化,細化到最後等於沒有方法論。
我認為過分強調環驅動,會抹殺系統的創新性,這在系統的某些階段是致命的。同時這種方法在降低系統的上限,系統亮眼的突破性、創新性天然會帶來更多的小毛病。因此我認為這種質量優化體系僅適用於 “穩定狀態”,並且將自己當作工具人執行。
而戴明在 [戴明的新經濟觀(原書第 2 版) | yono 的文件](https://data.yono233.cn/ 书籍 / 戴明的新经济观(原书第 2 版)=THE NEW ECONOMICS FOR INDUSTRYK,GOVERNMENT,EDUCATION SECOND EDITION_13726844.pdf) 一書中亦有 “不要迷信方法,而是因地制宜” 類似這樣的觀點。這本書是戴明最後的著作,強烈建議下載拜讀。此書也有績效排名無用論、人人致力於優化系統、以尊重而非物質獎勵員工,這些相當理想主義的觀點,跟 PDCA/PDSA 一樣領會大師的思想就好。
另外有著名的 戴明十四法則 可自行搜索學習,與我們小喽啰不太相關。
思考#
我最大的收穫是,不要再將錯誤歸咎於某個點,當問題發生時,實際上是系統的設計出了漏洞。所以不必焦慮不必自責,這些都是更上面人的問題。
此文由 Mix Space 同步更新至 xLog
原始鏈接為 https://www.yono233.cn/posts/white/25_6_24_FailSysPDSA