banner
yono

yono

哈喽~欢迎光临
follow
github

複雜系統的失效和 PDSA

[!NOTE]

本文尚未進行深入學習和思考,未來仍可能大量修改。

複雜系統的異常#

每次發生重大產品故障,人們的第一反應總是驚人地一致:找出那個犯錯的人,或者那個出了故障的零件。我們急切地尋找一個清晰的 “根本原因”,因為這能給我們一種虛幻的掌控感 —— 似乎只要修復這個點,一切就能重回正軌。

在某些情況下,這種簡單的思考方式並無過錯,簡單意味著迅速。我認為迅速定位 “根本原因” 並且聲稱解決了它,在一個急切解決客訴、急切解救現場的工作人員的情況下是一種解決方案。我們常常會因 "解決問題" 而感到滿足甚至沾沾自喜,其實我們得清楚地意識到,這種 "解決方案" 是解決了人的問題,而非整個系統的。

無論是能源網絡、公司、設備、軟件系統,這些東西在設計或實際意義上都是複雜的,沒有人能簡單搞懂它們當前到底如何工作,它們實際上充滿各種各樣的小毛病,只是足夠多的冗餘設計讓它們能夠正常工作。

當某一時刻,一些小毛病突然聯手,使得一個預計的任務無法完成,於是事故爆發了。我們需要解決事故,並依據淺薄的認知打上一個不算難看的補丁,說服那個發現問題的人,聲稱解決了問題。我曾經陪同學和一位學校的行政主任打交道,雖然當時我和同學一起咒骂她屁事兒多,但是她有句話我認為非常有哲理 ——“燕過留痕,你做什麼事情都是有後果的”,同樣,我們急切地打上一個補丁會給整個系統帶來更多難以察覺的小毛病。

工程管理中,人們往往執著於尋找淺顯的 “根本原因”,而忽略真正的根本原因。因為實際做事的人是在給更上面的人 “一個交代”,而這個交代通常需要將責任歸咎於一個特定的人或事,這樣交代起來會更容易通過,但最終只會掩蓋系統性的根本原因。

這個思想處於質量控制的第二階段 “統計質量控制階段” 早期,1是 “福特流水線” 工業時期的遺產,過分注重拆解和標準化,這帶有強烈的因果關係。相比第一階段 “質量檢驗階段”,這當然是方法論的巨大提升。但在當前時代,產品、工程、社會、組織,這些系統的複雜度急劇上升,形成多變量、非線性、實時變化,變量之間相互影響的複雜系統,人力已經很難把握各個環節的因果關係了,但我們的思維模式依然停留在原始地天然地處理簡單、線性關係的舊模式中,就帶來了巨大的認知鴻溝。

着眼系統#

如果一家咖啡店的品質時好時壞,並且某一天出現了客訴,管理者的第一反應總是 “救火”。開一場緊急會議,迅速找到那個輪值的店員,控訴他沒有調好咖啡機,然後罰款,補償消費者。

這就足夠了嗎?客訴處理非常及時,但為什麼同樣的事情總會發生呢?在整個咖啡店系統上,依賴店員手藝來出品咖啡的本質沒有改變。

在我們這個時代已經幾乎沒有這樣的咖啡店了,想一想,只要是連鎖品牌的咖啡店,是不是每家店的產品口味都幾乎一致?當然我們知道這樣的口味並不足夠優秀,或許不如那個偶爾出錯的店員。但這就是連鎖咖啡店的定位,我只是出產這個品質的產品,也自然只服務於滿足於這個品質的客戶。

戴明2將所有的質量問題分為兩種

第一種叫 “可控故障”。這就像是你的電腦突然藍屏死機。這是一個不正常的、突然的干擾,原因很明確 —— 可能是操作失誤、某個硬件壞了,或者驅動程序崩潰了。對於這種問題,你必須立刻採取行動,找到它,修復它,確保它不再發生。這就像是救火,要立即執行。

但更常見、也更麻煩的是第二種問題,戴明稱之為 “偶發故障”。這更像是你的電腦整體運行速度時快時慢。它不是由一個單一的、明確的故障引起的,而是系統固有的一部分。可能是你的操作系統有點臃腫,後台開了太多程序,硬盤空間不足…… 無數個微小的、隨機的因素共同作用,造成了這種整體的、難以名狀的 “卡頓感”。這就是系統的 “背景噪音”,它永遠存在。

顯而易見,因為店員是人,所以咖啡店員導致的品質問題是 “偶發故障”,而連鎖咖啡店的管理者聰明地將目標客戶降級,建立穩定完善的咖啡豆供應體系,並將店員的操作複雜度降到最低,以此作為優化系統的手段。

戴明給出的路徑是,首要將那些突然著火的 “可控故障” 全部撲滅。通過建立一套標準 (後續說明) 科學地判斷哪些是真正的異常信號,當消除所有的 “可控故障” 後,系統進入 “穩定狀態”,此時仍然有問題和波動,但這些都是正常的噪音。

此時,真正重要的改進才剛開始,此後的所有問題的根本原因都不再是某個人或某件事,而是整個系統本身。管理者需要更聰明和審慎地改善系統,並不斷重複思考和改善的過程。

如何判斷系統進入 “穩定狀態”#

一些數學方法和指標,還沒看懂。

PDCA 和 PDSA#

首先戴明環的概念,是反覆進行幾個階段以實現系統的優化。

PDCA 是現在廣泛認同的 “戴明環”。指 Plan-Do-Check-Act ,規劃 - 執行 - 評估 - 改進。雖然戴明本人明確表示從未提出過可能是誤傳。

PDSA 是原教旨 “戴明環”。指 Plan-Do-Study-Act ,規劃 - 執行 - 學習 - 改進。

重複進行 4 個階段,實現系統的階梯式提高

現代所謂的方法論中有提及 “大環套小環” 的概念,也有某些階段裝模作樣地拓展,例如將 C 拓展為 4C——Check(檢查)、Communicate(溝通)、Clean (清理)、Control(控制),但我的觀點是方法論不要過分細化,細化到最後等於沒有方法論。

我認為過分強調環驅動,會抹殺系統的創新性,這在系統的某些階段是致命的。同時這種方法在降低系統的上限,系統亮眼的突破性、創新性天然會帶來更多的小毛病。因此我認為這種質量優化體系僅適用於 “穩定狀態”,並且將自己當作工具人執行。

而戴明在 [戴明的新經濟觀(原書第 2 版) | yono 的文件](https://data.yono233.cn/ 书籍 / 戴明的新经济观(原书第 2 版)=THE NEW ECONOMICS FOR INDUSTRYK,GOVERNMENT,EDUCATION SECOND EDITION_13726844.pdf) 一書中亦有 “不要迷信方法,而是因地制宜” 類似這樣的觀點。這本書是戴明最後的著作,強烈建議下載拜讀。此書也有績效排名無用論、人人致力於優化系統、以尊重而非物質獎勵員工,這些相當理想主義的觀點,跟 PDCA/PDSA 一樣領會大師的思想就好。

image-20250624173735952

另外有著名的 戴明十四法則 可自行搜索學習,與我們小喽啰不太相關。

思考#

我最大的收穫是,不要再將錯誤歸咎於某個點,當問題發生時,實際上是系統的設計出了漏洞。所以不必焦慮不必自責,這些都是更上面人的問題。

此文由 Mix Space 同步更新至 xLog
原始鏈接為 https://www.yono233.cn/posts/white/25_6_24_FailSysPDSA


Footnotes#

  1. 1. 質量檢驗階段:18 世紀前產品通常來自於作坊,作坊的質量保障來自於手工操作者的手藝和經驗,由熟手進行最後把關。這種慣性持續到 20 世紀初期,實際上只是從成品中挑出殘次品的 “事後把關” 2. 統計質量控制階段:主要採用統計學手段以及休哈特提出的工序控制圖,及時發現某道工序的缺陷並加以改進 3. 全面質量管理階段:1956 年的 TQC 論文提出,生產製造過程中出現的質量問題僅占 20%,並提出充分考慮市場研究、設計、生產、服務的全面質量管理思想

  2. 美國質量管理大師,奠定了日本企業界良好的質量管理基礎。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。