今天早上讀到一篇關于因果推斷的文章。讓我想起北京大學的耿直老師。耿老師是我非常敬重的學者。十多年前,我從耿老師那里學到了這個概念,我覺得特別有意思。但我總是覺得有點不解:從數據上能推斷出因果關系嗎?
若干年后我終于想明白了:數學中的因果關系和客觀世界的因果關系其實并不一樣。數學領域的因果關系一定是有前提假設的。我估計,這些假設應該包括:“原因”是可見的、并且與其他變量有一定的獨立性。在這些條件邊界內,我們可以推斷變量之間是否有因果關系。但是,如果數據不滿足這些條件,數學上的因果關系就不是客觀世界的因果關系。比如,推定某個變量X1是“原因”時,客觀世界的真正原因可能是某個未被采集的、并且與之相關的X2。
“因果推斷”是有價值的,價值在于幫助人們做分析。但做分析的前提必須人類去準備、去判斷。但數據的準備和判斷并不容易。我曾經多次說:經典統計學理論之所以被有些人認定為“無效”,其實是因為數據準備不到位。而大數據時代的變化之一,就是便于我們選擇數據、準備條件。
另外,今天早上還讀到一頁紙,對控制理論的方法進行了綜述。應該說,這一頁紙的總結相當全面。但我內心卻想:即便這些方法都掌握了,遇到現實問題可能仍然不會做。為什么呢?因為很多人不知道如何根據現實條件選擇方法。
一般來說,現實的條件總是與理論上說的不一樣。看清楚現實條件的影響、做出恰當的假設,是比用算法更大的能耐、需要更大的視野。
我們在小學、中學、大學乃至研究生階段受到的教育、學到的知識,總是在一定的假設下成立的、是有邊界條件的。這樣會養成一種“封閉”的思維方式。但實際工作和讀書是不一樣的。做實際工作的時候,必須有更大的視野:你需要去思考一下,你的假設到底是不是成立。要學會根據實際情況選擇方法,而不是奢求實際服從你認可的理論。
作者:郭朝暉(工學博士,教授級高工。企業研發一線工作20年;優也科技信息公司首席科學家;東北大學、上海交大等多所院校兼職教授。國內知名智庫、走向智能研究院的發起人之一。原寶鋼研究院首席研究員)