国产精品色情一区二区三区_欧美一区综合_日韩中文字幕一区二区_日韩一区二区三区毛片_一级毛片视频免费_久久精品国产午夜伦班片

如何解決簡(jiǎn)單算法好用卻不容易用好的矛盾

2020/12/28 23:00:48 人評(píng)論 次瀏覽 分類:技術(shù)方案  文章地址:http://www.gsipv.com/tech/3525.html

我最近經(jīng)常做評(píng)委,常會(huì)問(wèn)選手一些算法問(wèn)題。我發(fā)現(xiàn):用的好的幾乎都是簡(jiǎn)單算法。但有的團(tuán)隊(duì)喜歡用新鮮或者古怪的辭藻進(jìn)行包裝。不過(guò),遇到不熟悉算法的評(píng)委,似乎還真的有效。如果符合“磚家”的口味,他還會(huì)拿出去到處宣傳。

好的算法往往很簡(jiǎn)單。但問(wèn)題的另一面則是:簡(jiǎn)單算法往往不容易用好。如何來(lái)理解這對(duì)矛盾呢?


在我看來(lái):簡(jiǎn)單辦法好用,往往是因?yàn)楹?jiǎn)單方法可靠度高、容易理解、容易與領(lǐng)域知識(shí)結(jié)合。而簡(jiǎn)單方法不容易用好,則是因?yàn)椋汉?jiǎn)單方法的應(yīng)用是有條件的,而條件往往并不滿足。


線性回歸是最簡(jiǎn)單的建模方法。但是,應(yīng)用這個(gè)方法也是有條件的。例如:1、自變量的檢測(cè)誤差可以忽略不計(jì);2、對(duì)結(jié)果的干擾服從正態(tài)分布、沒(méi)有顯著的系統(tǒng)性干擾。但是,現(xiàn)實(shí)中,這樣的條件往往并不滿足?。?


類似地,在分析一個(gè)變量有沒(méi)有顯著影響的時(shí)候,經(jīng)常會(huì)用到F檢驗(yàn)。但我卻發(fā)現(xiàn),在大數(shù)據(jù)時(shí)代,對(duì)任何變量的F檢驗(yàn)幾乎總是有效。換句話說(shuō),這種做法其實(shí)是失效的。原因也是一樣的:算法的條件不滿足。


再如,先進(jìn)工業(yè)企業(yè)普遍使用的SPC方法。這個(gè)方法中,有許多判斷異常的判據(jù)。部分判據(jù)的依據(jù),是發(fā)生這種事件的概率小于0.27%。這意味著,每生產(chǎn)1萬(wàn)件產(chǎn)品,平均就會(huì)有27件判斷異常。但是,如果生產(chǎn)過(guò)程真的很穩(wěn)定、極少發(fā)生異常,這種方法顯然也是會(huì)失效的。


幾年前,清華數(shù)學(xué)系的謝老師請(qǐng)我和賓州大學(xué)林教授一起吃飯。林教授談到他的困惑:在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)知識(shí)難道就沒(méi)有用了嗎?我回答說(shuō):大數(shù)據(jù)能讓統(tǒng)計(jì)算法用得更好。


我的意思是說(shuō):在大數(shù)據(jù)時(shí)代,人們可以有足夠多、足夠好的數(shù)據(jù),驗(yàn)證(采用簡(jiǎn)單算法的)條件是不是成立。如果不成立的話,還可以通過(guò)選擇和改造數(shù)據(jù),讓它們符合要求。而不是盲目地利用這些數(shù)據(jù)建模。


我國(guó)有一種現(xiàn)象:濫用統(tǒng)計(jì)學(xué)方法。我在寶鋼時(shí),曾有過(guò)一次沖動(dòng):把看到的論文記下來(lái),作為反面案例——看看這些作者是如何濫用統(tǒng)計(jì)方法的。在現(xiàn)實(shí)中,工業(yè)數(shù)據(jù)不符合統(tǒng)計(jì)學(xué)要求是種常態(tài),符合要求才是偶然的。盲目采用數(shù)據(jù)分析方法時(shí),濫用就成了一種常態(tài)。


數(shù)據(jù)分析理論中有個(gè)著名的CRISP_DM模型。這個(gè)模型中有一個(gè)步驟叫做數(shù)據(jù)理解。濫用數(shù)據(jù)分析方法的根源,往往就是數(shù)據(jù)理解做得不夠、沒(méi)有進(jìn)行適當(dāng)?shù)奶幚怼6鴶?shù)據(jù)理解得不夠,往往又是因?yàn)閷?duì)業(yè)務(wù)的理解不到位。我認(rèn)為:人們有較好的業(yè)務(wù)知識(shí),才能把數(shù)據(jù)理解到位。


我講數(shù)字化轉(zhuǎn)型課時(shí),經(jīng)常提到一個(gè)例子:斯特寧先生被國(guó)際慈善組織派到越南,解決當(dāng)?shù)貎和癄I(yíng)養(yǎng)不良問(wèn)題。他通過(guò)調(diào)查,發(fā)現(xiàn)了三條有效的做法:營(yíng)養(yǎng)好的孩子一天吃四頓飯;2. 媽媽們會(huì)抓小魚小蝦給孩子吃;3媽媽會(huì)把地瓜葉的汁淋在飯上。我們注意到:斯特寧發(fā)現(xiàn)這三條做法,不僅是靠數(shù)據(jù)分析能力,還靠專業(yè)知識(shí):孩子胃小、消化快,多吃一次有利于吸收;魚蝦中含有孩子成長(zhǎng)必須的蛋白質(zhì);葉子汁中含有孩子必須的維生素。所以,把專業(yè)知識(shí)和數(shù)據(jù)分析結(jié)合在一起,才能發(fā)現(xiàn)這些知識(shí)。


所以,用好簡(jiǎn)單算法,關(guān)鍵要把數(shù)據(jù)準(zhǔn)備工作做到位,并具備較好的專業(yè)知識(shí)。但是,要做到這一點(diǎn)是不容易的。
作者:郭朝暉(工學(xué)博士,教授級(jí)高工。企業(yè)研發(fā)一線工作20年)
郭朝暉

共有訪客發(fā)表了評(píng)論 網(wǎng)友評(píng)論

  客戶姓名:
郵箱或QQ:
驗(yàn)證碼: 看不清楚?