1、數(shù)據(jù)的來源
有種觀點(diǎn)認(rèn)為大數(shù)據(jù)的來源是業(yè)務(wù)系統(tǒng),大數(shù)據(jù)平臺只是順便把這些數(shù)據(jù)收集起來。這樣做不為數(shù)據(jù)的收集產(chǎn)生額外成本、也不影響原有業(yè)務(wù)系統(tǒng)的運(yùn)行。但是,各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),往往不是為了分析目的而建立的,關(guān)聯(lián)關(guān)系是丟失的。這樣,數(shù)據(jù)中很多的價值就失去了。本人的觀點(diǎn)是,如果這種觀點(diǎn)成立,建立業(yè)務(wù)系統(tǒng)的時候就要想到進(jìn)行數(shù)據(jù)分析。否則,數(shù)據(jù)的價值就會大打折扣。未來,如果要讓數(shù)據(jù)發(fā)揮大的作用,可能要花很大的時間對某些數(shù)據(jù)進(jìn)行人工處理、講專家頭腦中的知識與數(shù)據(jù)結(jié)合起來,然后入庫:如果等到分析數(shù)據(jù)的時候再做,很多信息早已丟失了。當(dāng)然,這個過程本身的規(guī)范化要做好。否則甚至?xí)押脭?shù)據(jù)變成垃圾。
2、有無明確的業(yè)務(wù)功能
工業(yè)大數(shù)據(jù)平臺有沒有明確的功能? 多數(shù)觀點(diǎn)認(rèn)為:大數(shù)據(jù)的功能是事后分析挖掘。而針對事后分析,有兩種態(tài)度:有什么數(shù)據(jù)用什么數(shù)據(jù)、為了便于分析收集數(shù)據(jù)。我們認(rèn)為,從未來的角度看,后者應(yīng)該是發(fā)展方向。這時,數(shù)據(jù)的質(zhì)量、完整性就變得很非常重要。
在我看來,隨著ICT技術(shù)的提升,大數(shù)據(jù)平臺很可能會成為新一代的智能監(jiān)控系統(tǒng)(GE對飛機(jī)發(fā)動機(jī)的設(shè)想應(yīng)該就是)。與傳統(tǒng)監(jiān)控系統(tǒng)不同的是:平臺能記憶大量的過往案例和處置方法。未來的這種監(jiān)控,很可能是為無人化、少人化、移動監(jiān)控服務(wù)的。如果是這樣,就會對大數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量、傳輸?shù)目煽啃院蛯?shí)施性產(chǎn)生極高的要求。換而言之,智能制造與工業(yè)大數(shù)據(jù)的相互促進(jìn),會大大拓展這個領(lǐng)域的發(fā)展前景。
3、大數(shù)據(jù)能獲得什么知識
人們很早就意識到:數(shù)據(jù)質(zhì)量是決定于應(yīng)用的目的。所以,在建立大數(shù)據(jù)平臺之前,最好能夠明確希望得到什么樣的知識,而不是泛泛地強(qiáng)調(diào)分析知識。我想,這些知識的一端是企業(yè)關(guān)心的結(jié)果,如質(zhì)量、效率、能耗、缺陷率、作業(yè)率、設(shè)備狀態(tài)、完成時間,另外一端是與這些要素相關(guān)的原因。我們要得到的知識大概分成兩類:最初級的分析是原因與結(jié)果的關(guān)系,比如A變量與B變量的關(guān)系。但現(xiàn)實(shí)中,這種關(guān)系往往是很不穩(wěn)定的。其他要素變化的時候,這種關(guān)系也會發(fā)生變化。所以,進(jìn)一步的知識是要知道:哪些要素固定下來以后,變量之間的關(guān)系是穩(wěn)定的。這些知識可以用于提高生產(chǎn)組織的水平、考核相關(guān)人員、發(fā)現(xiàn)各種跑冒滴漏、明確優(yōu)化的側(cè)重點(diǎn)等。當(dāng)然,理想的情況是分析多變量對多變量的關(guān)系。但遺憾的是,這樣的分析結(jié)果往往是可遇不可求的。
4、知識發(fā)現(xiàn)的人機(jī)關(guān)系問題
發(fā)現(xiàn)知識的過程是認(rèn)識漸進(jìn)的過程、是對知識可靠性把握不斷深入的過程。這個過程往往是人機(jī)交互實(shí)現(xiàn)的。首先,人要對可能的相關(guān)關(guān)系提出自己的想法;其次,可以通過計算機(jī)對人的想法進(jìn)行篩選;接著,篩選過程中可能會出現(xiàn)大量難以解釋、或無法確認(rèn)的東西,又需要人進(jìn)行深入的對比分析:必要時甚至需要試驗和文獻(xiàn)分析補(bǔ)充數(shù)據(jù)、乃至提出新的假設(shè)。我曾經(jīng)想通過找到自動化的算法,把機(jī)理不清楚的問題搞清楚。這現(xiàn)實(shí)中是難以實(shí)現(xiàn)的�,F(xiàn)實(shí)中最好的辦法,往往只是“可靠性”的收斂速度比較快、人的工作量相對較小。我一直認(rèn)為:人類分析復(fù)雜問題的能力,是計算機(jī)遠(yuǎn)遠(yuǎn)不及的。大數(shù)據(jù)時代我們有更多的素材,但要做得更好,需要更聰明的人來完成。當(dāng)然,任何事情都有反例、特別是全體人類都非常關(guān)注的問題——這時,人類會不計代價,為機(jī)器智能做好各種準(zhǔn)備工作。但對一般的企業(yè),用機(jī)器代替人的分析,很可能是不合算的。
5、對概念的認(rèn)識
研究工業(yè)大數(shù)據(jù),不必糾結(jié)于數(shù)據(jù)的多少。我們關(guān)心的是:如何讓數(shù)據(jù)創(chuàng)造商業(yè)價值。我一直認(rèn)為,現(xiàn)在的統(tǒng)計理論,主要是針對小數(shù)據(jù)集合的,比如幾十個樣本以內(nèi);幾十年前的數(shù)據(jù)挖掘方法,基本上停留在科學(xué)尺度,勉強(qiáng)進(jìn)入技術(shù)尺度,很少成功進(jìn)入商業(yè)尺度;現(xiàn)在的深度學(xué)習(xí)理論,則很難廣泛地進(jìn)入工業(yè)領(lǐng)域。