張炳泉——基于深度學習的視頻識別，開啟智能安防新階段

-- 發布時間 2017/12/26 17:13:31 瀏覽（）

【導讀】中國科學院成都計算機應用研究所總工張炳泉出席本次活動，并做了關于“基于深度學習的視頻識別，開啟智能安防的新階段”的主題演講。

　　一年一度的建筑智能化行業大型盛會——2017年第十八屆中國國際建筑智能化峰會成都站，于11月17日下午在成都環球中心天堂洲際大酒店成功舉辦。本次活動由千家智客主辦，主題為：人工智能開創智能建筑新時代。活動得到了四川省智能建筑專業委員會的大力支持，以及成都地區400多名智能化專業人士的積極參與，共同探討人工智能技術在智能建筑領域的創新應用。

　　中國科學院成都計算機應用研究所總工張炳泉出席本次活動，并做了關于“基于深度學習的視頻識別，開啟智能安防的新階段”的主題演講。張炳泉表示，我們的天網經歷了從無到有、從看得清到讀得懂的階段，現在對天網的發展已經提出了智能化的要求。人工智能時代，隨著核心技術和基礎環境的不斷積累、成熟，已經到達了一個爆發的階段。視頻監控將是人工智能深度學習應用的重要領域，將給行業帶來全新的變革。

中國科學院成都計算機應用研究所總工張炳泉

　　以下是張炳泉總工的現場演講實錄：

　　(現場實錄，錯誤之處在所難免，千家網做了不改變原意的優化修改。特此說明)

　　尊敬的各位嘉賓，每年一度，再一次有機會在我們的中國國際建筑智能化論壇上表達個人對智能化安防的一個認識。記得在去年的論壇上，我跟大家推薦的是面向智能安防階段的新的系統架構，并且也預言了智能的前端如果有新的突破的話，將會更加快的促進我們安防的智能化。今天我這個題目叫做《基于深度學習的視頻識別，開啟智能安防新階段》。我們的論壇是說智能安防將進入一個新的時代，我這兒還給它保留了一下，沒說進入了新的時代，因為還有一個從啟動到成熟的過程。

　　我們的天網經歷了從無到有、從看得清到讀得懂的階段，現在對天網的發展已經提出了智能化的要求。人工智能時代，隨著核心技術和基礎環境的不斷積累、成熟，已經到達了一個爆發的階段。基礎的技術是指移動互聯網、物聯網和云計算的支持之下，基于大數據的人工智能的技術日漸成熟。當今世界，尤其是進入今年以后，人工智能是一個熱門的話題，人工智能表現在多方面的環境，小至我們的家居環境、智能建筑、汽車場景、移動場景，大至教育行業、醫療行業到司法行業。每個領域，每個行業，乃至每個企業都將有自己的人工智能平臺，專注解決各自不同領域里邊的人工智能問題，并且開發出相關的產品和服務。

　　舉幾個例子，谷歌搜索大家都非常地熟悉，有沒有感覺到，我們現在用谷歌越來越感覺到它能夠領會查詢者的意圖，或者說谷歌變得越來越聰明，越來越懂你。那么實際上在谷歌的搜索引擎里面，隱藏了人工智能。我們在谷歌上的每一次搜索，你得到的是搜索的結果，實際上你的搜索主題和你認可的方向，都是在輔導谷歌隱藏的搜索引擎的人工智能進行一次深度學習。谷歌最近已經在宣傳，不久的將來，將會推出無人駕駛，無人駕駛汽車不單是車輛，而且是一套車載的導航系統、感知系統。它的問世將會取代人類的工作，解放人類的雙手，這實際上是一套人工智能系統的完善的應用。那么中間的例子很多，我跳過，在我們國內，人工智能也在一些關鍵部門得到快速地發展。可能有的同仁已經很熟悉的360的QVM引擎，在病毒庫里面是一個嶄新的角色。360的病毒搜索，或者說殺毒的效能很高，實際上360QVM被稱為第三代殺毒引擎，它的病毒檢測率已經超過了前兩代引擎的綜合，而且查殺的速度至少提高一倍。那么怎么來支持它這么一個高的性能，不在于它的搜索方法的靈活，實際上，它是一套智能的引擎。通過對病毒樣本的分析和分類形成樣本向量和向量機，基于向量機建立一個機器學習的決策機模型，從而預測了病毒的發展方向和未來會生成的模式。因此，運用人工智能技術的QVM引擎，正在重新定義殺毒軟件的歷史。

　　大家可以看到，從最近在我們國內把人工智能提到了一個非常高的、一個新的發展階段，實際上在國際上，人工智能的起步很早，起步于1956年的達特茅斯會議，這個時候AI已經誕生了，并且有過一段基于神經網絡感知機的發展歷程。但是到了70年代，它走向了一次低谷，因為那個時候的網絡能力不足以支持解決復雜問題的人工智能。此后，在1975年出現了第二波的基于優化神經網絡訓練的BP算法，理論上它再一次受到了重視，但是到1990年，由于計算能力的限制，它無法進行大規模的教育，數據訓練。這個時候又進入了第二個低谷，直到2006年，Hinton提出了深度學習的神經網絡。深度學習的神經網絡的出現，基于前面說的大數據、云計算這些物理環境的支持和數據的支持，在視覺識別和語音上取得了超越人類的成功。從2005年開始，人工智能的形式出現了巨大的變革，源于深度學習技術的出現，那么深度學習已經在人臉識別、自動駕駛等領域嶄露頭角，它的原理是基于神經元的訓練和反饋性的收縮的方法。

　　給深度學習下一個定義：作為機器學習的一個重要分支，是模仿人的大腦對信息的一種分析和處理方式，并且通過建立由線性或者是非線性變換的處理單元組成的，核心是具有層次結構的多層神經網絡結構。那么深度學習它所需要的算法，能夠通過底層特征的不斷組合抽象能形成具有語義的更加高級的特征，來更好的表達數據。這樣的定義聽起來有一點抽象，也有一點深奧，我們用圖形來具體的看一下。

　　在讓機器深度學習以前，我們要知道一下人是怎么來思維的，人腦在我們的左邊的圖上，顯示了是分層處理的，從感知、初步認識，到判斷，到歸納出一個事物或者是一個人物他的特征性的這么一個過程。那么在神經網絡架構下的深度學習，右邊的架構是模擬了人腦的這種層次架構，所以說從底下的圖片，我們用一個形象的表示，它把一個原始的、模糊的車輛的圖片，焦距不清或者是像素分辨率不夠的這么一個圖片，但是擁有著車的輪廓的特征。然后分析出他的車牌所在，分析車的顏色，車輛的特征等，從初級特征到中級特征，一直逐漸地細化到高度概括這是某車型的一個抽象的型號。深度學習在語音識別、文字識別和圖象識別方面，就像人的大腦在這方面的與生俱來的分析能力一樣，具有特別高的概括能力。

　　我們看一組數字，在2010年，對語音識別的錯誤率相對降低了30%，2011年，對漢字識別的錯誤率可以降低30%，到2012年，圖象識別的絕對錯誤率可以降低10%，逐年下降，一直到2016年，阿爾法狗戰勝了人類圍棋的冠軍李世石，這是一個劃時代的變化。

　　深度學習所表現出來的優勢，不像傳統的模擬的方法，有一個極限，傳統方法就像紅色的這個曲線，它是漸進的，會逼近真實，但是有一個極限。而深度學習基于深層次的分析和思索，以及高度概括的能力，它會自我的提高其對事物的認識的深度和速度，因此深度學習是突破性的。到2016年，在圖象領域，它的層次結構已經可以從128萬訓練圖像，1000類的物體識別，絕對分類錯誤率從25.8%降到了2.99%，也就是說誤差率不到3%。而神經網絡的深度提高到了200層以上，我們今天無法對深度學習以及神經網絡去做一個非常全面地講述，但是從這幾個數據我們可以領會基于神經網絡的深度學習的要點。

　　在這里我們比較一下傳統機器學習和深度學習的差異。基于算法模型處理，提取特征，找到相似度的傳統的機器學習方式，相似度高于70%，我們可以認為是同一個人。但是深度學習的神經元，現在我們的相似度已經可以以97%來度量。基于深度學習的神經元、神經網絡還有一個特征，它是一個反饋閉環，而且不斷地自我調整的一個過程。所以基于傳統機器學習，是用樣本和特征來學習，而基于深度學習的神經元，是通過反饋它的差異，來調整學習模型的深度，直到正確，來輸出可以用于下一輪學習的模型。

　　那么為什么深度學習直到2006年，乃至最近幾年得到了高度的重視，并得到了突破，它基于圖形處理器，因為硬件環境的支持，是它的神經元的訓練和學習得以工程應用的一個基礎。基于圖形處理的一個處理器叫做GPU，GPU對于圖形的處理，原先是在電子游戲里面已經得到了應用，它可以使得計算速度提高10倍，而且可以在有限的時間里面訓練大規模的網絡成為可能。所以基于高性能、高開發、高準確率特點的GPU，比X86的解決方案，有了成倍的效率提升。我們今天也無法對GPU的性能特點、結構等等去做展開，我們只是點一個題。GPU的發展，它除了對圖形處理效率的提高之外，還有比通用的X86結構的芯片，在性能功耗比上的極大的優勢。在相同的能力下，GPU和X86的功耗比是1：20，而相同的U度情況下，GPU和X86的性能比是相差20倍。這就支持了當今基于GPU來進行深度學習的場景化成為了現實。

　　在視頻識別領域里面，海康威視已經成為規模化發展最快的一家公司，他們所走的路程，大家看到他們規模的巨大、產品的創新，還有很有眼光的前瞻性的做法，就是在深度學習的研發上，做了大量的投入。首先基于億級的高質量的數據，由于有很多的案例，成為其大規模數據訓練的基礎。并且基于高性能的硬件平臺，來提高數十倍訓練效率，并且由此從2013年開始，在深度學習的團隊方面，以及算法的突破方面，取得了創新。所以從2013年開始，在多項基于人工學習的國際競賽中，海康威視代表我們國家的視頻產品取得了多項的第一。

　　我們在這兒用幾張圖來看一看一個視頻理解的過程，我們看到左邊，傳統對目標的一個理解，首先是從一個圖像中間找出我們關注的目標，所以叫做目標檢測。然后我們對特定的目標進行跟蹤、歸類，以及目標中間對于關注對象的檢索，以及行為分析，這是傳統的視頻理解過程。基于深度學習的時候，我們對目標的跟蹤是一個動態的跟蹤，它是在邊檢測、邊跟蹤的過程中間找到了它的軌跡，并且自然的形成它的分類。比如按性別、短發還是長發、有沒有背包、拎東西、戴帽子、穿的長袖還是短袖、長褲或短褲或裙子，以及有沒有戴口罩、有沒有騎車等等。這些特征，以往的攝像頭，如果不給它定義，它會關注嗎，但是是不是很像我們人在第一眼看到的時候，是一個老朋友。你歸納這個老朋友的特征是從他的種種特征，性別、年齡以及外貌的特征等等，首先從你的庫里面很快的得到了最接近形象的搜索，這里邊人腦的思索自然有一個歸類的過程。那么在人臉的檢索流程中間，也就反映了多層的神經網絡、快速的檢索以及從最本質的特征中間找出一個你所要定位的對象，這么一個思索的過程。同樣，對車輛也是這樣，所以我們在傳統的視頻圖像中間，對于人員、對于群體、對于車輛和交通狀況，可以進行快速地基于深度學習的檢索和快速的特征的提取，從而實現目標的快速定位。從此我們也就看到了，基于深度學習的視頻產品，如果一旦應用，它會促進智慧城市、智慧安防、智慧醫療等等，以及智慧交通快速地發展。我們可以形成一個車輛，以及這個車輛中間的駕乘人員他在城市中間的軌跡的特征提取。我們可以根據車輛的密度、流向等等，來規劃一個城市的智慧交通。也可以根據一個固定的建筑中間，人員的密度，他的性別特征來為商業行為提供精確的分析和可供決策的商業數據。

　　我們在這個中間，看到了深度學習所依據的三要素，基于網絡架構以及帶寬高速的發展，以及數據規模的增長和計算能力的更充分的支持，所以基于深度學習的某系列的智能前端產品已經誕生。

　　基于智慧或者說智能安防，它的一個核心問題是人臉識別。李宗南老師在我們當初學習視頻技術的安防評估的時候說過一句話，視頻技術有很多優越性，直觀、形象、可記錄、可追溯。但是視頻技術有一個本質的局限，它是被動識別，一個攝像頭再清晰、焦距拉得再長、廣角更遠、更廣，但是指到哪里看到哪里，不能成為一個報警的手段。但是李老師預測，一旦當視覺智能的技術發展到一定的高度，我們的攝像頭能夠成為一個主動發現的報警裝置的時候，我們的安防技術將會得到本質上的突破。以前，我們可以看到一幅圖像，但是不知道圖像中間有一個逃犯。我們可以看到道路上的車輛，但是不知道其中有一輛是肇事車。現在有了基于GPU的攝像機，機器終于能夠認識人，能夠認識特定的車輛，那么這正是我們的公安工作，大多數是圍繞著人或者是車的身份識別這一個特征來開展的。

　　視頻技術的幾個關鍵問題，嵌入式GPU設備在滿足通用性的前提之下，其功耗、穩定性和性能上的優勢，是優于X86的階段。未來還可能會有新的企業，但是一定不是基于數字計算的CPU，而是基于圖形處理、基于神經網絡自學習結構的一種新的模式。

　　大數據已經談了幾年，大家都知道大數據特征表現在四個方面：數據規模巨大、數據類型多樣化、數據時效性高以及總體價值高。但是請各位重新關注一下，海量的數據中間所隱藏的非常有價值的特征信息，即大數據的總體價值。總體價值的發掘，需要基于深度學習的人工智能來發掘這么一種總體的價值。所以市場的趨勢，是把中心智能向分布智能+中心智能發展。智能分析已經到了突破的階段，分布智能和中心智能的支持，基于神經網絡的人工學習的彈性配置，中心智能的易維護，直到最終在大數據上發掘和歸納的特點，將會促使我們的智能安防進入一個新的時代。

　　資訊整理：中國建材家居網十大安防品牌專題《http://anfang.jiancai163.cn/》

免責聲明：此文內容為本網站轉載企業宣傳資訊，僅代表作者個人觀點，與本網無關。文中內容僅供讀者參考，并請自行核實相關內容。如用戶將之作為消費行為參考，本網敬告用戶需審慎決定。本網不承擔任何經濟和法律責任。

安博电竞官网|足球世界杯竞猜平台

張炳泉——基于深度學習的視頻識別，開啟智能安防新階段