人工智(zhi)(zhi)能(artificial intelligence)[1],按照維基百科(ke)定義,指由人工制造出(chu)來的(de)系(xi)統(tong)所表現(xian)出(chu)來的(de)智(zhi)(zhi)能。這里的(de)人工制造的(de)系(xi)統(tong),具(ju)體(ti)到安(an)防(fang)領(ling)域,指的(de)就是智(zhi)(zhi)能算法。其實現(xian)在安(an)防(fang)領(ling)域中的(de)大多數設(she)備,比如支持移動偵測(ce)的(de)IPC、智(zhi)(zhi)能分析服務器(qi)、視頻(pin)濃縮和視頻(pin)摘要服務器(qi)、非現(xian)場執法設(she)備、卡口型攝(she)像機,等等,都實現(xian)著人工智(zhi)(zhi)能算法。所以,人工智(zhi)(zhi)能應(ying)用于安(an)防(fang)領(ling)域,并不(bu)是一個新鮮話題。
人工智能(neng)學科(ke)主要研究(jiu)算法的以下幾(ji)個方面(mian)的能(neng)力(li):演繹(deduction)和推理(reasoning)、知識表示(knowledgerepresentation)、規劃(hua)(planning)、學習(learning)、自然語言處理(naturallanguage processing)、運動和控(kong)制(motionand manipulation)、感(gan)知(perception)、社(she)交智能(neng)(social intelligence)、創造(zao)力(li)(creativity)、通用智能(neng)(generalintelligence)。
人工智(zhi)能學科主要的研(yan)究方(fang)法有:控(kong)制論和腦模擬(ni)(cybernetics and brainsimulation),符號法(symbolic):又含有認知(zhi)模擬(ni)(cognitive simulation)法、基于(yu)邏輯(logic-based)法、基于(yu)知(zhi)識(knowledgebased)法、子符號(sub-symbolic)法、統(tong)計(ji)學(statistical)法、集成方(fang)法(Integratingthe approaches)。
人工智(zhi)能學(xue)科主要的工具有:搜索和優化(search and optimization)、邏(luo)輯(logic)、不(bu)確定推理(li)的概率法(fa)(probabilisticmethods for uncertain reasoning)、分(fen)類和統(tong)計學(xue)習法(fa)(classifiers and statisticallearning methods)、神經網絡(luo)(Neuralnetworks)、深(shen)度前饋(kui)神經網絡(luo)(deepfeedforward neural networks)、深(shen)度遞歸神經網絡(luo)(deep recurrent neuralnetworks)、控制論(control theory)。
深度學習興起
2012年,多倫多大學(xue)Geoff Hinton的(de)(de)(de)兩個博士生Alex Krizhevsky 和IlyaSutskever 在(zai)(zai)NIPS 上發表論(lun)文《ImageNetClassification with Deep ConvolutionalNeural Networks》[2],采用(yong)(yong)深度(du)卷(juan)積網(wang)(wang)絡算法,在(zai)(zai)圖片分類競賽(sai)ImageNet 中(zhong)的(de)(de)(de)大規(gui)模視(shi)覺識別挑戰賽(sai)ILSVRC-2010和ILSVRC-2012上(如圖1和圖2所示),圖片分類結(jie)(jie)(jie)(jie)果(guo)均(jun)拿到了(le)第一名,并且相(xiang)比于傳統的(de)(de)(de)手工特(te)(te)(te)征的(de)(de)(de)最(zui)好(hao)的(de)(de)(de)算法(SIFT+Fisher Vectors)的(de)(de)(de)分類結(jie)(jie)(jie)(jie)果(guo)(top-1錯誤率(lv)和top 錯誤率(lv))減少近10% !(注圖1和圖2中(zhong)斜(xie)體為(wei)最(zui)好(hao)的(de)(de)(de)手工特(te)(te)(te)征算法結(jie)(jie)(jie)(jie)果(guo),粗體為(wei)CNN 結(jie)(jie)(jie)(jie)果(guo),帶星號的(de)(de)(de)為(wei)神經網(wang)(wang)絡結(jie)(jie)(jie)(jie)構(gou)經過“預訓練”了(le)的(de)(de)(de)分類結(jie)(jie)(jie)(jie)果(guo))要知道(dao),在(zai)(zai)過去競賽(sai)中(zhong),使用(yong)(yong)傳統手工特(te)(te)(te)征的(de)(de)(de)形形色色算法的(de)(de)(de)結(jie)(jie)(jie)(jie)果(guo)提(ti)升幅度(du)從沒有這么高。可想(xiang)而(er)知,這在(zai)(zai)計算機(ji)視(shi)覺(computer vision)領(ling)域(yu)引起(qi)地震。同時(shi)也(ye)拉開(kai)了(le)CNN 在(zai)(zai)計算機(ji)視(shi)覺領(ling)域(yu)以(yi)及其他領(ling)域(yu)大量運用(yong)(yong),以(yi)及CNN網(wang)(wang)絡結(jie)(jie)(jie)(jie)構(gou)快速(su)發展(zhan)的(de)(de)(de)大幕。
圖1 引文[2]中的ILSVRC-2010中的DCNN和傳統手工特征算法圖片分類結果對比
圖2 引文[2]中的ILSVRC-2012中的DCNN和最好的傳統手工特征算法圖片分類結果對比
卷積神(shen)經(jing)(jing)網(wang)絡并不是個新鮮算(suan)(suan)法,在20世紀曾經(jing)(jing)經(jing)(jing)歷(li)過一段時期的(de)(de)冷遇,根(gen)因是卷積神(shen)經(jing)(jing)網(wang)絡訓(xun)練(lian)過程收斂前需要反(fan)復迭代前向傳播和反(fan)向傳播,計算(suan)(suan)量超多,使用(yong)現在速(su)度最(zui)快的(de)(de)多核CPU 架構(gou),訓(xun)練(lian)時間(jian)也要幾十(shi)天。NVIDIA 的(de)(de)GPU 中的(de)(de)數以千計的(de)(de)計算(suan)(suan)單(dan)元陣列的(de)(de)快速(su)發展有(you)效的(de)(de)解決(jue)了這一問題(ti),大大縮短了訓(xun)練(lian)周期。如圖3所示為(wei)論文中使用(yong)的(de)(de)CNN 訓(xun)練(lian)結構(gou),該網(wang)絡人們(men)習慣上稱為(wei)AlexNet。
同時隨著網(wang)絡(luo)中的連接(jie)數(參數)的增多,需要的訓(xun)練數據也越多,比如(ru)ImageNetLSVRC-2010就含有(you)1000多個種類(lei)的120多萬張的圖片(pian)。
圖3引文[2]使用的由兩個GPU分擔的CNN結構圖
由此可(ke)見,GPU 的(de)高速(su)發展以及(ji)海量數(shu)據(ju)的(de)出現(xian),使得深(shen)度(du)(du)神(shen)經網(wang)絡(luo)訓練變(bian)得可(ke)行,加(jia)速(su)了(le)深(shen)度(du)(du)神(shen)經網(wang)絡(luo)在(zai)計算機視覺、語(yu)音、文本、自然語(yu)言(yan)處理等領域(yu)的(de)快速(su)普及(ji)。
深(shen)度(du)(du)學習(xi)是機器學習(xi)的(de)(de)一個(ge)分(fen)支(zhi)。機器學習(xi)的(de)(de)目的(de)(de)是根(gen)據(ju)(ju)在訓(xun)(xun)練數(shu)(shu)據(ju)(ju)集上每個(ge)樣本的(de)(de)目標(biao)(biao)值,學習(xi)得(de)到一個(ge)模型(xing)(xing)。訓(xun)(xun)練時,對分(fen)類(lei)器輸(shu)出(chu)(chu)和(he)目標(biao)(biao)值進行對比,根(gen)據(ju)(ju)使(shi)用的(de)(de)分(fen)類(lei)器和(he)代價函(han)數(shu)(shu)(或損(sun)失(shi)函(han)數(shu)(shu),lossfunction),使(shi)用優化算法,反復(fu)迭(die)代,不(bu)斷調整(zheng)參數(shu)(shu),直到算法收斂為(wei)止(zhi)。檢(jian)測(ce)時使(shi)用該模型(xing)(xing)用于(yu)新的(de)(de)樣本,模型(xing)(xing)的(de)(de)輸(shu)出(chu)(chu)就(jiu)(jiu)是我(wo)們需要的(de)(de)輸(shu)出(chu)(chu)。如圖4所示。相比于(yu)檢(jian)測(ce)過(guo)程(或測(ce)試(shi)過(guo)程),訓(xun)(xun)練過(guo)程需要反復(fu)迭(die)代,運算量極大。傳統(tong)手工設計特征(zheng)的(de)(de)表現能(neng)力遠遠不(bu)及神經網絡(luo)的(de)(de)抽象表達能(neng)力。這就(jiu)(jiu)是神經網絡(luo),尤其(qi)是深(shen)度(du)(du)神經網絡(luo)的(de)(de)優勢所在。
目標(biao)值為連續實(shi)數(shu)時,會學習得(de)到一(yi)(yi)個回(hui)(hui)歸器(qi)(regressor),目標(biao)值為離散值時該(gai)機器(qi)學習問(wen)題為分類。不過(guo)有時把回(hui)(hui)歸和(he)分類問(wen)題合在一(yi)(yi)起訓練。
圖4 神經網絡相比手工設計特征具有更強的特征表現力
雖然(ran)理論(lun)界無法對深度(du)神(shen)經網絡如此(ci)強大(da)(da)的(de)(de)(de)特征表達能力給出令人信服的(de)(de)(de)理論(lun)推導,但是它在(zai)實踐應用(yong)中的(de)(de)(de)卓(zhuo)越表現極大(da)(da)刺激了它在(zai)各個領域(yu)的(de)(de)(de)快速推廣。ImageNet 2016 屆(jie)大(da)(da)規(gui)模視覺識別挑戰賽(ILSVRC-2016)結果剛剛公布,在(zai)各個比賽中獲得(de)第一名(ming)的(de)(de)(de)團隊采用(yong)的(de)(de)(de)算法均(jun)是基(ji)于深度(du)神(shen)經網絡的(de)(de)(de)。
神經網絡結構
神經網絡一般含有輸入(ru)層(ceng)、隱含層(ceng)、輸出(chu)層(ceng)。
若(ruo)含有多個或(huo)者(zhe)很多個隱(yin)含層,則成為深度神(shen)經網(wang)絡(luo)或(huo)者(zhe)甚深神(shen)經網(wang)絡(luo),到底(di)多少(shao)個隱(yin)含層算深,其實在學(xue)術(shu)界并沒(mei)有嚴格的定義。
屬于卷(juan)積神經(jing)網(wang)(wang)(wang)絡(luo)(convolutional neural networks 或CNN)家族(zu)的(de)(de)各種結構神經(jing)網(wang)(wang)(wang)絡(luo)主(zhu)要用于處理網(wang)(wang)(wang)格(ge)結構數(shu)(shu)據(ju)(ju),比如(ru)時(shi)間(jian)序(xu)列數(shu)(shu)據(ju)(ju)(音頻(pin)(pin)(pin))可以(yi)(yi)(yi)看(kan)成(cheng)為(wei)按(an)照一(yi)定時(shi)間(jian)間(jian)隔(ge)采樣而成(cheng)的(de)(de)1D 網(wang)(wang)(wang)格(ge)數(shu)(shu)據(ju)(ju);圖像(xiang)可以(yi)(yi)(yi)看(kan)成(cheng)由(you)像(xiang)素(su)組成(cheng)的(de)(de)3D 網(wang)(wang)(wang)格(ge)數(shu)(shu)據(ju)(ju);視頻(pin)(pin)(pin)可以(yi)(yi)(yi)看(kan)成(cheng)是由(you)按(an)照時(shi)間(jian)采樣的(de)(de)2D 圖像(xiang)組成(cheng)的(de)(de)3D 網(wang)(wang)(wang)格(ge)數(shu)(shu)據(ju)(ju);視頻(pin)(pin)(pin)和光(guang)(guang)流可以(yi)(yi)(yi)是由(you)2D 圖像(xiang)加(jia)1D 光(guang)(guang)流按(an)照時(shi)間(jian)采樣的(de)(de)4D 網(wang)(wang)(wang)格(ge)數(shu)(shu)據(ju)(ju);等(deng)(deng)等(deng)(deng)。卷(juan)積神經(jing)網(wang)(wang)(wang)絡(luo)主(zhu)要的(de)(de)操(cao)作(zuo)就是卷(juan)積,如(ru)圖5 [3] 所示為(wei)2D 卷(juan)積原理示意圖。卷(juan)積操(cao)作(zuo)主(zhu)要實(shi)現了稀疏交互(hu)(sparse interactions)、參數(shu)(shu)共(gong)享(parameter sharing)、等(deng)(deng)變表示(equivariantrepresentations)三(san)種思想。卷(juan)積網(wang)(wang)(wang)絡(luo)的(de)(de)一(yi)個層典型的(de)(de)具有三(san)個階(jie)(jie)段,首先是執行卷(juan)積操(cao)作(zuo)產生一(yi)個線(xian)性(xing)激(ji)勵(activation);然后是每個線(xian)性(xing)激(ji)勵執行一(yi)個非(fei)線(xian)性(xing)激(ji)勵函數(shu)(shu),比如(ru)校正的(de)(de)線(xian)性(xing)激(ji)勵(rectified linearactivation),這一(yi)階(jie)(jie)段有時(shi)稱為(wei)檢測(detector)階(jie)(jie)段;第三(san)階(jie)(jie)段,使用池化(pooling,或匯聚)操(cao)作(zuo)進一(yi)步修改層的(de)(de)輸(shu)出,即減少(shao)特征映射平面(feature map plane)中(zhong)特征數(shu)(shu)目。
在(zai)安防領域(yu)大量應用的對(dui)(dui)象檢(jian)測、對(dui)(dui)象跟蹤、對(dui)(dui)象識(shi)別等應用都(dou)是基于(yu)卷(juan)積神經網絡實現。
圖5 2D卷積操作示意圖
遞(di)歸(gui)神經網絡(luo)(Recurrentneural networks/ RNN)家族中各(ge)種結構神經網絡(luo)主要用(yong)于(yu)處(chu)(chu)理(li)序(xu)(xu)列(lie)化(hua)數據,所以一般(ban)認為遞(di)歸(gui)神經網絡(luo)對(dui)歷史數據具有(you)記憶性,即網絡(luo)對(dui)當(dang)前(qian)輸(shu)入(ru)計算輸(shu)出(chu)時,既考慮當(dang)前(qian)的(de)輸(shu)入(ru),由考慮歷史輸(shu)入(ru)。如圖(tu)(tu)6所示,左邊為未展開的(de)遞(di)歸(gui)神經網絡(luo)原理(li)示意(yi)圖(tu)(tu),右(you)邊的(de)為展開(unfold)后的(de)遞(di)歸(gui)神經網絡(luo)原理(li)示意(yi)圖(tu)(tu)。輸(shu)入(ru)序(xu)(xu)列(lie)為x,輸(shu)出(chu)序(xu)(xu)列(lie)為o,y 為目標輸(shu)出(chu),L為損失(shi)函數,h為內(nei)部(bu)狀(zhuang)態,W 為網絡(luo)連接權值。通過圖(tu)(tu)6右(you)側看出(chu),網絡(luo)內(nei)部(bu)狀(zhuang)態h 隨(sui)著(zhu)時間發生變化(hua),不同于(yu)卷積神經網絡(luo),訓練完(wan)畢(bi)后,網絡(luo)狀(zhuang)態處(chu)(chu)于(yu)靜(jing)止狀(zhuang)態,不會隨(sui)著(zhu)輸(shu)入(ru)的(de)變化(hua)而變化(hua)。
圖6遞歸神經網絡結構示意圖
除(chu)了這兩(liang)種主要的(de)神經網(wang)絡(luo)結構外,其實還(huan)有(you)很多各種各樣的(de)網(wang)絡(luo)結構,如圖7[4] 所示。
圖7神經網絡匯總[4]
神經網絡發展現狀
目前人(ren)(ren)類(lei)(lei)在腦(nao)(nao)科(ke)學方面對人(ren)(ren)腦(nao)(nao)的(de)(de)真正(zheng)(zheng)的(de)(de)工作機(ji)(ji)(ji)理還(huan)(huan)沒(mei)有完全弄懂。深度(du)神經(jing)(jing)網絡,并不是(shi)(shi)(shi)嚴格意義上(shang)的(de)(de)類(lei)(lei)人(ren)(ren)腦(nao)(nao)計(ji)算(suan),只是(shi)(shi)(shi)根據腦(nao)(nao)神經(jing)(jing)科(ke)學初期的(de)(de)研究成果(guo),在一(yi)定(ding)程度(du)上(shang)受到人(ren)(ren)腦(nao)(nao)信息處理機(ji)(ji)(ji)制的(de)(de)啟發,模擬一(yi)些(xie)人(ren)(ren)腦(nao)(nao)細胞的(de)(de)工作構(gou)成網絡,其(qi)本(ben)質上(shang)還(huan)(huan)是(shi)(shi)(shi)一(yi)些(xie)類(lei)(lei)似于支撐向量機(ji)(ji)(ji)、隱式馬爾(er)科(ke)夫(fu)鏈之類(lei)(lei)的(de)(de)機(ji)(ji)(ji)器(qi)學習模型。比如Facebook FIR 的(de)(de)LeCunYann 就曾經(jing)(jing)說過,卷(juan)積(ji)(ji)神經(jing)(jing)網絡嚴格講(jiang)應為卷(juan)積(ji)(ji)網絡(convolutional networks),之所以(yi)去掉“神經(jing)(jing)”二(er)字就是(shi)(shi)(shi)為避免(mian)人(ren)(ren)們誤解。但由(you)于歷史原因(yin),以(yi)及一(yi)些(xie)學術論文的(de)(de)宣傳目的(de)(de),大都(dou)冠以(yi)“神經(jing)(jing)”二(er)字,但目前在人(ren)(ren)類(lei)(lei)還(huan)(huan)未完全弄懂人(ren)(ren)腦(nao)(nao)全部工作機(ji)(ji)(ji)理的(de)(de)前提下(xia),是(shi)(shi)(shi)不可能構(gou)造真正(zheng)(zheng)類(lei)(lei)似人(ren)(ren)腦(nao)(nao)一(yi)樣的(de)(de)神經(jing)(jing)網絡。
深度神(shen)經(jing)(jing)網(wang)絡相比傳統方法(fa)具(ju)有更強的(de)(de)特征表達能(neng)力,但它并不是(shi)萬能(neng)的(de)(de),也(ye)并不是(shi)適用于(yu)所有的(de)(de)問題。同時深度神(shen)經(jing)(jing)網(wang)絡訓練(lian)需要數據量(liang)足夠大,若數據量(liang)不夠大會導致過擬合,神(shen)經(jing)(jing)網(wang)絡的(de)(de)優勢(shi)就體現不出來(lai)。
但是(shi)在(zai)一(yi)些方(fang)面,深度(du)神(shen)(shen)經(jing)(jing)網絡(luo)確實(shi)(shi)有(you)(you)比人腦(nao)(nao)有(you)(you)更(geng)強大的(de)(de)地方(fang),比如(ru)(ru)深度(du)神(shen)(shen)經(jing)(jing)網絡(luo)可(ke)以(yi)(yi)具有(you)(you)海量的(de)(de)內存(cun)存(cun)儲能(neng)(neng)力,輕松(song)把(ba)人腦(nao)(nao)無法記憶的(de)(de)許多(duo)數(shu)據(ju)存(cun)儲起來進(jin)(jin)行(xing)(xing)檢索。目前情況是(shi),使用(yong)(yong)一(yi)個類(lei)型的(de)(de)數(shu)據(ju)集訓(xun)練得到(dao)的(de)(de)深度(du)神(shen)(shen)經(jing)(jing)網絡(luo)不能(neng)(neng)對(dui)其他類(lei)型的(de)(de)數(shu)據(ju)進(jin)(jin)行(xing)(xing)應(ying)(ying)用(yong)(yong),神(shen)(shen)經(jing)(jing)網絡(luo)的(de)(de)功能(neng)(neng)單一(yi),還無法跨(kua)領域學(xue)習;但是(shi)人腦(nao)(nao)可(ke)以(yi)(yi)在(zai)不同應(ying)(ying)用(yong)(yong)領域輕松(song)的(de)(de)實(shi)(shi)現跨(kua)域聯想,可(ke)以(yi)(yi)在(zai)數(shu)學(xue)領域借(jie)鑒音樂美術(shu)等藝術(shu)領域的(de)(de)一(yi)些思(si)想火(huo)花(hua)。在(zai)圍棋戰勝李世石的(de)(de)AlphaGo 并(bing)不會下簡單的(de)(de)象棋或者軍棋,但是(shi)人腦(nao)(nao)可(ke)以(yi)(yi)輕松(song)的(de)(de)進(jin)(jin)行(xing)(xing)類(lei)似思(si)維切(qie)換。所以(yi)(yi)近期google 的(de)(de)Raia Hadsell 團隊使用(yong)(yong)連接的(de)(de)神(shen)(shen)經(jing)(jing)網絡(luo)結構實(shi)(shi)驗(yan)這種(zhong)可(ke)以(yi)(yi)實(shi)(shi)現思(si)維切(qie)換的(de)(de)通用(yong)(yong)人工智能(neng)(neng)(general artificialintelligence):進(jin)(jin)步神(shen)(shen)經(jing)(jing)網絡(luo)(progressiveneural networks)[5],就是(shi)想打破這種(zhong)功能(neng)(neng)限制,在(zai)神(shen)(shen)經(jing)(jing)網絡(luo)的(de)(de)通用(yong)(yong)性上進(jin)(jin)行(xing)(xing)探(tan)索。如(ru)(ru)圖(tu)8 所示(shi)(shi),一(yi)個三列進(jin)(jin)步神(shen)(shen)經(jing)(jing)網絡(luo)示(shi)(shi)意(yi)圖(tu),左邊(bian)的(de)(de)兩列(虛(xu)箭頭)分(fen)別在(zai)任務1 和任務2 上進(jin)(jin)行(xing)(xing)訓(xun)練,標a 的(de)(de)灰色框表(biao)示(shi)(shi)適應(ying)(ying)層(adapterlayers),附加上右邊(bian)的(de)(de)第三列用(yong)(yong)于任務3,可(ke)以(yi)(yi)訪(fang)問前面已經(jing)(jing)學(xue)習到(dao)的(de)(de)所有(you)(you)特征。
圖8 進步神經網絡
探索道路上人(ren)類才邁(mai)出了(le)一小步,到底什么時候會真(zhen)正探索到真(zhen)理(li)不得而知。如LeCunYann 就曾指出,現在大量使(shi)用(yong)的深度學習模型都(dou)是使(shi)用(yong)監(jian)督學習的方式,但是人(ren)腦的學習方式是無(wu)(wu)監(jian)督的。學者們在無(wu)(wu)監(jian)督學習的探索才剛(gang)剛(gang)開(kai)始。
雖然(ran)神經網絡還處于(yu)發展初期,但表現出的超強能力(li),尤其(qi)自動(dong)駕(jia)駛(shi)、輔(fu)助(zhu)駕(jia)駛(shi)方面的能力(li)在全球各地有(you)大量的實驗以及應用(yong)。
比如(ru)最近(jin)美國國家交通(tong)部就正式(shi)發(fa)布針對自動駕(jia)駛(shi)(shi)汽車(self-driving cars/ automatedvehicles)的(de)(de)征求意(yi)見稿,美國前總統奧(ao)巴馬(ma)還專門發(fa)表講話[6] 把(ba)自動駕(jia)駛(shi)(shi)作為(wei)高新(xin)產業在美國的(de)(de)快速規(gui)范發(fa)展。自動駕(jia)駛(shi)(shi)汽車類似于機器人,集成了大(da)多(duo)數的(de)(de)人工智能技(ji)術(shu),自動駕(jia)駛(shi)(shi)技(ji)術(shu)的(de)(de)發(fa)展會極大(da)促進整個人工智能技(ji)術(shu)的(de)(de)發(fa)展。
由于媒體(ti)和人工智能廠商(shang)的(de)肆意(yi)夸大(da)宣傳,導致(zhi)(zhi)非專業人們對(dui)深(shen)度(du)神經網絡(luo)產生很多誤解,甚(shen)至引起恐慌,這(zhe)些都是完全沒(mei)有必(bi)要的(de)。比如(ru)2016 年9 月,特斯(si)拉在(zai)(zai)中(zhong)(zhong)(zhong)國的(de)一(yi)(yi)(yi)次車禍中(zhong)(zhong)(zhong),23 歲駕(jia)(jia)駛(shi)(shi)(shi)者駕(jia)(jia)駛(shi)(shi)(shi)一(yi)(yi)(yi)輛(liang)Model S 撞向路中(zhong)(zhong)(zhong)間的(de)道(dao)路清掃車致(zhi)(zhi)死。死者父親接受(shou)采(cai)訪時(shi)表示[7],他兒(er)子一(yi)(yi)(yi)直信賴自(zi)動(dong)(dong)(dong)駕(jia)(jia)駛(shi)(shi)(shi),因此(ci)在(zai)(zai)事故發生時(shi)并沒(mei)有在(zai)(zai)觀察路面(mian)(mian)情況。事故發生后,特斯(si)拉在(zai)(zai)其中(zhong)(zhong)(zhong)文(wen)網站(zhan)中(zhong)(zhong)(zhong)去掉(diao)了“自(zi)動(dong)(dong)(dong)駕(jia)(jia)駛(shi)(shi)(shi)”這(zhe)個詞。同時(shi)特斯(si)拉表示,自(zi)動(dong)(dong)(dong)駕(jia)(jia)駛(shi)(shi)(shi)系統不(bu)是為了徹底取(qu)代駕(jia)(jia)駛(shi)(shi)(shi)員(yuan),打開自(zi)動(dong)(dong)(dong)駕(jia)(jia)駛(shi)(shi)(shi)后,駕(jia)(jia)駛(shi)(shi)(shi)員(yuan)會受(shou)到語音和文(wen)字告警,迫使駕(jia)(jia)駛(shi)(shi)(shi)員(yuan)將雙手(shou)放在(zai)(zai)方向盤上,并注意(yi)路面(mian)(mian)情況。
但是某些媒(mei)體把(ba)這(zhe)種(zhong)需要駕(jia)駛(shi)員協助的(de)自動(dong)駕(jia)駛(shi)吹噓成無(wu)人駕(jia)駛(shi),這(zhe)極大誤解了(le)人工智(zhi)能技術,對(dui)技術的(de)發展以及產(chan)(chan)業的(de)發展都不會有好處,當達不到宣傳的(de)預期效果時,反(fan)而(er)會給消費者產(chan)(chan)生不信任的(de)印象。
目(mu)前已經應用(yong)或者打算應用(yong)的自(zi)(zi)動駕(jia)駛(shi)(shi)汽車案例(優步(bu)攜手沃爾沃將(jiang)在(zai)美國匹茲堡提供(gong)無(wu)人(ren)駕(jia)駛(shi)(shi)叫車服務,以及新(xin)創公司NuTonomy 的無(wu)人(ren)自(zi)(zi)駕(jia)計程車在(zai)新(xin)加坡緯壹(yi)科技(ji)城商(shang)業(ye)區(qu)投入運(yun)營)都必須在(zai)限制的場景。目(mu)前來(lai)看,還無(wu)法實(shi)現能夠在(zai)各種場景中的真正的自(zi)(zi)動駕(jia)駛(shi)(shi),人(ren)工智(zhi)能在(zai)某些領域很難達到人(ren)類水(shui)平(ping)的智(zhi)能。
神經網絡在安防行業中的應用現狀
自從2012年AlexNet 發(fa)布后,和(he)人(ren)工智能(neng)相(xiang)關的(de)(de)眾多學(xue)科的(de)(de)研究(jiu)(jiu)(jiu)人(ren)員把深度(du)神經網絡用(yong)于自己的(de)(de)研究(jiu)(jiu)(jiu)領域,都(dou)(dou)取(qu)得了(le)(le)豐碩成果。安防(fang)行業主要與圖(tu)像視(shi)頻(pin)(pin)應用(yong)相(xiang)關,其中(zhong)(zhong)最主要的(de)(de)研究(jiu)(jiu)(jiu)方向有:圖(tu)片(pian)或視(shi)頻(pin)(pin)中(zhong)(zhong)的(de)(de)對象檢測(object detection)、圖(tu)片(pian)或視(shi)頻(pin)(pin)中(zhong)(zhong)的(de)(de)對象定位(object localization)、基(ji)于視(shi)頻(pin)(pin)的(de)(de)目(mu)標(biao)跟蹤(object tracking)、基(ji)于圖(tu)片(pian)或視(shi)頻(pin)(pin)場(chang)景分(fen)類(lei)(scene classification)、基(ji)于圖(tu)片(pian)或視(shi)頻(pin)(pin)的(de)(de)場(chang)景解析(scene parsing)、基(ji)于圖(tu)片(pian)或視(shi)頻(pin)(pin)的(de)(de)目(mu)標(biao)行為識(shi)別(bie)(activityrecognition)。用(yong)于圖(tu)像分(fen)類(lei)和(he)檢測應用(yong)的(de)(de)深度(du)神經網絡,AlexNet 后又出現(xian)了(le)(le)牛津大學(xue)的(de)(de)VGGNet,谷歌的(de)(de)GooLeNe(t Inception-v1、Inception-v2、Inception-v3、Inception-v4)以及后微(wei)軟的(de)(de)ResNet(Resnet1、Resnet2),還有這兩(liang)種(zhong)結構(gou)結合后形成的(de)(de)Inception-ResNet、Inception-ResNet-v2。短短4年時(shi)間里,學(xue)術研究(jiu)(jiu)(jiu)在積極探索著(zhu)(zhu)引領著(zhu)(zhu)網絡結構(gou)的(de)(de)快速發(fa)展,同(tong)時(shi)產(chan)(chan)業界也積極把學(xue)術界的(de)(de)研究(jiu)(jiu)(jiu)成果引入的(de)(de)各自的(de)(de)產(chan)(chan)品當中(zhong)(zhong),并(bing)且(qie)結合產(chan)(chan)品應用(yong)的(de)(de)實際場(chang)景,對網絡模型進行優化和(he)增量訓(xun)練,取(qu)得了(le)(le)卓越的(de)(de)效果。比如宇視(shi)科技的(de)(de)智能(neng)識(shi)別(bie)服(fu)務器(qi)IA8500-FA和(he)IA9600-FS,視(shi)頻(pin)(pin)摘要和(he)視(shi)頻(pin)(pin)濃(nong)縮服(fu)務器(qi)IA8500-VI、IA8800-VI、IA8800-VIM,都(dou)(dou)已經使用(yong)NVIDIA 公(gong)司新款GPU,同(tong)時(shi)配置卓越的(de)(de)深度(du)神經網絡結構(gou),在各項檢測和(he)識(shi)別(bie)指標(biao)上在業界都(dou)(dou)達到(dao)了(le)(le)優秀(xiu)水平。
在安防行業的(de)分布(bu)式計算以及大數據(ju)(ju)挖掘方面,將(jiang)來(lai)也會涌(yong)現(xian)出大量(liang)的(de)創新與應(ying)用(yong)(yong)。對深度(du)神經網(wang)絡(luo)應(ying)用(yong)(yong)來(lai)說,網(wang)絡(luo)結(jie)構與模型、實現(xian)代碼(ma)已(yi)經變(bian)得(de)(de)不再重要。不同(tong)(tong)于傳輸的(de)智能算法開發,單(dan)憑一家(jia)力(li)量(liang)很(hen)難取得(de)(de)優異的(de)結(jie)果。海量(liang)數據(ju)(ju)或者(zhe)說大數據(ju)(ju)變(bian)得(de)(de)比網(wang)絡(luo)結(jie)構和代碼(ma)變(bian)得(de)(de)更(geng)重要!同(tong)(tong)時(shi)必須借(jie)助開源(yuan)力(li)量(liang)共同(tong)(tong)推進(jin)發展。所以在業界,尤其是學術以及行業領(ling)導者(zhe)(google、facebook FAIR、美(mei)國紐約大學LeCunYann 團(tuan)隊(dui)、加拿(na)大蒙特利(li)爾大學Geoffrey E. Hinton 團(tuan)隊(dui)、百(bai)度(du)的(de)前吳(wu)恩達團(tuan)隊(dui)),紛(fen)紛(fen)開源(yuan)自(zi)己的(de)各種項目的(de)代碼(ma),借(jie)助同(tong)(tong)行業的(de)力(li)量(liang)推動發展,同(tong)(tong)時(shi)建(jian)立在領(ling)域內的(de)領(ling)導地位。
人工智能在安防行業應用展望
在(zai)安(an)(an)防(fang)行業(ye)(ye),目前人工智(zhi)能(neng)算法(fa)使用最(zui)多(duo)的(de)(de)還(huan)是(shi)(shi)在(zai)視頻圖(tu)像(xiang)領(ling)域(yu),因為傳統的(de)(de)安(an)(an)防(fang)企業(ye)(ye)的(de)(de)產品(pin)都是(shi)(shi)與(yu)視頻圖(tu)像(xiang)相(xiang)關。但對于有(you)些業(ye)(ye)務應用來(lai)說,視頻圖(tu)像(xiang)只(zhi)是(shi)(shi)一小(xiao)部分,還(huan)需(xu)要(yao)網絡信息(xi)、通信信息(xi)、社交信息(xi),等等。將來(lai)安(an)(an)防(fang)行業(ye)(ye)還(huan)需(xu)要(yao)以(yi)視頻圖(tu)像(xiang)信息(xi)為基(ji)礎,打通各(ge)種異(yi)構信息(xi),在(zai)海(hai)量異(yi)構信息(xi)的(de)(de)基(ji)礎上(shang),充分發揮(hui)機器學習、數據分析與(yu)挖掘等各(ge)種人工智(zhi)能(neng)算法(fa)的(de)(de)優(you)勢(shi),為安(an)(an)防(fang)行業(ye)(ye)創造更多(duo)價值。
參考文獻
[1]//en.wikipedia.org/wiki/Artificial_intelligence
[2]//papers.nips.cc/paper/4824-imagenet-classification-with-deepconvolutional-neural-networks
[3]//www.deeplearningbook.org/
[4]//www.asimovinstitute.org/neural-network-zoo/
[5]//arxiv.org/abs/1606.04671
[6]//www.post-gazette.com/opinion/Op-Ed/2016/09/19/Barack-Obama-Self-driving-yes-but-also-safe/stories/201609200027
[7]//m.cn.nytimes.com/technology/20160918/fatal-tesla-crash-in-china-involved-autopilotgovernment-tv-says/