2016年和2017年,國家先后出臺了《互聯網+人工智能三年實施行動方案》和《新一代人工智能發展規劃》,將人工智能提升到了國家戰略層面,同時要加快壯大人工智能在教育、醫療、智慧城市、智能家居等多方面的應用,人臉識別也作為應用方向之一,成為人工智能領域的重點研發項目。
安防已經成為人工智能落地場景中的重要賽道,其涉及的智能視頻分析、人臉識別等關鍵技術也在研究領域受到了極大的關注。那么安防領域中涉及的人臉識別有何痛點?人工智能+安防的未來又有哪些新的趨勢?
10月29日,清華大學媒體大數據認知計算研究中心主任王生進教授在2017年第十六屆中國國際公共安全博覽會(CPSE安博會)政府管理論壇上發表了題為《人像態勢識別及其在智能視頻監控中的應用》的演講,他指出,目前我國視頻監控建設卓有成效,攝像頭的數量驚人,達到了2000多萬個。如此大量級的數據只依靠人工監控已經無法實現大規模視頻監控,急需人工智能以及智能分析技術有效的技術支撐。
王生進教授從三個方面闡述了人臉識別在安防中的應用:1、新一代人工智能發展與智能安防;2、人臉識別技術與應用系統;3、以人為中心的安防理念與人像態視識別。
一、新一代人工智能發展與智能安防
當前,世界范圍內公共安全面臨嚴峻情勢,是國際上關注的重大課題,信息內容與情報成為掌控局勢的關鍵要素。面向大數據背景下國家公共安全保障是重大的國家的需求。聚焦公共安全、平安城市、視頻監控、網絡安全的需求,以安防視頻大數據,及網絡空間各種視頻、圖像、語音、網絡信息為大數據基礎,創新人工智能和機器學習理論,構建公共安全大數據應用技術創新平臺是我們工作的重點。
我們現在面向的空間主要有兩個。
第一面向物理空間安全:全國平安城市建設視頻監控前端數量已超過2000萬。目標感知能力不足,大數據給公共安全事件即時感知、精確分析、快速搜索帶來巨大困難,急需人工智能技術支撐。
第二面向網絡空間安全:網絡空間富媒體通信的引入,帶來新型媒體信息管控難題,國家急需大數據環境下富媒體內容感知、網絡信息安全、網絡多媒體內容監測的支撐技術。
十二五期間,全國600大中城市視頻采集系統建設已初具規模,監控系統26.8萬余個(2009),安裝攝像頭2000萬余個(2013)。按每個攝像頭每天約7.2GB (0.3G(CIF)*24)的數據量,北京市攝像頭40余萬個(2011),每天產生的數據量為 2800TB,數據量巨大。
在這樣大量的數據下,依賴人工監控,智能化程度低,無法實現大規模視頻監控環境下的事前感知、事中聯動、事后有效處理及智能檢索。急需人工智能以及智能分析的技術,在視頻監控里能夠提供有效的技術的支撐。
2017年7月8日,國務院發布新一代人工智能發展規劃(國發〔2017〕35號)。人工智能成為國際競爭的新焦點,是引領未來的戰略性技術;人工智能成為經濟發展的新引擎,作為新一輪產業變革的核心驅動力;人工智能帶來社會建設的新機遇,將深刻改變人類社會生活、改變世界。搶抓人工智能發展的重大戰略機遇,構筑我國人工智能發展的先發優勢,加快建設創新型國家和世界科技強國。
根據這個核心,《規劃》里提出利用人工智能提升公共安全保障能力的規劃和要求。
第一、促進人工智能在公共安全領域的深度應用,推動構建公共安全智能化監測預警與控制體系。
第二、圍繞社會綜合治理、新型犯罪偵查、反恐等迫切需求,研發集成多種探測傳感技術、視頻圖像信息分析識別技術、生物特征識別技術的智能安防與警用產品,建立智能化監測平臺。
第三、加強對重點公共區域安防設備的智能化改造升級,支持有條件的社區或城市開展基于人工智能的公共安防區域示范。
在智能視頻分析關鍵技術方面,我簡單列了相關的關鍵技術:
1、侵入/越界檢測;2、遺留物體事件檢測;3、拿走物體事件檢測;4、徘徊檢測;5、行人/車輛檢測、跟蹤;6、人臉(人像)/行人/車牌識別;7、人群密度監測;8、異常行為(奔跑打架斗毆)檢測;9、視頻質量診斷;10、視頻濃縮與摘要;11、視頻內容快速檢索;12、圖像增強與復原技術。
人臉識別技術應用方面,根據實際應用場景,人臉識別可以分為如下3類:
第一、有配合人臉識別。分認證和查詢,通常應用在證件照人臉,聲明我是A,然后將A的模板人臉圖像和現場采集的A的人臉圖像進行比對,給出Yes or No,或查詢大庫。通常要求配合。
第二、半配合人臉識別。也分認證和查詢。通常應用在受限的通道、卡口,進行黑/白名單比對。該類應用通常光照穩定,不要求配合。
第三、非配合人臉識別。查詢為主,通常應用在視頻監控的動態布控場合,進行黑名單查詢。該類應用光照復雜,姿態不確定,難度大。
清華人臉識別技術——人證合一驗證通關應用:2005年,由公安部出入境管理局主持集成清華大學人臉技術,世界上首次在我國出入境旅客最多的深圳羅湖口岸開通“旅客自助查驗通道” ,日均出入境人數在數十萬以上。已推廣到深圳、珠海兩個地區的邊檢口岸共已開通了近400條自助通道,近300萬旅客,驗放旅客超過數億人次,通過率98%,成為世界人臉識別技術大規模成功應用的范例。
二、人臉識別技術與應用系統
人臉識別技術通過采用攝像機或攝像頭,采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部的一系列相關處理技術,通常包括:人臉檢測、人臉跟蹤、人臉五官定位、人臉歸一化、特征提取、分類器訓練和比對匹配,以達到識別不同人身份的目的。被廣泛地應用在安全、認證等身份鑒別領域,因而被譽為”21世紀十大影響人類生活“的革命性技術。
人臉識別從應用上一般分為人臉檢測,人臉五官定位,1:1人臉識別,1:N人臉識別,M:N動態布控。人臉檢測與五官定位應用方向:客流量統計,視頻檢索等。智能貼圖,智能美妝美顏,變臉特效等:
1:1人臉識別應用方向是指身份證人臉認證系統,社保人臉識別。
1:N人臉識別應用方向是指身份證照片查重,護照照片查重。比如你現在要做一個護照,你是張三,公安部門會到人口庫里面查一下,看你會不會是頂替,也就是一人多證。
M:N人臉識別應用方向是指動態監控,黑名單監控,VIP客戶管理系統,校園人臉識別系統,智能樓宇。
人臉識別技術,近兩年發展非常迅速。基于機器學習的人臉識別方法方面,人臉識別方法總體上可分為三大類:
一是基于統計的識別方法,主要包括特征臉(Eigenface)方法、隱馬爾科夫模型方法、子空間法等;二是基于網絡連接機制的識別方法,包括人工神經網絡(ANN)方法和彈性圖匹配方法等;三是幾何特征方法和三維模型等一些其他的綜合方法。
1.人臉識別核心課題
人臉識別的過程:令x 為一個待識別的人臉輸入,F(x)為一個分類器函數,y 是關于x 的類別標簽輸出。人臉識別的關鍵,是獲得高性能的F函數。傳統的人臉識別的方法(Deep Learning以前): F分類器函數的構建,主要是分步處理、人工設計的。
基于統計學習的人臉識別方法得到了廣泛的應用。人臉識別當前遇到的主要困難包括:
人臉面部結構的相似性;人臉的姿態變化;人臉的表情變化;復雜環境的光照變化;人臉的飾物遮擋;人臉的年齡變化
以上問題給人臉識別帶來了相當大的挑戰。隨著深度學習的發展,我們遇到的困難得到了解決。
2.人工智能新浪潮的關鍵技術——深度學習
人工神經網絡是一種端到端的機器學習方法(全步驟一次性學習)。端到端的學習方法一出現給人工智能帶來了巨大的推動,應用在AlphaGo,圖像識別,語音識別,無人駕駛,VR/AR,智能交通,智能視頻,智慧醫療,智能制造。
3.人臉識別關鍵技術
1)人臉檢測:判斷輸入圖像中是否存在人臉;如果存在人臉,返回人臉所在的位置。
2)關鍵點定位:確定人臉中眼角、鼻尖和嘴角等關鍵點所在的位置,為人臉的對齊和歸一化做準備。
3)人臉歸一化:根據關鍵點的位置,采用相似變換,將人臉對齊到標準臉關鍵點,并裁剪成統一大小。
4)特征提取:利用海量數據,訓練卷積神經網絡;將人臉圖像表示成具有高層語義信息的特征向量。
5)特征比對:主要是利用Metric Learning等技術,進一步提升識別準確率。
4.人臉檢測技術
(1)基于A CNN Cascade for FaceDetection框架。一共6個CNN,3個detection-net用于判斷輸入的區域是否是人;3個calibration-net對輸入的人臉框進行校正,得到更加準確的人臉框。檢測過程中采用NMS消除高度重疊的窗口。
(2)人臉識別網絡。針對不同人臉識別場景,設計了多種網絡架構,以適應不同場景(速度、精度)的要求。圖是我設計的一個網絡,左邊的網絡具有速度快的特點,僅需要5毫秒的CPU時間,在LFW上的識別準確率為97.28%,主要用于對實時性要求高的場景。右邊的網絡,RES-FaceNet,一共包含26個卷積層,5個max-pooling和1個全連接,單個model在LFW上的識別準確率可達99.22%。
三、以人為中心的安防理念與人像態視識別
基于以人為中心的安防理念,提出人像態視識別新概念。安防的重點是人,特別需要關注和獲取重點人群的全面信息。例如以下的相關信息:關注人物出現在公共場所和交通卡口;他的行為和舉止是否異常;攜帶包裹進入公共場所,走出后箱包是否消失;其面部表情和神態如何;近期是否有過敏感接觸、過激言語等。
人像態視識別
人像態視識別,是我們構建的深度人像識別的一個新概念,即對于人的像態、形態、神態、意態。
—像態包括人臉和行人表觀圖像;像態,感知兩個維度: 1、對感知對象的物理特征進行精準認知,以表達如顏色、尺寸等;2、對這些特征組合的表象進行屬性描述,以表達是什么,如車牌、人臉、行人。像態包含表觀:人臉、指紋、掌紋、虹膜、指靜脈、人群聚集事件等。
形態包括靜止和序慣圖像。形態,感知兩個維度:
1、對感知對象的靜止肢體特征進行認知,以表達如動作、姿態等;
2、對感知對象的肢體變化特征進行描述,以表達做什么,如步態、奔跑、逆行。形態包含多種人體肢體特征:姿態、行為、動作、步態、軌跡等。視頻監控行人識別系統,是在跨視域視頻監控網絡中,依據行人外觀和步態特征,識別查找追蹤在不同攝像頭下的特定行人。
神態包括主動和被動下的人臉圖像。神態,感知主動和被動兩個維度:
1、對感知對象的面部表情特征進行認知,以表達如喜怒哀樂等;
2、對感知對象的面部神色特征進行描述,以表達其內心的波動、思想的意識、精神的狀態,通常不為人的意志所控制。神態主要用于表達人的內心狀態:神態自若、神色慌張、精神恍惚等。
意態包括顯性信息和隱性信息。按照這個范疇定義,構成人像態勢識別新概念,智能安防,人是其中核心關鍵的要素。意態與隱形信息相關聯,主要體現在信息的邏輯關系的關聯上,具有顯性和隱性兩個維度:
1、對感知對象行為的企圖、目標、后果的顯性特征進行認知;
2、對感知對象行為的企圖、目標、后果的隱性特征進行認知,以表達其行為與其他事件的關聯、影響、及潛在的可能后果。意態的顯性特征認知較為容易實現,意態的隱性特征認知難度較大,但實際的事件預測十分需要。例如,同樣是購買一把菜刀,如果是一個主婦,可能是用于家庭的廚房餐飲;但若是有前科的人,則需要預警;—又如,一個人長時間在某個地方徘徊,像態是徘徊,但意態可能預示可能的事件。
大數據時代,如何處理從各個數據源收集來的信息,如何對不同地點、不同媒體、不同時間、以及不同清晰度、不同粒度的信息進行綜合利用,包括對信息的真偽進行鑒定;都是從未完成過的挑戰。顯性信息關聯,主要體現在目標表觀信息的關聯上,如目標類型,目標屬性,目標狀態,目標時空點;隱性信息關聯。主要體現在邏輯關系信息的關聯上—“蝴蝶效應”,亞洲蝴蝶拍拍翅膀,將使美洲幾個月后出現比狂風還厲害的龍卷風!
人像態視識別,全面構建對人的像態、形態、神態、意態的深度識別。通過人像態視識別,實現對目標人的整體信息分析、完善的狀態描述。1、2態,側重“格物”,本意即為考察人這個事物; 3、4態,偏向“致知”,進而達到完善的識別和理解; 人像態視識別的目標就是“格物致知”。綜上,通過人像態視識別,實現對目標人的整體信息分析、完善的狀態描述。人臉識別系統包含人臉識別、年齡估計、性別識別等,新一代的具有智能的安全監控技術,可實現對人臉的檢測、識別和分類;人像態視識別,全面構建對人的像態、形態、神態、意態的深度識別。通過人像態視識別,實現對目標人的整體信息分析、完善的狀態描述。
將人像態視識別與智能視頻分析有機結合,運用于安防領域,無疑將提高公安安防工作的效率,為平安城市建設和公共安全保障提供精準和有效的信息技術手段,大數據背景下國家社會安全保障重大需求。