專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
【相關專題 | 【計算機視覺】 計算機視覺技術行業現狀、市場分析與發展前景】
計算機視覺是人工智能的一個重要方面,通過精準的實現圖片識別等可以擴展計算機的使用范圍。
計算機技術的幾項技術
1、圖像分類
給定一組各自被標記為單一類別的圖像,我們對一組新的測試圖像的類別進行預測,并測量預測的準確性結果,這就是圖像分類問題。
計算機視覺研究人員提出了一種基于數據驅動的方法。 該算法并不是直接在代碼中指定每個感興趣的圖像類別,而是為計算機每個圖像類別都提供許多示例,然后設計一個學習算法,查看這些示例并學習每個類別的視覺外觀。也就是說,首先積累一個帶有標記圖像的訓練集,然后將其輸入到計算機中,由計算機來處理這些數據。
目前較為流行的圖像分類架構是卷積神經網絡(CNN)——將圖像送入網絡,然后網絡對圖像數據進行分類。卷積神經網絡從輸入“掃描儀”開始,該輸入“掃描儀”也不會一次性解析所有的訓練數據。比如輸入一個大小為 100*100 的圖像,你也不需要一個有 10,000 個節點的網絡層。相反,你只需要創建一個大小為 10 *10 的掃描輸入層,掃描圖像的前 10*10 個像素。然后,掃描儀向右移動一個像素,再掃描下一個 10 *10 的像素,這就是滑動窗口。
輸入數據被送入卷積層,而不是普通層。每個節點只需要處理離自己最近的鄰近節點,卷積層也隨著掃描的深入而趨于收縮。除了卷積層之外,通常還會有池化層。池化是過濾細節的一種方法,常見的池化技術是最大池化,它用大小為 2*2 的矩陣傳遞擁有最多特定屬性的像素。
2、對象檢測
識別圖像中的對象這一任務,通常會涉及到為各個對象輸出邊界框和標簽。這不同于分類/定位任務——對很多對象進行分類和定位,而不僅僅是對個主體對象進行分類和定位。在對象檢測中,你只有 2 個對象分類類別,即對象邊界框和非對象邊界框。例如,在汽車檢測中,你必須使用邊界框檢測所給定圖像中的所有汽車。
神經網絡研究人員使用區域(region)這一概念,這樣我們就會找到可能包含對象的“斑點”圖像區域,這樣運行速度就會大大提高。第一種模型是基于區域的卷積神經網絡( R-CNN ),其算法原理如下:
在 R-CNN 中,首先使用選擇性搜索算法掃描輸入圖像,尋找其中的可能對象,從而生成大約 2,000 個區域建議;
然后,在這些區域建議上運行一個 卷積神網絡;
最后,將每個卷積神經網絡的輸出傳給支持向量機( SVM ),使用一個線性回歸收緊對象的邊界框。
3、目標跟蹤
目標跟蹤,是指在特定場景跟蹤某一個或多個特定感興趣對象的過程。傳統的應用就是視頻和真實世界的交互,在檢測到初始對象之后進行觀察。現在,目標跟蹤在無人駕駛領域也很重要,例如 Uber 和特斯拉等公司的無人駕駛。
根據觀察模型,目標跟蹤算法可分成 2 類:生成算法和判別算法。
生成算法使用生成模型來描述表觀特征,并將重建誤差最小化來搜索目標,如主成分分析算法( PCA );
判別算法用來區分物體和背景,其性能更穩健,并逐漸成為跟蹤對象的主要手段(判別算法也稱為 Tracking-by-Detection ,深度學習也屬于這一范疇)。
4、語義分割
計算機視覺的核心是分割,它將整個圖像分成一個個像素組,然后對其進行標記和分類。特別地,語義分割試圖在語義上理解圖像中每個像素的角色(比如,識別它是汽車、摩托車還是其他的類別)。除了識別人、道路、汽車、樹木等之外,我們還必須確定每個物體的邊界。因此,與分類不同,我們需要用模型對密集的像素進行預測。
卷積神經網絡在分割任務上取得了巨大成功。目前的語義分割研究都依賴于完全卷積網絡,如空洞卷積 ( Dilated Convolutions ),DeepLab 和 RefineNet 。
5、實例分割
除了語義分割之外,實例分割將不同類型的實例進行分類,比如用 5 種不同顏色來標記 5 輛汽車。分類任務通常來說就是識別出包含單個對象的圖像是什么,但在分割實例時,我們需要執行更復雜的任務。我們會看到多個重疊物體和不同背景的復雜景象,我們不僅需要將這些不同的對象進行分類,而且還要確定對象的邊界、差異和彼此之間的關系!
Mask R-CNN 通過向 Faster R-CNN 添加一個分支來進行像素級分割,該分支輸出一個二進制掩碼,該掩碼表示給定像素是否為目標對象的一部分:該分支是基于卷積神經網絡特征映射的全卷積網絡。將給定的卷積神經網絡特征映射作為輸入,輸出為一個矩陣,其中像素屬于該對象的所有位置用 1 表示,其他位置則用 0 表示,這就是二進制掩碼。一旦生成這些掩碼, Mask R-CNN 將 RoIAlign 與來自 Faster R-CNN 的分類和邊界框相結合,以便進行精確的分割。
計算機視覺技術的應用場景
1,人臉識別
人臉識別是人工智能視覺與圖像領域中最熱門的應用,人臉識別技術目前已經廣泛應用于金融、司法、軍隊、公安、邊檢、政府、航天、電力、工廠、教育、醫療等行業。據業內人士分析,我國的人臉識別產業的需求旺盛,需求推動導致企業敢于投入資金。目前,該技術已具備大規模商用的條件,未來三到五年將高速增長。而今年,這一技術有望在金融與安防領域迎來大爆發。
2,圖片識別分析
靜態圖片識別應用熱度在視覺與圖像領域中排名第三。但是人工智能技術單純用于圖片識別分析的應用企業數量并不如預想的多,主要包括的原因有:(1)、目前視頻監控方向的盈利空間大,眾多企業的注意力都放在了視頻監控領域;(2)、人臉識別屬于圖片識別的一個應用場景,做人臉識別的大多數企業同時也在提供圖片識別服務,但是銷售效果不佳,主要贏利點還在于人臉識別;(3)、圖片識別大多商用場景還屬于藍海,潛力有待開發;(4)、圖片數據大多被大型互聯網企業所掌握,創業公司數據資源稀少。
3,駕駛輔助和智能駕駛
隨著汽車的普及,汽車已經成為人工智能技術非常大的應用投放方向,但就目前來說,想要完全實現自動駕駛和無人駕駛,距離技術成熟還有一段路要走。
不過利用人工智能技術,汽車的駕駛輔助的功能及應用越來越多,這些應用多半是基于計算機視覺和圖像處理技術來實現。
4,三維圖像視覺
三維圖像視覺主要是對于三維物體的識別,應用于三維視覺建模,三維測繪等領域。
5,工業視覺檢測
機器視覺可以快速獲取大量信息,并進行自動處理。在自動化生產過程中,人們將機器視覺系統廣泛地用于工況監視、成品檢驗和質量控制等領域。機器視覺系統的特點是提高生產的柔性和自動化程度。運用在一些危險工作環境或人工視覺難以滿足要求的場合;此外,在大批量工業生產過程中,機器視覺檢測可以大大提高生產效率和生產的自動化程度。
6,醫療影像診斷
醫療數據中有超過 90% 的數據來自醫療影像。醫療影像領域擁有孕育深度學習的海量數據,醫療影像診斷可以輔助醫生,提升醫生的診斷的效率。
發展科技是在市場競爭中獲取先機的重要方式,但是將技術和市場競爭結合,尋找產品的切入點,應用場景和以后的發展方式也應該得到重視。
本文由五度數科整理,轉載請標明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論