電腦視覺監控產學研聯盟

The Industrial Liaison Program Of  VBIE

 

2012年10月第65期

電子報

 

 

 

 

 

 

 

發行單位:電腦視覺監控產學研聯盟

出刊日期:2012年10月

本期主編: 江政杰

本期聯絡人: 林芳而

(02)-3366-4888轉226

台北市羅斯福路四段一號資工系館218室  

電腦視覺監控產學研聯盟網站: 

http://vbie.eic.nctu.edu.tw/

 

         

2012 International Workshop on M2M Technology活動報導

淺談行動裝置之遠端選取與操控之方法

相片美感評估之發展暨相關研究情況

3D模型重建與互動系統

 

2012 International Workshop on M2M Technology活動報導

撰稿/

 陳冠文

Intel-臺大創新研究中心

  

 過去十幾年來,由於網際網路(Internet)的興起,人與人之間藉由網路互相連結起來,全面且徹底地改變了人類的生活型態。我們很容易可以想像,如果所有的物件或機器也都可以彼此互相連結的話,那麼世界的各種層面,例如節能減碳、智慧運輸、健康照護、糧食供應、防災防恐、智慧生活空間等,都可獲得巨大的改善!這種萬物互連的網路叫做物件網際網路(internet of thing,IOT)或機器連機器(machine-to-machine,M2M)。有別於已熟知的將人與人互相連結起來之網際網路,很明顯的,萬物互連的網路(M2M)所牽涉到的物件之數量,將比現在將人們互連的網際網路所涉及的人數多上幾個數量級,因此在可見的未來,學界與工業界的研究人員將面對科學與技術上許多重要待解的問題,且將繼網際網路後啟動另一波的資通訊科技的革命。有名的哈柏(Harbor)研究報告預測,「M2M將驅動人類商業歷史上最大的有機成長契機。」為了讓幾十幾百億的物件或機器能彼此互連,甚至在無需人類介入的情況下能彼此互動,人類將面對極為嚴峻的技術上挑戰。

 有鑑於此,為探索並啟發符合未來需要的M2M新技術,Intel-臺灣大學創新研究中心於10月24日(星期三)至10月25日(星期四)於國立臺灣大學霖澤館(位於校總區)演講廳舉行 2012 International Workshop on M2M (machine-to-machine) Technology。

 本次workshop主要以五大主題作為探討: Intelligent Transportation System、E-health、Smart Living Space、Surveillance以及Connected Life。此次研討會的講者有來自於業界(例如英特爾公司Intel、通用汽車GM以及三星SAMSUNG)及學術界(例如加州柏克萊大學、波爾圖大學、英屬哥倫比亞大學、匹茲堡大學、米蘭理工大學、路易斯安那州大學拉斐特分校、慶應義塾大學、名古屋大學、華盛頓大學),共同分享最新的研究成果和經驗及學術交流,期望藉由此次研討會給予與會者對於未來M2M技術更多之啟發。研討會之議程如下:

 

 

 

 

淺談行動裝置之遠端選取與操控之方法

撰稿/

陳宣輯

國立台灣大學資訊工程研究所

 

前言:

 

 隨著手持裝置的日益進步,手機或平版電腦已不再只是單純打電話與上網的工具。由於智慧型行動裝置中擁有各類感測器與無線傳輸模組,因此這些行動裝置可完成各類型創新的應用,代表著未來每個人隨身都有一個強大的控制感測器的事實已逐漸形成。基於這未來的趨勢,透過行動裝置去選取或操控實體或虛擬的物件成為當今人機介面或多媒體應用之熱門研究,相關的產品也開始推出。本文將簡介目前這方面的產品與技術發展。

 

相關產品與技術:

 

 家庭中每一個家電都有獨自的遙控器或開關,找遙控器成為現代人都會碰到的煩惱。因此越來越多廠商投入試圖解決這個問題,例如:Homeseer [1]與ControlS4 [2] 提出整合性控制軟體安裝於android、apple iOS或自行開發的平板等行動裝置,所有家電或開關只要接上控制盒就可透過行動裝置控制。

 

▲ControlS4利用行動裝置提出之控制產品

 

 相同的概念也應用在近期發表的平板電腦上:Sony Tablet S整合紅外線功能之遙控器功能 (引述來源[3])。Snoy Tablet S 整合紅外線模組進入平板電腦內,讓使用者可透過內建的紅外線發射器操控家中所有具備紅外線裝置的電器設備。有了這樣的整合功能,平板電腦一機在手就能搞定家庭中各類的家電控制。此行動搖控器提供跨廠牌相容性功能,不局限於某些限定廠牌之家電。使用者可以利用「簡易註冊」和「從遙控器學習」這兩個選項選擇註冊的方式,其中的「簡易註冊」選項,直接提供許多家電廠牌的產品名單讓你做選擇;若是你想透過 Tablet S 操作的裝置有在內建的名單裡面,只要用「簡易註冊」選項就能快速註冊。

 

▲ 這是 Tablet S 的遙控器功能介面,其顯示已經註冊之裝置。

 

 但若是懶的從內建產品名單慢慢找,或是你想操控的裝置並不在Tablet S預設的名單內,那也可以透過「從遙控器學習」選項來註冊。若是選擇「從遙控器學習」選項,接著就會出現一個大大的遙控器面板, Tablet S 將學習遙控器上的按鈕對應並註冊完成新的遙控器。

 

▲ 學習遙控指令。

 

 至於學習的方法滿簡單的,先在 Tablet S 的控制器面板上選擇一個按鈕,然後就會出現一個「學習搖控指令」說明畫面,接著把要註冊裝置的遙控器放在靠近 Tablet S 機頂的地方,再按下你想要 Tablet S 學習的按鈕,就可以讓 Tablet S一一將的把遙控器上的按鈕記住了,如下圖。

 

 

▲透過原始遙控器學習按鍵之功能。

 

 此外,Tablet S也利用手勢操控的功能,四個方向於觸控螢幕的手勢提供使用者自行定義四種最常用的控制選項,如下圖所示。

 

▲ 提供手勢控制的功能。

 

 此外,許多研究也利用行動裝置之感測器提出許多創新的控制介面,他們使用行動裝置內建之三軸加速器(G-sensor)、陀螺儀、方向感測器(O-sensor)與磁感應器 (M-sensor).偵測出手機所朝向的方向,例如:Li et.al. (2009) Virtual Shelves [4]提出使用者可透過這些感測器選擇事先定義之選項,如下圖所示:

 

▲ 可透過這些感測器選擇事先定義之選項

 

 行動裝置的攝影機所擷取之影像也應用於遠端選取與操控之介面。Eun[5]提出Virtual Bridge,透過手持裝置之攝影機所提供的擷取影像進行實體空間中的物件選取與控制。使用者首先必須註冊各種家電(拍照),其後系統利用影像比對的方式,辨識出畫面內各種已註冊之家電,其後使用者可以控制各種家電,如下圖。

 

▲ Virtual Bridge. (左圖) : 透過手持裝置攝影機選取播放之內容,(右圖) : 移動製播放裝置進行播放。

 

 然而系統內註冊的照片拍攝位置與使用者未來操控家電的使用位置必須相近,否則會造成辨識家電的困難。Boring[6]提出Touch Projector,此方法可以讓任何原先無法觸控的螢幕變成具觸控功能的螢幕,使用者可透過行動裝置與各個螢幕進行互動。此方法將行動裝置所擷取到的影像與待互動螢幕(目標螢幕)內先之圖片相減(image difference)比對,再進行行動裝置螢幕與目標螢幕的座標轉換,因此使用者即可利用此對應關係透過手持裝置之觸控螢幕遠端選取並操控目標螢幕內之物件,如下圖所示。

 

▲ Touch Projector: 觸控投影方法透過手持裝置遠端操控將影片或圖片由左邊螢幕移向右邊螢幕。
 

 台灣大學資工系的影像與視覺實驗室研究團隊也提出行動裝置進行遠端觸控之方法,並已提出專利申請。我們同樣利用手持裝置之攝影機所擷取之影像比對資料庫內之資料。不同於Boring [6]利用整張圖像當作比對特徵,我們擷取具辨識率之影像特徵點或標籤進行註冊,因此在辨識時可加速比對之時間並抵抗光線干擾的問題。透過我們所提出之技術,未來進入麥當勞不需再人擠人排隊點菜,只需利用桌子上的桌墊,桌墊上印有所有套餐的圖示與價錢,顧客開啓行動裝置鏡頭攝向他有興趣的餐點,系統即可快速辨識桌墊上之標籤或者是影像特徵點的位置,並分析使用者於手機上所點選對應於菜單桌墊的位置,馬上提供其選取餐點之食材介紹、營養資訊、達人推薦等資訊或直接進行點菜,此點菜流程可直接透過行動裝置付款。餐廳伺服器可經由行動裝置接收此桌的點菜記綠,並加速上菜的時間,也可減少餐廳的人力需求。示意如下圖所示。

 

▲ 靜態平面中透過行動裝置進行遠端選取與操控

 

結語:

 

 隨著科技的進步,所有的控制元件將整合至單一裝置讓人類更方便的使用。因此手機或平板等行動裝置極有可能成為提供最佳的整合性介面的候選,且行動裝置也不斷創新,嶄新的操控介面也正如火如荼開發研究,行動裝置在未來生活中會扮演更重要的角色。

 

 

[1]       http://board.homeseer.com/

[2]       http://www.control4.com

[3]       Thomas, ePrice http://www.eprice.com.tw/nb/talk/10/10826/1/

[4]       Li, F.C.Y, Dearman, D., and Truong, K.N., Virtual Shelves: interactions with orientation aware devices, In Proc. UIST,(2009), pp.125-128.

[5]       DongJin Eun, Taik Heon Rhee, Seonghoon Kang, Minsuk Choi, Sangil Lee and Hark-Joon Kim, “Virtual Bridge: AR-Based Mobile Interaction for Easy Multimedia Control of Remote Home Devices.” HCI International 2011 – Posters’ Extended Abstracts Communications in Computer and Information Science Volume 174, 2011, pp 102-106.

[6]       Boring, S., Baur, D., Butz, A., Gustafson, S., Baudisch, P. Touch Projector: Mobile Interaction Through Video. CHI, (2010).

 

 

 

                              

 

相片美感評估之發展暨相關研究情況

撰稿/

劉耿豪、陳祝嵩教授

中央研究院資訊所

 

 關於影像美學的相關研究早在 80-90 年代起就持續在進行,其中多半研究嘗試去採用攝影學、心理學、與感情因子來當理論基礎嘗試分析與預測影像的美感程度。然而,這些早期的研究並未直接涉及如何結合電腦平台與美學的因子或概念去分辨照片是由專業攝影師或一般業餘使用者所拍攝。運用電腦計算能力,利用特徵表現與機器學習的方式來進行專業照片 (Professional photos) 與業餘照片 (Home user photos or snapshots) 的分類的相片美學的題目才於 2004 被 Tong et al. [1] 首度提出。作者使用高階語意 (High-level semantic) 的概念提出了一組低階特徵 (Low-level features),包括模糊 (Blurness)、彩度 (Colorfullness)、對比 (Contrast)、顯著性 (Saliency) 等,以及一些一般用途的低階特徵,如: 色彩 (Color moment/histogram、Lab/Luv/HSV coherence),能量 (DFT/DCT moment),材質 (MRSAR/Wavelet),形狀 (Sobel/Laplace histograms) 等,組合成一組超高維特徵向量來用於照片分類。為了避免降低分類器對於高維向量輸入的表現,作者先用 feature selection/re-extraction 方法篩選出辨識效果最強的特徵來降低特徵向量維度,再使用不同的分類演算法 (ex: Adaboost、SVM、Bayesian) 來進行專業照片與業餘照片的學習與分類,得到很好的結果。然而作者並未闡述選用該些特徵的理由,也未進一步說明如何設計更有效的特徵,僅是把現存的大量視覺特徵全部混合在一起使用,極度缺乏人類對於照片感觀的直接依據。

 Datta et al. [2] 於 2006 年參考了人類直覺及攝影學中rules of thumb 的影像區域化處理概念建立了數個低階視覺特徵,其中包括了曝光度 (Exposure)、彩度 (Colorfullness)、飽和度(Saturation)、色調 (Hue)、三分規則 (Rule of thirds)、熟悉度 (Familiarity)、材質 (Wavelet-based texture)、大小與比例 (Size and aspect ratio)、區域組成 (Region composition)、景深 (Depth of field)、及形狀 (Shape convexity) 等特徵。作者首先採用 SVM 與 wrapper-based的方法篩選出了當中分辨率最好的特徵組,再使用 Photo.net 所提供的大量評分過的照片當成 database,最後採用 SVM 當分類器進行 5-fold CV (Cross-Validation) 的分析與驗證,得到了 70% 以上的分類率。作者也嘗試使用線性回歸 (Linear regression) 的方式,以特徵值的多項式組合方法去直接計算出照片的美學分數,雖然結果並不太理想,不過作者也證實了特徵值與美學分數存在相當的關聯性。同年 Yan et al. [3] 則參考了人類評鑑相片優劣的感官因素 (Perceptual factors),首度建立了高階語意特徵 (High-level semantic features) 的來進行對相片品質高低的估量。作者認為構成高品質相片的要素分三大類: 照片簡單程度 (Simplicity)、照片寫實度 (Realism)、與攝影機技巧 (Basic Techniques),根據這些準則,數個高階視覺特徵被提出,其中包括: 1.邊緣空間分佈 (Spatial distribution of edge): 利用 Laplacian filter 找出照片的邊緣分佈來判斷照片的簡單程度。作者假設專業照片的邊緣分佈集中於中央,業餘照片則偏均勻分佈於整張影像,因此邊緣分佈的特性可用來判斷照片的品質。2.色彩分佈 (Color distribution): 利用高維的 color histogram 去判斷該照片的色彩分佈較接近高品質照片或是低品質照片的色彩分佈。3.Hue Count (色調數): 在 HSV 空間上計算出照片的色調數,其中假設專業照片的色調數比業餘照片來得少。4.模糊 (Blur): 利用 FFT 來計算照片中高頻成分的分佈來檢測照片是否清晰或模糊,進而推估照片的品質。除了上述高階特徵外,作者也使用了對比度 (Contrast) 與亮度 (Brightness) 等兩個簡單的低階特徵來協助提高整體表現。實驗結果證實使用少量的高階特徵所帶來的分辨效果比傳統上使用大量低階特徵來得更為有效,因此如何設計高階語意的特徵從此成為電腦估量相片美學中的重點之一。

 上述所提及的視覺特徵大部分均屬於整體性特徵 (Global features),意即該類特徵是針對整張影像進行處理,而非針對像是照片中的物體或前景等區塊進行獨立處理,僅少部分特徵屬於區域性特徵 (Regional features),因此在許多特殊情況下無法有效地估量出照片的品質。由於許多高品質專業照片中,主體 (Subject) 的視覺表現才是吸引人眼目光的重點,相反地背景 (Background) 通常不會含有太多的細節等資訊,因此如何把被主體與背景區隔開來進行獨立的特徵截取是個重要關鍵,也較符合人類對於影像美學的感知。

 Luo et al. [4] 於 2008 年利用了人類感觀的概念,首度提出前景與主體 (Foreground or subject region) 與背景要分離處理的概念,並且在兩個組別中分別設計了不同的高階語意特徵。作者使用影像的 derivative filter response [18] 的統計結果來分辨一個像素是屬於清晰像素 (Clear pixel) 或模糊像素 (Blur pixel),再搭配簡單的 bounding box 方法找出含有最多清晰像素的方框當成主體區域,其餘則當成背景。而作者提出的區域性特徵包括了: 1.明析對比 (Clarity contrast): 由於許多高品質照片不會整張照片完全清晰或完全模糊,如淺景深 (Low DOF) 的照片,因此作者利用 FFT 轉換後的頻率空間上算出高頻與全頻資訊的比例,再分別計算於物體區域跟整張影像並加以求得兩者之間的關係。2.光線 (Lighting): 由於專業攝影師會物體與背景使用不同的光線設定,因此作者計算了物體物被景的平均亮度的比值。3.簡單程度 (Simplicity): 使用專業照片的背景結構會較簡單的假設,利用色彩分佈來計算背景結構的簡單程度。4.組合幾何 (Composition geometry): 使用攝影學中的三分規則,來偵測物體區域的中心位置與三分規則中的四個交叉點的最短距離。理論上物體與交叉點距離愈接近的照片愈討喜。除了區域性特徵外,作者也使用了改良版的色彩和諧 (Color harmony) [21] 作為輔助的整體性特徵。分類的結果證實使用區域性的特徵的效果比傳統上使用整體性特徵來得好,主體與背景該分離的概念從此成為相片美學估量的核心之一。然而此方法所切割出的物體區域被限制為單一矩形,對於含有不規則形狀被攝物的照片,或傳統的建築、風景、或人物等照片,以及不含有脫焦 (Out of focus) 區域的照片時,此方法仍無法分辨出理想的主體與背景。

 除了使用derivative filter 的概念來偵測物體區塊外,Wong et al. [5] 於 2009 年引用了視覺注意力 (Visual attention) 的概念,認為美學物體能有效抓入人類視覺上的吸引力,並且認為視覺顯著模型 (Visual saliency model) 是照片美學估量的重要關鍵,因而提出了利用顯著性 (Saliency-based) 的方法來偵測影像中的主體區域的方法,認為照片中的顯著性區域 (Salient regions) 包含了照片中主要的物體。他首先利用 saliency 演算法 [15] 找出顯著性位置 (Salient locations) 來建構顯著性地圖 (Salient map),並且標示最前偵測出的三個顯著性位置當成顯著性種子 (Salient seeds),接著使用 CTM segmentation [22] 圖像切割演算法把照片切割成數個區塊,再找出包含有顯著性種子的區塊並且把他們標定為主體區域。主體區域切割出來後,作者提出了數個針對主體區域的顯著性區域特 (Salient region features),其中包括了曝光、銳利度、材質細節、飽和度,以及顯著性位置的數目、平均值、標準差與分佈等資訊。描述主體與背景相互關係的特徵也被提出,包括了物體區域與背景的曝光度、飽和度、色調與銳利度的平方差。整體性特徵則選用了 Datta et al. [2] 以及Yan et al. [3] 提出的方法,包括了銳利度、對比、曝光、材質細節、淺景深與三分規則等。作者使用了與 [2] 相同的照片庫,各取10% 分數最高與最低的照片進行 SVM 的訓練與分類,成功達到了 78.8% 的分類率。這證實了以顯著性方式來偵測主體區域對照片美學的估量有相當的助益。

 儘管 Wong 的方法提供了另一個直覺的物體切割方式,但是顯著性的方法仍不適合套用所有種類的照片上。舉例來說,當主體與背景的相對亮度不足的情況下,顯著性的演算法的效果不盡理想。為了解決問題,Luo et al. [6] 於 2011 年提出了照片優先分類化的概念,使用 prior knowledge 把照片分成七個大類別: animal、plant、static landscape、architecture、human 與 night,再個別分開進行處理。作者使用的主體區域偵測法細分成三種: 1.Clarity based region detection: 改良於 [4] 中提出的偵測方法,首先使用 derivative filter 初步定義出清晰與模糊像素後,在用疊代的方式找出更精確的清晰像素 (ps.一個真正的清晰像素必定落在鄰近清晰像素的 convex hull 中),直到結果收斂為止。最後再用over segmentation [7] 的方式把輸入影像切割成多個 super-pixels,並且標示含有超過半數清像素的 super-pixel 為清晰的區域。此方法特別適用於 animal、plant、與 static 等具有淺景深效果的照片類別,偵測到的主體區域也不再受限於矩形。2.Layout based region detection:,使用 Layout-based 演算法 [8] ,把照片分割成天空區域,地面區域,以及垂直站立的物體三部分,並假設垂直站立物體為主體區域。此方法適用於 landscape、architecture等戶外風景類別的照片。3. Human based region detection: 對於 human 類別的照片,使用臉部辨識 (Face detection) 的演算法 [10] 來偵測人人臉的區域並且當成主體區域。若臉部辨識演算法無法成功偵測到臉部,則改用人物辨識 (Human detection) 來粗略推估人臉的位置。經由三種不同的主體區域偵測方式的混合搭配,解決了傳統上僅使用單一物體偵測方式所遭遇的照片類別不適性的問題,實驗結果也證實了此方法確實能有效改進分類結果。

 在視覺特徵設計方面,作者也提出了幾個新的高階與區域性特徵與整體性特徵。區域性特徵包括了: 1.Dark channel feature: 利用了 Haze removal [13] 中的黑暗通道 (Dark channel) 方法來計算物體區域中 RGB 三色的平均正規化最小值。黑暗通道特徵同時結合了明析度、飽和度及色調組成的概念,可以用來偵測主體區域的銳度及色調是否純淨。2.Complexity feature: 由於專業攝影師會傾向使背景構成更簡單,因此偵測主體與背景的複雜度比例可用來估量照片品質。此特徵的作法為在 RGB 三個色通道上分別把主體區域與背景區域切割成 super-pixels,進而計算主體區域與背景區域 super-pixels 的數量的比值。3.Human based feature: 專業的人物照片通常含有優異的明析度或光照表現,因此作者針對人臉區域計算了臉部區域的比例、臉部區域平均光照、陰影區域的比例以及臉部清晰度四個特徵。整體性特徵則有: 1.Hue composition feature: 以色彩和諧度 [21] 中的兩大類模板 (templates) 為基礎,使用高斯混和模型 (GMM) 去訓練出該照片屬於哪一種模板,再使用概似比 (Likelihood ratio) 去進行高品質/低品質照片分類。2.Scene composition feature: 專業照片通常擁有良好的空間組成去吸引人眼注意。舉例來說,照片中所含有的連續長直線通常有語意上的意義,像是水平線或水的表面等,因此這個特性可以用來偵測照片的場景組成。作者使用 Hough transform去找出水平跟垂直的圖出線 (Prominent lines), 然後測量各個平均的方向 (Orientations),水平線的平均垂直位置,跟垂直線的平均水平位置來當成特徵值。

 實驗部分作者仍採用了網路上的照片庫以及 SVM 分類器進行分類,並採用 Area under the ROC curve 來驗證各種表現。結果新設計的區域性與整體性特徵表現明顯優於以往所提出的特徵外,照片分類處理也得到不錯的成果,總體性表現 (Overall performance)高達了 0.92。這除了說明了設計高階特徵的重要性外,照片預先分類獨立處理確實是不容缺少的。唯一美中不足的是作者並未提出任何方法達成自動化的相片分類,現階段僅能依賴相片庫所提供的先驗知識為基礎來進行,因此在實用層面上仍略嫌不足。

 關於其他類似於照片品質估量的研究也不在少數,像是如何從一張照片中切割出一塊品質最高的區塊 (Image re-targeting or image region recomandation) 也屬其中一門領域。 Cheng et al. [19] 於 2010 年的研究中提出了一種獨特且全面性的方式,稱之為 Omni-range context modeling。此方法可運用在數位像機內全自動化的專業場景搜尋 (Automatic professional view finding),可用來輔助使用者拍攝出較高品質的照片。作者認為照片中的物件組成是構成一張好照片的主要因素,然而照片的組合規則 (Composition rule) 往往過於複雜且多樣化,傳統的技術以及視覺特徵仍無法有效定義所有符合人類視覺美學的物件組合規則。為了克服這個問題,作者利用了電腦視覺多媒體領域中的 spatial context方法以及機率中空間分佈 (Spatial distribution) 的概念來嘗試分析照片的組合規則。以往的 context 研究 (ex: Spatiogram、visual synset、contextualized histogram) 主要均針僅對於 local spatial context 進行考慮,然而高品質照片中存在了許多彼此有關聯性但距離相對遙遠的物件群,傳統的 local context 概念無法有效描述出這類的情況,對於照片的構圖層面來說 far context 相對地顯得更重要。因此作者提出了一個能針對任意距離的的方法,能同時處理 local context 跟 far context 來估計照片中物件的分佈情形。

 首先作者先從 Flickr 收集了大量專業照片當成訓練組,所有的照片利用 graph-based segmentation 方法切割成大量的 atomic patches,每一個 patch 均利用色彩跟材質特徵重新表示成一個高維度特徵向量,再利用 K-mean 演算法對所有的特徵向量分類成 1000 個 clusters,每一個 cluster 中的中心點的 patch 代表了一個視覺字元 (Visual word),而其他的 patch 則可由簡單的最近法找出該屬於哪一個視覺字元。作者也利用了視覺字元來針對所有的訓練照片進行主題 (Sub-topic) 分類,其方法為每一張影像先分解成數個 patches,再利用 Bag-of-Word 法統計每一個視覺字元類別出現的次數進而得到一個直方圖向量 (Histogram vector),接著使用K-mean 演算法把所有影像的直方圖向量分類成 100 個主題。關於 Omni-range context modeling的建立部分,作者針對每個主題的照片使用了高斯混合模型 (GMM) 去描述照片中所有可能成對的視覺字元的空間分佈,並使用 EM 演算法去估計出模型中最大概似 (Maximum likelihood) 的參數。同樣地,針對同主題照片中的獨立視覺字元也使用 GMM 去描述並求得相關參數。由上述可知,不論是單一的 patch 或是成對的 patches 的空間分佈均資訊均囊括在作者所提出的模型裡,成對的 patches 空間分佈並不受到距離的限制,成功克服了傳統 spatial context 模型的的理論限制。實驗部分作者採用了全景照片 (Panoramic photo) 當成測試組,並且選擇一個固定大小的視窗當成裁切範圍,目標為找出此全景照片中哪個位置所裁切出來的子照片 (Sub-photo) 最符合專業照片的要素。方法為把所有可能的子照片先分解成視覺字元並用直方圖向量找出該主題,接著把視覺字元資訊輸入到所對應的主題的 context model 中,判斷輸入影像的空間分佈是否符合事先所訓練出的高品質照片的分佈,藉著 Maximum A Posterior (MAP) 方法來找出模型中事後機率 (Posterior probability) 的最大值,即為最能符合專業高品質照片的位置,。實驗證實此方法的場景偵測效果明顯勝過往以估計材質分佈為主的 re-targeting 方法,也提供了一個很實用且具有挑戰的研究方向。然而在此研究中作者僅專注於照片組合規則要素,並未加以考慮其他視覺特徵,如對比、曝光度等,因此此方法未來仍有相當大的進步空間。

 除了上述的內容外,仍有不少關於相片美學的研究 [11] [12] [14] [16] [17] [23] [24] 持續被提出,但是基本目標與方向大體上都相同。如何先把照片有效預先分類,如何發掘更有效、更符合人眼感官的的高階與低階視覺特徵並且適當的混用、如何有效找出照片中物建構成的關係來進行美學程度的預測、以及如何設計更具有實用層面的相關應用,是電腦相片美學界未來的主要課題。

 

參考資料

[1] H. Tong, M. Li, H. Zhang, J. He, and C. Zhang, “Classification of digital photos taken by photographers or home users,” In Proc. PCM, 2004.

[2] R. Datta, D. Joshi, J. Li, and J. Wang, “Studying aestheticsin photographic images using a computational approach,” In Proc. ECCV, 2006.

[3] Y. Ke, X. Tang, and F. Jing, “The design of high-level features for photo quality assessment,” In Proc. CVPR, 2006.

[4] Y. Luo and X. Tang, “Photo and video quality evaluation: Focusing on the subject,” In Proc. ECCV, 2008.

[5] L. Wong and K. Low, “Saliency-enhanced image aesthetics class prediction,” In Proc. ICIP, 2009.

[6] W. Luo, X. Wang, and X. Tang, “Content-Based Photo Quality Assessment,” In Proc. ICCV, 2011.

[7] X. Ren and J. Malik, “Learning a classification model for segmentation,” In Proc. ICCV, 2003.

[8] D. Hoiem, A. Efros, and M. Hebert, “Recovering surface layout from an image,” Int’l Journal of Computer Vision, 2007.

[9] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” In Proc. CVPR, 2005.

[10] R. Xiao, H. Zhu, H. Sun, and X. Tang, “Dynamic cascades for face detection,” In Proc. ICCV, 2007.

[11] D. Joshi, R. Datta, Q. T. Luong, E. Fedorovskaya, J. Z. Wang, J. Li and J. Luo, “Aesthetics and Emotion in Images: A computational perspective,” IEEE Signal Processing Magazine, 2011.

[12] S. Bhattacharya, R. Sukthankar, and M. Shah, “A Framework for Photo-Quality Assessment and      Enhancement based on Visual Aesthetics,” In Proc. ACM MM, 2010.

[13] K. He, J. Sun, and X. Tang, “Single image haze removal using dark channel prior,” IEEE Trans. on PAMI, 2010.

[14] X. Jin, M. Zhao, X. Chen, Q. Zhao, and S. Zhu, “Learning Artistic Lighting Template from Portrait Photographs,” In Proc. ECCV, 2010.

[15] Itti, L., Koch, C., Niebur, E. (1998), “A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, ” IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11), 1254-1259.

[16] R. Datta, J. Li, and J. Z. Wang, “Algorithmic inferencing of aesthetics and emotion in natural images: An exposition,” in Proc. ICIP, 2008, pp. 105–108.

[17] R. Datta, J. Li, and J. Z. Wang, “Learning the consensus on visual quality for next generation image management,” in Proc. ACM Multimedia, 2007, pp. 533–536.

[18] Levin, “A.:Blind motion deblurring using image statistics,” In:NIPS, 2006.

[19] B. Cheng, B. Ni, S. Yan, and Q. Tian, “Learning to photograph,” in Proc. ACM Multimedia, 2010, pp. 291–300.

[20] E.Rahtu, J.Kannala, M. Salo, and J. Heikkil¨a, “Segmenting salient objects from images and videos,” in ECCV, 2010.

[21] D. Cohen-Or, O. Sorkine, R. Gal, T. Leyvand, and Y.Q. Xu, “Color harmonization,” ACM Trans. Graph., vol. 25, no. 3, 2006.

[22] Yang, A., Wright, J., and Yi, M., “Unsupervised segmentation of natural images via lossy image compression, ” Computer Vision and Image Understanding, 110(2), 212-225, 2008.

[23] S. Banerjee and B. L. Evans, “In-camera automation of photographic composition rules, “ IEEE Transactions on Image Processing, 16:1807–1820, 2007.

[24] S. Dhar, V. Ordonez, T. L Berg, “High level describable attributes for predicting aesthetics and interestingness,” In CVPR, 2011.

 

3D模型重建與互動系統

撰稿/

許志維、陳旭龍、陳永昇教授

國立交通大學資訊工程系

 

   前言

        建立完整的3D模型在虛擬實境控制之視覺化顯示系統中是很重要的一環,在這篇文章中,我們將介紹國立交通大學資訊工程系的研究團隊在3D模型重建的研究成果,主要的方法是使用Microsoft Xbox KinectPrimeSense深度感測器,藉由其快速、準確、成本低廉等特點,來重建3D模型,同時使用Kinect追蹤人眼位置與建立好的3D模型做互動。整個系統包含兩個主要步驟:(1) 3D模型重建和 (2) 3D模型互動。

   3D模型重建

Microsoft Xbox Kinect安裝好之後,系統可以擷取出RGB imagedepth image整合形成2.5D的資訊,但2.5D的資訊不及3D完整和不符合實際需要,因此我們需要對物體做3D模型重建。

首先用Microsoft Xbox Kinect環繞物體360度,分別拍攝16張不同視角的影像,每張影像都分別包含RGB imagedepth image,如下圖所示。

圖一:Kinect拍攝的RGB imageDepth image

        每一個視角的RGB imagedepth image,都可以形成一組point cloud,接著藉由背景相減的方式,我們可以取得前景,也就是物體的point cloud,依照這個方法,可以得到16組物體不同視角的資料。

圖二:背景相減取出前景。

 

        有了16組物體不同視角的資料之後,我們以傳統的Iterative Closest Point (ICP)演算法加上顏色資訊,進行多視點的整合。 ICP利用兩群不同的點使兩群點間的誤差最小,大致流程為找出離現在標準點最接近的鄰居點,接著使用mean square cost function估算轉換的矩陣,再利用估算出來的矩陣對所有點做轉換,並不斷重複此步驟,而加上顏色資訊的ICP演算法,在找出離現在標準點最接近的鄰居點之後,還會再考慮標準點與鄰居點的顏色是否相近,如果顏色相近,這組點才會納入考慮,否則的話將不納入考慮,藉此提升傳統ICP演算法的準確性與正確性。

 

圖三:左圖是傳統ICP的結果,右圖是加上顏色資訊的結果。

 

        經由加了顏色的ICP整合好16個視角的point cloud之後,可以得到物體完整的point cloud,接下來我們對完整的point cloud建立三角網格,在對建立好的三角網格做紋理貼圖。

 

 

圖四:兩組不同資料做3D模型重建的結果。

 

   3D模型互動

3D模型互動部分,我們使用OpenNI函式庫搭配PrimeSense NITE Middleware來追蹤骨架,並找出人眼相對於螢幕的位置。使用者在移動身體的過程中,系統藉由眼睛觀看位置的判斷,以及事前定義好的手勢動作判斷,而在畫面上產生相對應的畫面,達到與3D模型互動的效果,藉由這樣的互動方式,讓使用者有一種物體就真的在前面的感覺。

圖五:藉由Kinect追蹤,畫面隨著人眼位置不同而改變。

圖六:以手來操縱物體,讓使用者決定要看物體的哪個部分。

 

 

有關本學界科專計畫、電腦視覺監控產學研聯盟、以及電子報之背景與相互關連都已在電子報創刊號詳細說明。本期電子報由分項A子項2主編,在此,我們簡介此子項於學界科專101年度之研究計畫:

子項A2於本年度目標在整合攝影機網路所拍攝之監控視訊,利用時空資訊進行監控目標之瀏覽與搜尋,讓使用者在大量的視訊影片記錄中,可以快速找到有興趣的目標。同時,我們將發展一個使用紅外線的指觸式可移動式多解析度投影操控介面,提供直觀的中控室操作模式,讓監控人員更能掌握環境的狀況。本年度的研究主題如下:

1.  監控視訊資料庫之時空同步搜尋: 為了讓管理人員於中控室能更確實地掌握監控區域內所有的動態,在本年度的研究中,我們將設計一套能夠即時監控之輔助機制,並搭配監視視訊資料之時空同步搜尋,以輔助中控室管理員之運作。首先我們將即時的建立監控影片內容之背景模型,同時不間斷的記錄所有移動物體資訊。當管理員需要時,系統可以立即產生當前一段時間(例如10分鐘)內的濃縮影片,讓使用者可以很快的瀏覽這段時間各攝影機畫面是否有異常之處。實務上管理員很容易受各種因素而無法持續監視攝影機畫面,在我們設計的機制下,管理員可以在很短的時間內透過濃縮影片,即時瀏覽可能錯過的監控事件。此外,我們將設計相關的時空搜尋條件,讓管理員可以過濾某些不必要的資訊,以期快速掌握整個監控攝影機網路的全貌。

2.  行動中控室之資訊整合視覺化技術: 在目前現有的監控系統中,視訊安全中控室多位於室內。不過有些時候行動中控室是必需的,如:需要監控戶外活動、監控遠距的環境等。目前常見的行動中控室,使用者多為被動的被告知可疑訊息,如:系統送可疑畫面到手機或PDA,使用者比較不容易做立即的反應或是操控。因此,我們擬採用逐漸普及的觸控式行動裝置(含平板電腦與手機)來開發行動式監控系統(或「行動中控室」),讓中控人員可以隨時隨地輕易掌握監控環境之即時狀況。

 

 

近年來全球安全監控產業呈現穩定成長趨勢,並由於數位時代的進展,安全監控產品技術層次也不斷提升,進而與其他產業整合,預期未來安全監控領域是安全產業中最具發展潛力的領域之一。此外,由於現代科技的進步,醫療技術與品質提升,使國民平均壽命逐年攀升。在新人口結構變化趨勢下,如何滿足老年人健康照護需求的問題不容小覷,相對而言,也造就了新的商機。根據工研院IEK推估,台灣高齡產業市場規模在2025年可望達到1089億美元。

展望未來產業趨勢,安全監控產業以及高齡產業市場規模將持續增加。因此,本中心將以前期所開發之100餘項相關核心技術,規劃二個系統整合方向 — (1)智慧型建築(smart building),結合資訊、通訊與視訊技術,整合創造科技與人文結合的智慧型大樓;(2)智慧型社區(smart community),結合鄰里以及警政單位,規劃全方位無死角社區或園區智慧型監控系統 期許透過系統整合,勾勒具視覺感知能力之安全環境架構,以建構全面智慧型環境,讓人們悠遊於舒適的環境之中,並協助國內廠商尋找智慧型監控環境之藍海策略,使台灣成為安控產業之明日之星 。

學界科專計畫已邁入第二期,本期研發重點,在技術策略方面,朝向「多層次多感測無縫隙系統」發展,結合視訊與感測器(sensor)成為一全方位監控安全系統。在技術落實方面,朝向下列三目標執行:

(1) 提升技術成熟度、可靠度及穩定度

(2) 以嵌入式系統具體化前期核心技術

(3) 整合前後期核心技術,以發展商品化之產品。

每一分項之主要工作項目概述如下,詳細內容後述之。

分項一:智慧型建築(Smart Building)

分項一的研發主軸為智慧型建築(smart building)的前瞻性技術研發,工作項目如下。

A1.日夜安全巡邏與訪客引導系統---室內空間智慧型巡邏與避碰利用自動車引導訪客、紅外線影像處理與自動車夜間導航、多自動車協同巡邏與異常偵測等。

A2.視訊監控中央管理系統---攝影機網路之目標物即時追蹤與預測、視訊資料庫搜尋、與資訊整合視覺化。

A3.室內突發事件分析系統---室內突發事件分析之技術開發主軸分隊針對人員及環境設計各項突發事件偵測技術,研發技術包括:人員異常行為分析、訪客異常行為偵測、環境突發事件偵測限制區域之監控、限制區域之監控。在技術策略方面,朝向結合視訊與感測器(sensor),發展成為一全方位監控安全系統。

分項二:智慧型社區(Smart Community)

以多層次多感測無縫隙的技術為發展目標,分項二的技術研發主軸定位在智慧型社區(smart community)安全的前瞻性技術研發,主要工作項目如下所列。

B1. 人車偵測與辨識系統---即時車型和車輛之偵測和辨識、車輛管制系統、PTZ攝影機人員偵測與辨識等。

B2. 強健性物件追蹤系統---全天候物件偵測與追蹤、即時物件追蹤技術、多感測器人員追蹤、多人長時間性人員追蹤。

B3. 事件分析與搜尋系統系統---自動化視訊搜尋、戶外異常事件分析、異質相機行動監看。

 

 

經濟部學界科技專案『以視覺為基礎之智慧型環境的建構四年計畫』所發起的「電腦視覺監控產學研聯盟」已於2005年初正式成立。為了加強產業界與學術界的互動與交流,聯盟自2005年一月起每兩個月定期發行一期電子報,提供國內產業界及聯盟會員最新的相關資訊。

本電子報目前所規劃的內容包括:

1.最新動態:公布並報導「電腦視覺監控產學研聯盟」或「影像等相關單位」舉辦的各項技術說明會、技術研討會、企業座談會等相關活動訊息。

2.技術報導:報導電腦視覺監控領域相關研究的現況,並簡介本學界科專計畫的最新研究成果及所獲得的各項專利等。

 

在本期的電子報當中,「最新動態」部分做了2012 International Workshop on M2M Technology的活動報導。此外,在「技術報導」方面,本期收集了 三篇文章,分別由國立台灣大學資訊工程研究所陳宣輯同學介紹淺談行動裝置之遠端選取與操控之方法」 、中央研究院資訊所陳祝嵩教授 、劉耿豪同學介紹「 相片美感評估之發展暨相關研究情況」 ,以及國立交通大學資訊工程系陳永昇教授、許志維同學、陳旭龍同學介紹3D模型重建與互動系統」。

 

 

 

 

「電腦視覺監控產學研聯盟」乃是由經濟部學界科專「以視覺為基礎之智慧型環境的建構四年計畫」所發起,由前亞洲大學校長蔡文祥(現交通大學講座教授)所主持,在背後支持此一聯盟的研發團隊幾乎囊括了國內電腦視覺研究領域之菁英教授,其研究人員遍佈台大、清大、交大、中央及中央研究院等第一流學術機構。每一位計畫主持人皆累積多年有關影像處理與圖形識別等研究的經驗,亦曾多次協助業界研發各項影像處理與圖形識別系統,輔導產業研發、創新之經驗豐富 。

本聯盟除發行電子報外,也提供聯盟成員包括人才招募、技術諮詢、企業資訊推廣等多項 服務(請點選並下載電子報左方目錄中的「會員招募簡章及報名表」,並參閱其中有關本聯盟之服務內容說明)。竭誠歡迎產業界相關企業加入聯盟,藉由大家共同的努力,提昇國內此一產業的技術水準。

為了方便會員的聯繫,我們於新竹特設一服務窗口:

新竹窗口

交通大學電腦視覺中心 蔡淑均 小姐

TEL:03-5731970    FAX:03-5131205

E-mail : rayis@mail.nctu.edu.tw