文獻標識碼: A
文章編號: 0258-7998(2012)06-0138-03
隨著視頻處理技術(shù)的日益成熟,越來越多的視頻匹配技術(shù),充分應用于在醫(yī)學、電視廣播系統(tǒng)等領(lǐng)域,極大改善了數(shù)據(jù)庫中多媒體視頻的大量重復現(xiàn)象,為網(wǎng)絡數(shù)據(jù)庫的綠色化提供了技術(shù)支持[1]。由于視頻數(shù)據(jù)量相當大,因此對匹配過程中的具體指標有相當嚴格的要求。
近年來,針對視頻識別的算法層出不窮,但大致都是單純基于運動特征或是單純基于內(nèi)容的識別方法。對于視頻中存在的若干部分的非紋理幀的現(xiàn)象,參考文獻[2]提出一個有效的視頻幀登記策略,并設計修改了兩幀強度的匹配算法。該算法具有良好的性能,可處理包含若干部分非紋理幀的視頻。但是使用估計值造成運算結(jié)果中存在大量誤差。對于視頻處理的實時性,參考文獻[3]提出一種方法,能快速匹配長視頻流,或者在長視頻流中快速找到一個相對較短的視頻序列。該方法解決了視頻匹配的實時性問題,但對于視頻的配準率仍有所欠缺。參考文獻[4]則把每幅圖像預先劃分成紋理和非紋理區(qū)域,這種方法針對不同紋理區(qū)域采取相應的措施,增加了整個過程的效率,提高整體性能,不足之處在于只能匹配內(nèi)容相近的視頻,無法確定是否為同一視頻。
本文提出一種基于主顏色和紋理特征的TS(Telescopic Shot)模型匹配方法,該方法忠實于視頻的內(nèi)容,利用視頻關(guān)鍵幀的主顏色和紋理特征來進行部分視頻幀的圖像匹配。采用TS改進模型描述各個鏡頭與視頻處理算法的對應關(guān)系,提高了視頻圖像匹配的效率,同時也對相近視頻和同一視頻進行了分類處理。
1 顏色特征與紋理特征
顏色特征是圖像匹配的基本依據(jù),提取顏色特征的方法主要有主顏色的直方圖、顏色矩、顏色集等。比較常用的是顏色的直方圖方法,該方法主要針對全局顏色的數(shù)量特征進行統(tǒng)計,得到顏色的直方圖,并反映出顏色的統(tǒng)計分布和基本色調(diào)。顏色直方圖包含某種顏色的頻率,拋棄了該色素所在的空間位置,因此計算量更少。
紋理特征是一個圖像匹配很好的方法,它不依賴于圖像的顏色和亮度。常見的紋理特征提取方法是灰度共生矩陣紋理特征提取以及基于小波變換的特征提取,灰度共生矩陣主要是把圖像的灰度值通過計算轉(zhuǎn)化成紋理特征。小波變化則是對時間以及頻率進行局域性的變換,具有分析多分辨率的特點。
2 TS模型算法
TS模型適合鏡頭切換速度比較快、數(shù)量比較多的視頻。算法采用依次的鏡頭匹配實現(xiàn)其可伸縮性的特點。對于已經(jīng)完成的N個鏡頭匹配,判定是否有決定性匹配,若沒有則對下一鏡頭進行匹配,直至完全匹配為止。其算法的計算量很小,目的就是判定目標視頻與源視頻是否為同一視頻。
3 TS改進模型描述
對于網(wǎng)絡數(shù)據(jù)庫中的海量視頻,算法復雜度是算法處理的難點。對于一些毫不相關(guān)的視頻內(nèi)容,可以采用一個簡單的算法進行識別和過濾,避免浪費數(shù)據(jù)處理的時間。為此,針對TS模型算法,本文提出了改進算法,圖1所示為對視頻的關(guān)鍵幀進行粗、細匹配相結(jié)合的比對。
4 TS改進模型的匹配算法實現(xiàn)
4.1 鏡頭分割
鏡頭檢測算法在鏡頭分割技術(shù)中的地位很重要,對于傳統(tǒng)的鏡頭算法,最難以描述的就是視頻鏡頭切換較快而且無規(guī)律,如NBA中的比賽錄像,前后鏡頭內(nèi)容變化量很大。對于這種視頻,采用參考文獻[5]提出的鏡頭邊界檢測算法進行分割。
通過對視頻中各幀圖像的灰度強度的熵信息進行運算分析,找到信息變化量巨大的幀,選取為鏡頭的邊界幀。設X是一個離散的隨機變量,Ax表示一系列事件{y1,y2,…,yn},Px表示相關(guān)概率。
圖3所示為通過鏡頭檢測處理得到的各幀的熵變化。實驗證明,采用此方法得到切割鏡頭的查準率達到97.8%,查全率達到99.3%。
最后對共生矩陣歸一化,對共生矩陣計算能量、熵、慣性矩及相關(guān)4個紋理參數(shù),求出能量、熵、慣性矩及相關(guān)的均值和標準差作為最終的八維紋理特征[6]。
4.4 視頻粗匹配
(1)提取壓縮視頻的關(guān)鍵幀(此時關(guān)鍵幀選取為鏡頭第一幀),對數(shù)據(jù)源目標視頻首幀進行圖像匹配,對關(guān)鍵幀的相似度進行比對。
(2)若相似度>80%,則認為該視頻和源視頻處于同一視頻情景內(nèi),繼續(xù)進行操作,轉(zhuǎn)接到細匹配。
(3)若相似度<80%,則繼續(xù)對后繼鏡頭頭幀進行匹配,轉(zhuǎn)到步驟(2)。
(4)匹配結(jié)束,返回失敗提示。
4.5 視頻細匹配
運用TS模型進行視頻的細匹配。將首鏡頭的關(guān)鍵幀所提取的內(nèi)容信息(即主顏色以及紋理特征)進行匹配,若相似度>80%,則認為該鏡頭匹配,繼續(xù)將第二個鏡頭所得到的關(guān)鍵幀進行圖像匹配,以此類推,直至達到鏡頭數(shù)量的閾值為止,此閾值為自適應閾值。根據(jù)經(jīng)驗值,在鏡頭總數(shù)>200時,一般在總鏡頭數(shù)量的二分之一為宜,然后通過比對剩余鏡頭數(shù)量即可得到細匹配的效果。若鏡頭數(shù)很小,則自動執(zhí)行至終鏡頭。在得到源視頻和目標視頻匹配的同時,可以將匹配的幀數(shù)放寬到源視頻幀數(shù)的90%,最后得到的視頻即為源視頻的相近視頻,并對匹配視頻和相近視頻做統(tǒng)一分類。通過這樣的順序匹配,配合TS模型的自動伸縮性閾值,既可以減少視頻的運算量,又可以保證基于內(nèi)容匹配的精確度。
5 實驗結(jié)果與分析
本實驗選用360個完全不同類型的長短視頻進行多次匹配,包括大量的、變化巨大的廣告視頻以及NBA比賽視頻等,鏡頭數(shù)量在160~2 500不等。
通過實驗證明,基于主顏色和紋理特征的圖像匹配應用到視頻匹配中,提高了視頻匹配的查準率和查全率。相對于基于運動特征的視頻匹配,提高了約20%,如圖4所示。其中曲線y1表示結(jié)合主顏色和紋理特征的TS模型匹配算法,曲線y2表示單純主顏色的視頻匹配,曲線y3表示單純紋理特征的算法,曲線y4表示傳統(tǒng)的基于運動特征的視頻匹配。從實驗結(jié)果可以看出,本文算法得到的查全率明顯優(yōu)于傳統(tǒng)的基于運動特征的算法,比基于單一特征的算法更為精確。另外,由于應用TS模型算法大大降低了計算量,從計算復雜度方面衡量,本文算法比其他三種算法降低約45%。
本文提出一種基于主顏色和紋理特征的視頻匹配方法,不但將基于內(nèi)容的圖像匹配應用到視頻中來,提高了視頻內(nèi)容的查全率和查準率,而且應用TS模型改進算法,更有效地降低了視頻處理的計算量。本文算法較傳統(tǒng)的基于運動特征的視頻匹配算法精確率明顯提高;較基于內(nèi)容的視頻匹配算法,精確度更高,計算量也降低高達45%,通過大量的實驗驗證,具有一定的通用性。
參考文獻
[1] 陳秀新,賈克斌,鄧智玭.融合時序特征和關(guān)鍵幀的視頻檢索方法[J].電視技術(shù),2011, 35(03):21-24.
[2] JIANCHAO Y. Alignment of non-texture video frames using kalman filter[C]. IET Computer Vision, Jan, 2011:77-85.
[3] PRIBULA O, POHANKA J, et al. Real-time video sequences matching using the spatiotemporal fingerprint[C].IEEE Mediter- ranean Electrotechnical Conference, 2010.
[4] ABDOLLAHIAN G, BIRINCI M, et al. A region-dependent image matching method for image and video annotation[C]. IEEE International Workshop on Content-Based Multimedia Indexing, 2011.
[5] BABER J, AFZULPURKAR N, et al. Shot boundary detection from videos using entropy and local descriptor[C]. IEEE International Conference on Digital Signal Processing, 2011.
[6] 薄華,馬縛龍. 圖像紋理的灰度共生矩陣計算問題的分析[J]. 電子學報, 2006,34(1):155-158.