一種基于圖像分割及動態閾值的字幕提取方法

Submitted by neurta on Sat, 02/08/2020 - 08:51
字幕提取

隨著字幕技術以及視頻播放軟件的發展,字幕與視頻的結合方式也分為三種:外掛字幕、內掛字幕和內嵌字幕。

包括步驟:s1、遍歷視頻內某一時段含字幕的視頻幀,做輪廓查找和劃定輪廓外部矩形邊界的操作;s2、分析矩形邊界的特征,獲取字幕區域的位置;s3、取定間隔的視頻幀,對所述字幕區域進行圖像分割;S4、對分割后的圖形進行灰度化處理,根據灰度圖像的像素直方分布獲取二值化的動態閾值;S5、基于前序步驟中獲得的動態閾值進行圖像二值化操作,突出字幕圖形,消除噪聲像素點;S6、根據所述的動態閾值以及二值化圖像進行判斷,對不包含字幕的圖像進行忽略,僅對包含字幕的圖像進行字符識別;s7、匯總識別結果去重去冗;最終獲得按時間排序的字幕文本文件

過濾是基于GrabCut算法實現。如公式

E(α,k,θ,z)=U(α,k,θ,z)+V(α,z)

能量函數依賴與高斯混合模型的組件參數k,其中數據項U需要參用顏色值的高斯混合模型,其定義如公式(2)所示,公式(2)中的函數D如公式(3)所示,其中函數p是高斯概率分布,函數Π是混合的加權系數

U(α,k,θ,z)=∑D(α,k,θ,z)

正確率=正確識別字符數/字幕包含字符數

Π代表權重,μ代表均值,∑代表協方差

?

冯仰妍破处门