需求描述
通過光字幕識別得到的結果可能不夠準確,因為視頻環(huán)境中的字幕復雜性,并且聲音識別的準確性也不高,但是可以通過聲音識別的方式確定需要的文字在視頻中的哪一段,然后通過人工智能語音識別和視頻文字匹配來確定并獲取需要的字幕
舉個例子:假設您想要從一個視頻中獲取字幕,但是由于視頻中的字幕很復雜,通過光識別的方式得到的結果并不是很準確。同時,因為視頻中的噪音很多,所以聲音識別的準確性也不高。因此,您可以先使用聲音識別的方式識別出視頻中的一段話,假設識別出的話的準確率為 50%。然后,您可以使用這 50% 的信息來判斷您需要的文字在視頻中的哪一段。接下來,您可以使用 AI 語音識別和視頻文字匹配的方式,來確定您想要的字幕,**再獲取出來。
逐幀抽取視頻畫面后使用圖像識別技術進行字幕識別。