通過光字幕識(shí)別得到的結(jié)果可能不夠準(zhǔn)確,因?yàn)橐曨l環(huán)境中的字幕復(fù)雜性,并且聲音識(shí)別的準(zhǔn)確性也不高,但是可以通過聲音識(shí)別的方式確定需要的文字在視頻中的哪一段,然后通過人工智能語(yǔ)音識(shí)別和視頻文字匹配來(lái)確定并獲取需要的字幕
舉個(gè)例子:假設(shè)您想要從一個(gè)視頻中獲取字幕,但是由于視頻中的字幕很復(fù)雜,通過光識(shí)別的方式得到的結(jié)果并不是很準(zhǔn)確。同時(shí),因?yàn)橐曨l中的噪音很多,所以聲音識(shí)別的準(zhǔn)確性也不高。因此,您可以先使用聲音識(shí)別的方式識(shí)別出視頻中的一段話,假設(shè)識(shí)別出的話的準(zhǔn)確率為 50%。然后,您可以使用這 50% 的信息來(lái)判斷您需要的文字在視頻中的哪一段。接下來(lái),您可以使用 AI 語(yǔ)音識(shí)別和視頻文字匹配的方式,來(lái)確定您想要的字幕,**再獲取出來(lái)。
逐幀抽取視頻畫面后使用圖像識(shí)別技術(shù)進(jìn)行字幕識(shí)別。
進(jìn)行中 2023-02-25發(fā)布
招標(biāo)-按項(xiàng)目付費(fèi)