一、服務(wù)器端需要部署的模型類(lèi)別
語(yǔ)音轉(zhuǎn)文本模型(STT),即語(yǔ)音識(shí)別模型:服務(wù)器端部署或在機(jī)器人端實(shí)現(xiàn)。
自然語(yǔ)言理解模型(NLU):服務(wù)器端部署。
文本語(yǔ)言大模型(LLM):可采用私有化部署到本地的方案。也可采用通過(guò)API調(diào)用大廠LLM的方案。
文本合成語(yǔ)音模型(TTS):服務(wù)器端部署。
二、服務(wù)端功能需求
接收機(jī)器人端傳來(lái)的語(yǔ)音,將將語(yǔ)音轉(zhuǎn)文本后進(jìn)行意圖識(shí)別。
如果是“喚醒意圖”,則向機(jī)器人發(fā)送“喚醒指令”文本。
如果是“語(yǔ)音控制意圖”,則向機(jī)器人發(fā)送“控制指令”文本。
如果是聊天意圖,則將機(jī)器人端傳來(lái)的語(yǔ)音進(jìn)行處理后,生成回復(fù)語(yǔ)音返回給機(jī)器人。處理鏈路大致為:speech → STT → NLU → LLM → TTS → audio_response。
三、機(jī)器人端功能需求
提供機(jī)器人端SDK,機(jī)器人端通過(guò)調(diào)用API(C++)向服務(wù)端發(fā)送語(yǔ)音數(shù)據(jù)。
如果語(yǔ)音喚醒功能是在機(jī)器人本地實(shí)現(xiàn),則需要提供語(yǔ)音喚醒功能的SDK。
已完結(jié) 2025-04-19發(fā)布
招標(biāo)-按項(xiàng)目付費(fèi)