一、服務器端需要部署的模型類別
語音轉(zhuǎn)文本模型(STT),即語音識別模型:服務器端部署或在機器人端實現(xiàn)。
自然語言理解模型(NLU):服務器端部署。
文本語言大模型(LLM):可采用私有化部署到本地的方案。也可采用通過API調(diào)用大廠LLM的方案。
文本合成語音模型(TTS):服務器端部署。
二、服務端功能需求
接收機器人端傳來的語音,將將語音轉(zhuǎn)文本后進行意圖識別。
如果是“喚醒意圖”,則向機器人發(fā)送“喚醒指令”文本。
如果是“語音控制意圖”,則向機器人發(fā)送“控制指令”文本。
如果是聊天意圖,則將機器人端傳來的語音進行處理后,生成回復語音返回給機器人。處理鏈路大致為:speech → STT → NLU → LLM → TTS → audio_response。
三、機器人端功能需求
提供機器人端SDK,機器人端通過調(diào)用API(C++)向服務端發(fā)送語音數(shù)據(jù)。
如果語音喚醒功能是在機器人本地實現(xiàn),則需要提供語音喚醒功能的SDK。
已完結(jié) 2025-04-19發(fā)布
招標-按項目付費