服務(wù)區(qū)域:全國
服務(wù)內(nèi)容全部包含:
大模型,GPU,手機端,嵌入式部署。模型壓縮,精度有競爭力。性能有競爭力。支持多batch。支持自定義模型。
支持fp8量化。有精度召回的手段。更擅長性能優(yōu)化,從系統(tǒng)到底層匯編級優(yōu)化。
服務(wù)優(yōu)勢:
1. 有多年深度學(xué)習(xí)模型部署經(jīng)驗。
2. 有大模型GPU,NPU實際部署經(jīng)驗。
3. 量化精度在業(yè)內(nèi)具有優(yōu)勢。
4. 吞吐,延時在業(yè)內(nèi)具有競爭力。
服務(wù)前需客戶提供的信息:
模型名稱, 用于確認是否可以支持。
模型大小, 用于評估模型的吞吐和性能。
模型定義, 轉(zhuǎn)換模型必須
模型權(quán)重(非必須) 用戶測試精度和性能
測試數(shù)據(jù) 用于測試效果
性能測試平臺 用于測試實際效果
其他:
硬件平臺差異導(dǎo)致性能差異。
系統(tǒng)框架