模型服务
LLMOS 平台通过 ModelService
简化了大语言模型(LLM)的部署, 为用户提供了简单,友好的配置和管理界面。推理服务利用强大的 vLLM 服务引擎。通过指定模型名称、Hugging Face 配置、资源要求等参数,用户可以轻松高效地设置和部署模型,并支持大规模运行。
创建模型服务
您可以通过 LLMOS 管理 > 模型服务 页面创建一个或多个模型服务。
通用配置
- 名称和命名空间:输入模型服务的名称和命名空间。
- 模型源和名称:
- 选择模型源:Hugging Face、ModelScope 或 本地路径。
- 对于 Hugging Face 或 ModelScope 模型,请粘贴注册表中的模型名称(例如,
Qwen/Qwen2.5-0.5B-Instruct
)。 - 对于本地路径模型,请指定卷路径(例如,
/root/.cache/huggingface/hub/models--Qwen--Qwen2.5-0.5B-Instruct
)。
- 引擎参数(可选):如有需要,请在 参数 字段中添加参数,例如
--dtype=half --max-model-len=4096
, 更多详情。 - Hugging Face 配置(可选)