当前位置: 首页 > news >正文

苏州网站建设设计制作公司怎么样怎么创建自己的网站平台

苏州网站建设设计制作公司怎么样,怎么创建自己的网站平台,应用中心软件,淘宝不能发布网站开发了以下是 vllm serve 的常见参数说明以及它们的作用: 1. 基本参数 model_tag 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。示例:vllm serve "gpt-neo-2.7B"--co…

以下是 vllm serve 的常见参数说明以及它们的作用:


1. 基本参数

model_tag
  • 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。
  • 示例
    vllm serve "gpt-neo-2.7B"
    
--config CONFIG
  • 说明:允许从 YAML 配置文件加载参数。适合复杂配置。
  • 示例
    vllm serve "gpt-neo-2.7B" --config /path/to/config.yaml
    
--host HOST--port PORT
  • 说明:设置服务运行的主机地址和端口。
  • 默认值host=127.0.0.1port=8000
  • 示例
    vllm serve "gpt-neo-2.7B" --host 0.0.0.0 --port 8080
    

2. 模型加载与优化

--tensor-parallel-size
  • 说明:设置 Tensor 并行的数量(多 GPU 分布式推理)。
  • 示例
    --tensor-parallel-size 8
    
--cpu-offload-gb
  • 说明:允许将部分模型权重或中间结果卸载到 CPU 内存中,模拟 GPU 内存扩展。
  • 默认值0(禁用 CPU 卸载)。
  • 示例
    --cpu-offload-gb 128
    
--gpu-memory-utilization
  • 说明:指定 GPU 内存利用率,值为 0-1 的小数。
  • 默认值0.9
  • 示例
    --gpu-memory-utilization 0.8
    
--max-model-len
  • 说明:模型的最大上下文长度(序列长度)。
  • 示例
    --max-model-len 16384
    
--max-num-batched-tokens
  • 说明:每批次处理的最大 token 数量。适用于优化吞吐量。
  • 示例
    --max-num-batched-tokens 60000
    
--dtype
  • 说明:设置数据类型,通常用于控制权重和激活值的精度。
    • float32:32位浮点数(精确但消耗内存)。
    • float16:16位浮点数(推荐)。
    • bfloat16:16位浮点数(适合 NVIDIA A100 等设备)。
  • 示例
    --dtype float16
    

3. 日志与调试

--uvicorn-log-level
  • 说明:控制 uvicorn Web 服务器的日志级别。
  • 选项debug, info, warning, error, critical, trace
  • 示例
    --uvicorn-log-level debug
    
--disable-log-stats
  • 说明:禁用统计日志,减少性能开销。
  • 示例
    --disable-log-stats
    
--disable-log-requests
  • 说明:禁用请求的日志记录。
  • 示例
    --disable-log-requests
    

4. 分布式设置

--distributed-executor-backend
  • 说明:设置分布式推理的执行后端。
  • 选项ray, mp(多进程)
  • 默认值ray(如果安装了 Ray)
  • 示例
    --distributed-executor-backend ray
    
--pipeline-parallel-size
  • 说明:设置流水线并行的阶段数量。
  • 示例
    --pipeline-parallel-size 4
    

5. 前端与安全

--api-key
  • 说明:启用 API 访问控制,客户端需提供此密钥。
  • 示例
    --api-key my_secure_api_key
    
--ssl-keyfile--ssl-certfile
  • 说明:配置 HTTPS 证书,启用安全通信。
  • 示例
    --ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem
    
--disable-fastapi-docs
  • 说明:禁用 FastAPI 的 OpenAPI 文档(Swagger UI)。
  • 示例
    --disable-fastapi-docs
    

6. 调度与优化

--swap-space
  • 说明:每个 GPU 的 CPU 换页空间(GiB)。
  • 示例
    --swap-space 8
    
--max-num-seqs
  • 说明:每次迭代的最大序列数量,适合控制吞吐量。
  • 示例
    --max-num-seqs 16
    
--enable-prefix-caching
  • 说明:启用前缀缓存以减少重复计算。
  • 示例
    --enable-prefix-caching
    

7. 特殊用途参数

--quantization
  • 说明:设置量化方法,减少内存占用。
  • 选项
    • bitsandbytes:8位量化(推荐)。
    • fp8:FP8(需要支持 FP8 的设备)。
  • 示例
    --quantization bitsandbytes
    
--enable-lora
  • 说明:启用 LoRA(低秩适配器)功能。
  • 示例
    --enable-lora
    

示例命令

结合以上参数的一个完整示例:

vllm serve "defog/sqlcoder-70b-alpha" \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug

如需进一步调整,请参阅 vLLM 官方文档。

http://www.ds6.com.cn/news/104695.html

相关文章:

  • 武威 网站开发百度站长之家
  • 青岛网站推广服务查域名的网址
  • 自己做网站花多少钱免费网站推广
  • 武汉b2b网站建设公司快手流量推广免费网站
  • 文做网站站长工具ip地址查询域名
  • 扬中网站建设网站底部友情链接
  • 香港做网站seo点击排名软件营销工具
  • 请人做个网站多少钱口碑营销的成功案例
  • 网站制作公司 信科网络宁波网站推广找哪家
  • 网批做衣服的网站网络营销的特点有
  • linux系统做网站seo引擎优化专员
  • 晋江模板建站如何把网站推广
  • 网站建设都有那些费用厦门百度竞价推广
  • 什么公司做网商网站的注册安全工程师
  • 杭州网站建设icp备江苏网站建站系统哪家好
  • 医疗网站跳出率百度seo优化按年收费
  • 优秀ppt作品范例天津seo推广软件
  • 网站什么做的企业邮箱申请
  • 百度医疗网站建设论坛推广怎么做
  • 网站自动更新文章手机关键词点击排名软件
  • 有什么网站可以做平面兼职南宁seo费用服务
  • 做网站简约学校网站专业seo网络推广
  • 微信网站开发国外搜索引擎网站
  • 那个网站有兼职做室内设计如何把网站推广出去
  • 房产经济人怎么做网站网盘资源大全
  • 网络公司网站首页网站优化排名哪家好
  • 网站开发的完整流程图不受限制的万能浏览器
  • wordpress占用seo搜索
  • 湖北商城网站建设网站流量
  • 网站空间登陆长春网络推广公司哪个好