当前位置：首页 > news >正文

wordpress首页内容怎么修改seo自媒体运营技巧

news 2025/12/4 17:03:47

wordpress首页内容怎么修改,seo自媒体运营技巧,请问聊城网站建设,网站空间需要多大试试号称最好的7B模型（论文复现） 本文所涉及所有资源均在传知代码平台可获取文章目录试试号称最好的7B模型（论文复现）概述论文原理部署与复现推理微调adapter 融合概述 Mistral 7B 是一个新型的具有 7.3 万亿参数的大语言模型。…

试试号称最好的7B模型（论文复现）

本文所涉及所有资源均在传知代码平台可获取

文章目录

- 试试号称最好的7B模型（论文复现）
- - - 概述
    - 论文原理
    - 部署与复现
    - - 推理
      - 微调
      - adapter 融合

概述

Mistral 7B 是一个新型的具有 7.3 万亿参数的大语言模型。其性能甚至优于13万亿参数的 Liama2。

Mistral 7B 在所有测试基准中都优于之前最佳的 13B 模型（Llama 2），并在数学和代码生成方面超越了最佳的 34B 模型（LLaMa 34B）。此外，Mistral 7B 在编码性能上接近于 Code-Llama 7B，而不会牺牲非代码相关基准上的性能。Mistral 7B 利用了分组查询注意力（GQA）和滑动窗口注意力（SWA）。GQA 显著加快了推断速度，同时在解码过程中减少了内存需求，从而允许更高的批处理大小，提高了吞吐量，这对于实时应用非常重要。此外，SWA 旨在以较低的计算成本更有效地处理更长的序列，从而缓解了LLM（大型语言模型）的常见限制。这些注意力机制共同促进了 Mistral 7B 的增强性能和效率。

模型论文可见Mistral 7B

论文原理

Mistral 7B 基于 transformer 架构，下图将展示该架构的主要参数

在这里插入图片描述

滑动窗口注意力（SWA）利用 transformer 的堆叠层来关注超出窗口大小 W 范围之外的信息。在层 k 中的位置 i 的隐藏状态 hi 关注前一层中位置在 i − W 和 i 之间的所有隐藏状态。递归地，hi 可以访问到距离为 W × k 个标记的输入层中的标记，如图所示。在最后一层，使用窗口大小 W = 4096，理论上的注意力跨度大约为131K个标记。在实践中，对于序列长度为16K且 W = 4096，对FlashAttention 和 xFormers 进行的修改使得相对于基准的普通注意力模型速度提升了2倍。

滚动缓存缓冲区。一个固定的注意力跨度意味着我们可以使用滚动缓冲区缩小缓存的大小。缓存的大小为 W，而在时间步 i 的键和值存储在缓存的位置 i mod W 中。因此，当位置 i 大于 W 时，缓存中的过去数值被覆盖，并且缓存的大小停止增加。下图中提供了一个以 W = 3 为例的说明。在32k个标记的序列长度上，这将使缓存的内存使用减少了8倍，而不影响模型的质量

在这里插入图片描述

预先填充和分块。在生成序列时，我们需要逐个预测标记，因为每个标记都取决于前面的标记。然而，提示是预先知道的，我们可以使用提示来预先填充 (k, v) 缓存。如果提示非常大，我们可以将其分成较小的块，并使用每个块来预先填充缓存。为此，我们可以将窗口大小选择为我们的块大小。对于每个块，我们需要计算缓存和块上的注意力。图3展示了注意力掩码如何作用于缓存和块上

在这里插入图片描述

部署与复现

首先安装所需要的依赖，推荐新建 conda 环境安装

# 确保安装了 cuda 版的 pytorch， 如果已经安装了忽视这条
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
pip install -r ./requirements.txt

须在 linux 环境下运行，因为 Windows 下 bitsandbytes 包为 bitsandbytes-windows 会造成 transfromers 包无法正常识别，且 Windows 没有 Flash Attention

推理

在此处下载模型，解压到 7b-v0.1-hf/1，运行 infer.py，输入你想使用的prompt,即可得到模型的回复。推理部分可在 Windows 下进行，速度稍慢些但可以正常走完

python infer.py --prompt="As a data scientist, can you explain the concept of regularization in machine learning?"

在这里插入图片描述

微调

使用准备好的数据集微调模型。你也可以使用自己的数据集，打开train.py 编辑dataset 的路径即可，该数据的风格为指令由 ~~[INST] [/INST] 包围，进行微调后，模型便可以很好地处理类似的prompt，运行train.py~~

python train.py

在这里插入图片描述

adapter 融合

微调后的模型可以使用 PeftModel 连接 adapter，重新进行推理。所有代码已经准备在adapter.py中，运行即可，输入数据集风格的 prompt

python adapter.py --prompt="<s>[INST] How become a certified data professional [/INST]"

在这里插入图片描述

文章代码资源点击附件获取

查看全文

http://www.ds6.com.cn/news/69491.html

小学生做网站近期新闻事件

时尚网站设计长沙网络公司营销推广

专门做研究美股的财经网站厦门seo网站排名优化

手机做兼职的网站设计百度app下载安装普通下载

美食网站开发可行性分析报告上海网络公司seo

网站建设制作设计营销公司南宁搜索引擎的两个基本方法

东莞网站建设牛魔网a网站域名综合查询

网站有后台更新不了温州seo排名公司

个人做网站seonba最新交易一览表

阿里云服务器如何做两个网站首页关键词怎么排名靠前

施工企业负责人带班检查计划快排seo排名软件

网站开发demo如何拥有自己的网站

建一个商城网站多少钱自己做网站怎么做

企业信息公共服务平台官网海南seo排名优化公司

网站制作与防护费用百度应用

长沙网站设淘宝直通车推广怎么做

广告在什么网站做面点培训学校哪里有

深圳做积分商城网站建设适合小学生的新闻事件

网站开发中怎么联系客服浙江网站建设平台

淄博网站建设公司三农关键词优化公司排行

建设网站只能是公司吗品牌seo培训咨询

试试号称最好的7B模型（论文复现）

文章目录

概述

论文原理

部署与复现

推理

微调

adapter 融合

相关文章：