轻松使用
Ai00 推理视频教程
高画质视频请跳转到 B 站观看。
下载与安装
对于新手来说,我们建议直接从 Ai00 Server 的 Release 页面下载最新版本。
在每个版本发布的 Assets 版块可以找到已经打包好的 Ai00 Server 压缩包,下载并解压即可使用。
aarch64-apple-darwin
: 适用于 Apple M 系列芯片的 macOS 系统x86_64-apple-darwin
: 适用于 Intel 芯片的 macOS 系统x86_64-pc-windows-msvc
: 适用于 Windows 64位系统x86_64-unknown-linux-gnu
: 适用于 Linux 64位系统
Ai00 的显存需求
以下是 Ai00 不同量化方式的显存需求:
测试环境:
- CPU :i7-10870H
- GPU: RTX 4090 ,24G 显存
- 内存:32GB
量化方式 | 1B6 模型 | 3B 模型 | 7B 模型 | 14B 模型 |
---|---|---|---|---|
FP16 | 3.2GB 显存 | 6.5GB 显存 | 14.4GB 显存 | 约 29G 显存 |
INT8 | 2GB 显存 | 4.4GB 显存 | 8.2GB 显存 | 14.8GB 显存 |
NF4 | 1.3GB 显存 | 2.6GB 显存 | 5.2GB 显存 | 10.4GB 显存 |
默认量化所有层。量化层数越高,显存占用越低,但模型效果可能变差。
下载/转换 RWKV 模型
Ai00 Server 目前仅支持 .st
后缀的 Safetensors 模型,有两种方法可以得到 .st
模型。
如果你本地没有任何模型权重,建议直接从仓库中下载 .st
模型,如果你本地已经存在 .pth
文件,可以根据下列转换教程将 .pth
转换为 .st
。
从以下仓库中下载已经转换好的 .st
模型:
获得 .st
后缀的 RWKV 模型后,在 Ai00 的 dist/assets
目录中新建一个 models
文件夹,并将 RWKV 模型放在此文件夹中。
调整配置参数
Ai00 程序会按照 assets/configs/Config.toml
配置文件中的参数运行 RWKV
模型。可以通过文本编辑软件(如记事本等)修改 Config.toml
的配置项,调整模型的运行效果。
下面是一组示例 Config.toml
配置。
运行 Ai00 程序
配置项修改完毕后,请保存 Config.toml
文件,并双击运行 ai00_server.exe
程序。
当命令行中出现 INFO [ai00_server::middleware] model loaded
提示时,意味着模型已经加载完成:
此时我们打开任意浏览器,并访问 http://localhost:65530
,即可打开 Ai00 的 Web 界面。
如果你在 config 文件中设置了 tls = true
, 请访问 https://localhost:65530
调整右侧解码参数
Web 页面的右侧有一些可设置的模型解码参数,如 Temperature
、Top_P
、Presence Penalty
和 Frequency Penalty
,调整这些参数会影响模型的生成效果。
参数对应的效果如下:
参数 | 效果 |
---|---|
Top_P | 选择累积概率达到 值的前 个 token 作为候选集。如设置成 0.1 则考虑前 10% , 生成内容质量更高但更保守。设置成 1 则内容质量降低但更多样。 |
Temperature | 温度参数 通过修改 logits 的缩放比例控制生成结果的随机性。高温会使概率分布更均匀,增加生成内容的随机性;低温则使模型更倾向于选择概率最高的 token。 |
Presence penalty | 存在惩罚,对已出现过的所有 token 施加固定惩罚,从而增加了模型生成新 token 的可能性。 |
Frequency Penalty | 频率惩罚,根据 token 出现的次数进行累加惩罚,从而减少模型频繁地重复相同内容的可能性。 |
max_tokens | 模型生成文本时的最大 token 数,可以理解为“模型一次最多生成多少字”。 |
更详细的解码参数解释和参数推荐查看RWKV 的解码参数
意见反馈(可选)
联系方式(可选)