llama.cpp 推理教程

llama.cpp 是一个轻量化的大语言模型运行框架，专门优化了在 CPU 上运行模型的性能。

随着 RWKV 社区成员 @MollySophia 的工作，llama.cpp 现已适配 RWKV-6/7 模型。

本章节介绍如何在 llama.cpp 中使用 RWKV 模型进行推理。

视频教程

高画质视频请跳转到 B 站观看。

可以选择从 llama.cpp 的 release 页面下载已编译的 llama.cpp 程序。

llama.cpp 提供了多种预编译版本，根据你的显卡类型选择合适的版本：

也可以参照 llama.cpp 官方构建文档，选择适合的方法本地编译构建。

llama.cpp 支持 .gguf 格式的模型，但 RWKV 官方仅发布了 .pth 格式模型。因此，我们需要使用以下两种方法之一获取 .gguf 格式的 RWKV 模型。

可以从 RWKV-GGUF 合集下载 gguf 格式的 RWKV 模型。

请在 llama.cpp 目录下新建一个 models 文件夹，将下载的 gguf 模型放入 models 文件夹中。

RWKV gguf 模型有多种量化类型，精度越高，模型的回复效果越好，但模型体积和计算要求越高。

推荐顺序：FP16 > Q8_0 > Q5_K_M > Q4_K_M ，更低的量化精度（如 Q3_0、Q2_0 等）可能会大大降低模型的性能。

python convert_rwkv_pth_to_gguf.py [pth模型文件路径] rwkv_vocab_v20230424.txt

请将上述命令中的 [pth模型文件路径]改成你的 pth 格式 RWKV 模型路径。

在 llama.cpp 目录运行以下命令，可以开启 llama.cpp 的命令行对话模式：

./llama-cli -m models/rwkv-6-world-7b-Q8_0.gguf -p "You are a helpful assistant" -cnv -t 8 -ngl 99 -r "\n\n"

这条命令通过 llama-cli 运行 models/rwkv-6-world-7b-Q8_0.gguf 模型，使用 8 个线程、并根据给定的初始 prompt You are a helpful assistant 开启对话。

llama.cpp-RWKV-inference-cnv-mode

参数解释：

完整的参数列表可以在 llama.cpp 参数文档中查看。

./llama-cli 默认是对话模式。可通过添加 -no-cnv 参数设置为续写模式，根据给定的 prompt 继续生成文本。

./llama-cli -m models/rwkv-6-world-7b-Q8_0.gguf -p "User: What's mbti?tell me in chinese.\n\nAssistant:" -no-cnv -t 8 -ngl 99 -n 500

RWKV 模型续写推理

-p "User: What's mbti?tell me in chinese.\n\nAssistant:"： prompt 参数，模型根据该提示词进行续写。更多 RWKV prompt 格式请在 RWKV 的提示词格式中查看
-no-cnv 参数：关闭对话模式，设置 llama.cpp 为续写模式，模型会根据给定的 prompt 继续生成文本
其他参数：与对话模式相同

使用以下命令，启动 llama.cpp 的 Web 服务：

./llama-server -m models/rwkv-6-world-7b-Q8_0.gguf -ngl 99 -r "\n\n"

启动后，可以通过 http://127.0.0.1:8080 访问 llama.cpp Web 页面：

WebUI

在 llama.cpp 目录运行 ./llama-quantize [input_model] [output_model] [quantization_type] 命令，可以对 fp32 和 fp16 的 .gguf 模型进行量化，例如：

./llama-quantize models/rwkv-6-world-1.6b-F16.gguf models/rwkv-6-world-1b6-Q8_0.gguf Q8_0

输入模型的精度限制为 fp32 和 fp16，推荐使用 Q5_1、 Q8_0 两种量化精度。

使用 ./llama-quantize --help 命令，查看所有可选的量化精度：

可选的量化精度