目录

使用流程

爱芯

瑞芯微

工具链:rknn2+rkllm

工具链:rknn3

量化编译后LLM模型

预处理、Embedding、Head层

上下文长度影响(现象)

数据类型

参考链接


芯片型号

官网算力

上市时间

AX630C

最大12.8TOPs@INT4 或3.2TOPs@INT8

2023年10月27日

AX650N

最大72.0TOPs@INT4 或18.0TOPs@INT8

2023年3月

RK1126BP

3TOPS

2025年6月

使用流程

爱芯

pulsar2 build: 编译传统小模型命令行

pulsar2 llm_build: 编译语言模型命令行

瑞芯微

工具链:rknn2+rkllm

芯片:RK1126BP

rknn2 支持传统视觉模型

rkllm 支持语言模型

工具链:rknn3

芯片:RK1820/RK1828

Qwen2.5-3B-Instruct 导出的onnx 模型结构

量化编译后LLM模型

以Qwen3-0.6B 举例

编译后模型大小(MB)

量化方式

max-context

AX630C

724.6

W8A16

1024

RK1126BP

702.7

W4A16

2048

RK182X

411.2(不包含embedding)

W4A16(g32)

1024

预处理、Embedding、Head层

embedding运行

Embedding 是否量化

LLM Head是否支持量化

Tokenizer 解析器运行

AX630C

板端Host运行

不量化

支持配置

HTTP Server

RK1126BP

板端 flash 中

支持量化

量化

demo示例中没有使用分词器

RK182X协处理器

主控SOC和板端均可

支持量化

支持配置

主控SOC

上下文长度影响(现象)

是否影响编译模型

说明

AX630C

影响

kv_cache_len参数越大模型越大

RK1126BP

影响

max_context: 上下文长度的上限值, 该值越大模型越大

RK182X协处理器

无影响

max_ctx_len,指定 Kvcache 最⼤⻓度,影响模型⻓⽂本下的推理结果以及 kvcache 的内存占⽤。

爱芯指定不同的last_kv_cache_len 模型显示如下

系统将预填充长度上限划分为1、128、256、384、512等不同档位(grp)。

例如,一个长度为300Token的提示词,会被分配到“上限为384”的组里进行批量计算。

数据类型

模型类型

AX630C

RK1126BP

备注

小模型

U8 S

8 U16

S16 FP32:部分层支持

w8a8:权重为8bit非对称量化精度,激活为8bit非对称量化精度

w4a16:权重为4bit非对称量化,激活为16bit浮点精度

float16:全浮点

大模型

w4a16 w8a16

w4a16,

w4a16_g32,

w4a16_g64,

w4a16_g128

w8a8

float16:全浮点

爱芯

hidden_state_type: fp16,bf16,fp32 weight: fp16,bf16,fp32,s8,s4,fp8_e5m2,fp8_e4m3

参考链接

如何估算大语言模型首个令牌生成时间 (TTFT)

Logo

智能硬件社区聚焦AI智能硬件技术生态,汇聚嵌入式AI、物联网硬件开发者,打造交流分享平台,同步全国赛事资讯、开展 OPC 核心人才招募,助力技术落地与开发者成长。

更多推荐