爱芯-瑞芯微工具链对比

本文介绍了三款AI芯片（AX630C、AX650N、RK1126BP）的关键参数和上市时间，重点说明了不同芯片的模型编译流程、量化方式和性能特点。其中AX630C支持W8A16量化，RK1126BP支持W4A16量化，RK182X支持多种量化配置。文章还分析了上下文长度对模型大小的影响，比较了不同芯片在小模型和大模型上的数据类型支持差异，并提供了估算大语言模型首个令牌生成时间的方法参考。

清风2022

680人浏览 · 2026-02-27 19:56:06

清风2022 · 2026-02-27 19:56:06 发布

芯片型号	官网算力	上市时间
AX630C	最大12.8TOPs@INT4 或3.2TOPs@INT8	2023年10月27日
AX650N	最大72.0TOPs@INT4 或18.0TOPs@INT8	2023年3月
RK1126BP	3TOPS	2025年6月

使用流程

爱芯

pulsar2 build：编译传统小模型命令行

pulsar2 llm_build：编译语言模型命令行

瑞芯微

工具链：rknn2+rkllm

芯片：RK1126BP

rknn2 支持传统视觉模型

rkllm 支持语言模型

工具链：rknn3

芯片：RK1820/RK1828

Qwen2.5-3B-Instruct 导出的onnx 模型结构

量化编译后LLM模型

以Qwen3-0.6B 举例

	编译后模型大小（MB）	量化方式	max-context
AX630C	724.6	W8A16	1024
RK1126BP	702.7	W4A16	2048
RK182X	411.2(不包含embedding)	W4A16（g32）	1024

预处理、Embedding、Head层

	embedding运行	Embedding 是否量化	LLM Head是否支持量化	Tokenizer 解析器运行
AX630C	板端Host运行	不量化	支持配置	HTTP Server
RK1126BP	板端 flash 中	支持量化	量化	demo示例中没有使用分词器
RK182X协处理器	主控SOC和板端均可	支持量化	支持配置	主控SOC

上下文长度影响（现象）

	是否影响编译模型	说明
AX630C	影响	kv_cache_len参数越大模型越大
RK1126BP	影响	max_context: 上下文长度的上限值, 该值越大模型越大
RK182X协处理器	无影响	max_ctx_len，指定 Kvcache 最⼤⻓度，影响模型⻓⽂本下的推理结果以及 kvcache 的内存占⽤。