GitHub: axolotl-ai-cloud/axolotl
Stars: 12,000+ | Language: Python (97.3%) | License: Apache-2.0
最新版本: v0.17.0(2026 年 6 月 3 日)| 31 个 Release
目录
项目速览
Axolotl 是一个 YAML 配置驱动的全栈大模型微调框架,由 axolotl-ai-cloud 团队维护,GitHub 12k Star。项目名称取自墨西哥蝾螈(一种具有强大再生能力的两栖动物),寓意”灵活再生各种模型能力”。
Axolotl 的核心理念是”一份配置走天下”:从数据加载、模型选择、训练方法、分布式策略到推理导出,全部通过一个 YAML 文件声明式配置。这种设计使得实验管理极其清晰——每个实验对应一个 YAML 文件,Git 版本控制友好,团队协作时可精确复现任何一次训练。
与其他框架相比,Axolotl 在强化学习和多模态训练方面的投入尤为突出。它是少数同时支持 GRPO(Group Relative Policy Optimization)、GDPO、PRM(Process Reward Modelling)等前沿 RL 方法的框架,并且对视觉语言模型(VLM)和音频模型有完整的训练管线支持。2026 年 6 月发布的 v0.17.0 已支持 Gemma 4、Llama 4、Qwen3.6 等最新架构。
功能概述
训练方法全景
Axolotl 的训练方法栈覆盖从预训练到强化学习的全部阶段:
| 阶段 | 方法 | 说明 |
|---|---|---|
| 预训练 | Full Pretraining | 支持多节点 FSDP/DeepSpeed |
| 监督微调 (SFT) | Full-tuning, LoRA, QLoRA, GPTQ, QAT | 量化感知训练支持 NVFP4 |
| 偏好对齐 | DPO, IPO, KTO, ORPO, SimPO, GDPO | 丰富的对齐算法选项 |
| 强化学习 | GRPO, GDPO | v0.16.0 正式引入 GRPO |
| 奖励建模 | RM, PRM | 标准奖励模型 + 过程奖励模型 |
| 多模态 | VLM SFT, Audio SFT | LLaVA, Qwen2-VL, Pixtral, Voxtral |
| Text Diffusion | 文本扩散训练 | 实验性功能 |
模型覆盖
Axolotl 支持 80+ 种模型架构,其适配策略是为每个模型家族编写专用的架构配置文件:
| 厂商 | 模型 |
|---|---|
| Meta | Llama 3-4, LLaMA-Vision |
| 阿里 | Qwen3, Qwen3-MoE, Qwen3.5, Qwen3 Next, Qwen2-VL, Qwen3-VL |
| 谷歌 | Gemma 3n, Gemma 4, Gemma 3n (VLM) |
| Mistral | Mistral, Mixtral, Ministral3, Devstral, Magistral, Pixtral, Mistral Small 4, Mistral Medium 3.5 |
| 智谱 | GLM-4.6V, GLM-4.7-Flash, GLM-4.5-Air |
| 上海 AI Lab | InternVL 3.5 |
| 微软 | Phi-4 |
| OpenAI | GPT-OSS |
| 其他 | Kimi-Linear, Olmo3, Trinity, Granite 4, HunYuan, LFM2 (Liquid), Seed-OSS, SmolVLM2, Plano-Orchestrator |
性能优化矩阵
Axolotl 在性能优化方面投入了大量工程精力:
# 注意力后端全家桶 |
云原生与 CI/CD
# 拉取预置配置 |
适用场景
- RLHF/GRPO 强化学习研究:Axolotl 是目前开源社区中 GRPO 和 PRM 支持最完善的框架,适合做 RL 对齐实验。
- 多模态模型全栈训练:同时需要训练 VLM(视觉)和 Audio(音频)模型的团队,使用同一框架统一管理管线。
- 云原生大规模训练:需要多节点(Torchrun/Ray)+ 混合并行(FSDP + Tensor Parallel + Sequence Parallel)的生产级训练任务。
- YAML 驱动的实验管理:对实验复现性要求极高的研究团队,每个实验一个 YAML 文件,Git 托管即可追溯全部历史。
- 偏好对齐算法对比:在同一框架中标准化对比 DPO、KTO、ORPO、SimPO、GDPO 等算法的效果。
快速上手
安装
# 使用 uv 安装(推荐) |
YAML 配置详解
以 Llama-3.2-1B 的 LoRA 微调为例,配置文件 examples/llama-3/lora-1b.yml:
# ---- 模型 ---- |
执行训练
# 单卡训练 |
源码架构
src/axolotl/ |
核心设计模式:
- Schema-Driven Config:
axolotl config-schema命令暴露全部配置项的 JSON Schema,实现配置自动补全和校验。 - Trainer Factory:根据 YAML 中的训练类型自动选择对应训练器(SFT/RM/RL/PT),共享数据管线。
- 插件式并行后端:FSDP1、FSDP2、DeepSpeed 通过配置切换,训练器层面无感知。
- AI Agent 文档:内置
agent-docs命令,为 Cursor、Claude Code 等 AI 编程工具提供上下文文档。
实操 Demo
以下演示使用 Axolotl 完成 Qwen3-1B 的 GRPO 数学推理强化学习。
步骤 1:准备 GRPO 配置
创建 grpo_qwen3_math.yml:
base_model: Qwen/Qwen3-1B-Instruct |
步骤 2:启动 GRPO 训练
axolotl train grpo_qwen3_math.yml |
步骤 3:验证训练结果
训练完成后,使用 axolotl 的推理接口进行验证:
# axolotl 原生推理 |
步骤 4:批量评估
利用 Axolotl 的 eval harness 集成:
axolotl eval ./merged/qwen3-grpo-math \ |
同类对比
| 维度 | Axolotl | LLaMA-Factory | unsloth |
|---|---|---|---|
| Star 数 | 12k | 72.2k | 66.6k |
| 配置方式 | 单 YAML 文件 | 多 YAML 文件 | Python API + WebUI |
| GRPO 支持 | 原生完整支持 | 不支持 | 原生支持(80% 显存节省) |
| PRM 支持 | 支持 | 不支持 | 不支持 |
| 多模态 | VLM + Audio | 图像/视频/音频全面 | VLM GRPO |
| 多节点并行 | Torchrun / Ray + FSDP/DeepSpeed | DeepSpeed | 多 GPU |
| 云存储 | S3/Azure/GCP/OCI | 本地 + HF | 本地 + HF |
| 配置校验 | JSON Schema 自动补全 | YAML 手动检查 | Python 运行时检查 |
| Docker | 官方镜像 | 社区镜像 | 官方镜像 |
| AI 文档 | 内置 agent-docs | 无 | 无 |
| 学习曲线 | 中等(YAML 参数较多) | 中等 | 低 |
| 许可证 | Apache-2.0 | Apache-2.0 | Apache-2.0 + AGPL-3.0 |
Axolotl 的核心差异化优势在于强化学习和云原生能力。如果你的团队主要做 RLHF/GRPO 对齐研究,或者需要多节点大规模训练,Axolotl 是首选。LLaMA-Factory 在模型覆盖和训练方法广度上更全面,unsloth 在单卡性能优化上更极致。三者在实际项目中经常组合使用:用 unsloth 加速、用 Axolotl 管理配置和 RL、用 LLaMA-Factory 做多模态 SFT。
参考资源
- GitHub 仓库: https://github.com/axolotl-ai-cloud/axolotl
- 官方文档: https://docs.axolotl.ai
- Docker Hub: https://hub.docker.com/r/axolotlai/axolotl
- PyPI: https://pypi.org/project/axolotl/
- 示例配置库: examples/ — 涵盖 Llama/Qwen/Mistral/Gemma 等全部模型家族
- Agent 文档命令:
axolotl agent-docs --list— 列出全部训练类型的 AI 可读文档


