GitHub: unslothai/unsloth
Stars: 66,600+ | Language: Python (66.3%), TypeScript (26.7%), Rust (2.1%)
License: Apache-2.0(Core) / AGPL-3.0(Studio UI)
最新版本: v0.1.464-beta(2026 年 6 月 12 日)
目录
项目速览
unsloth 是目前大模型社区中最激进的训练加速项目,由 unslothai 团队开发维护,GitHub 66.6k Star。它的核心竞争力在于自研 Triton 和数学内核——团队直接手写了 RoPE、MLP、Cross-Entropy 等底层算子的 CUDA/Triton 实现,绕开了 HuggingFace Transformers 中的通用路径,从而在不损失精度的前提下将训练速度提升 1.5-2 倍,同时将显存占用降低 50-70%。
与 LLaMA-Factory 和 Axolotl 的”大而全”定位不同,unsloth 走的是”极致优化”路线。它不仅提供 Python 库(unsloth Core),还推出了 Unsloth Studio——一套基于 WebUI 的可视化训练和推理环境,支持从数据集构建、模型训练、强化学习到 GGUF 导出的完整工作流。
项目与 PyTorch 和 HuggingFace 团队保持密切合作,其内核优化已被整合到官方 Transformers 库中。2026 年 6 月发布的 v0.1.464-beta 已支持 Gemma 4、Qwen3.6、gpt-oss 等最新模型。unsloth 也是首个在消费级 GPU(RTX 3090/4090)上实现 500K 上下文训练和 FP8 视觉强化的框架。
功能概述
训练加速内核
unsloth 的核心优势来自手工优化的算子:
| 优化技术 | 效果 | 原理 |
|---|---|---|
| 手写 Triton RoPE Kernel | 训练速度提升 30% | 融合位置编码计算与注意力计算,减少显存读写 |
| 手写 MLP/Cross-Entropy Kernel | 反向传播加速 2x | 融合 SwiGLU + Cross-Entropy,消除中间张量存储 |
| Padding-Free + Packing | 训练加速 3x,显存节省 30% | 将多个短序列拼接为单个长序列,消除无效计算 |
| MoE 专用 Kernel | MoE 训练加速 12x,显存节省 35% | 优化 Expert 路由和负载均衡的并行策略 |
| 4-bit QLoRA 量化 | 7B 模型仅需 6GB 显存 | 独创的 4-bit 量化算法,精度与 16-bit 持平 |
| FP8 训练 | 显存再节省 50% | H100/B200 FP8 Tensor Core 加速 |
| GRPO 强化学习 | RL 训练显存节省 80% | 优化的批量采样和奖励计算管线 |
模型支持
500+ 模型通过 HuggingFace 通用适配,官方提供了针对以下模型家族的细化 Notebook:
- Gemma 4 (E2B)
- Qwen3.5 (4B) / Qwen3.6 (35B-A3B MoE)
- gpt-oss (20B MoE)
- Llama 3.1 (8B) / Llama 3.2 (1B/3B) / Llama 4
- Mistral / Ministral 3 (3B) / Mistral Medium
- DeepSeek (MoE)
- Phi-4 / Orpheus-TTS (3B) / GLM / embeddinggemma (300M)
Unsloth Studio — 可视化训练环境
# 一键启动 WebUI |
Studio 提供了:
- 模型搜索、下载与一键部署(GGUF、LoRA、safetensors 互转)
- 自动从 PDF/CSV/DOCX 构建数据集,节点式可视化编辑
- 实时训练监控(Loss 曲线、GPU 使用率)
- 自修复工具调用(Tool Calling)和联网搜索
- OpenAI 兼容 API 端点(可直接接入 Claude Code、Codex 等工具)
适用场景
- 消费级 GPU 微调大模型:在 RTX 3090/4090(24GB)上微调 Llama-3.1-8B 甚至 70B(4-bit),适合个人开发者和学生。
- 超长上下文训练:需要在 80GB GPU 上训练 500K 上下文的 20B 模型时,unsloth 几乎是唯一可行的方案。
- GRPO 强化学习:想在消费级 GPU 上跑大模型 RL 对齐实验,unsloth 的 GRPO 显存优化(80% 节省)是关键。
- MoE 模型微调:DeepSeek、Qwen MoE、gpt-oss 等稀疏专家模型的训练,unsloth 的 MoE Kernel 提供 12x 加速。
- 快速原型与教学:通过 Unsloth Studio 的 WebUI 零代码完成从数据到部署的全流程,适合教学和快速验证。
快速上手
安装 Unsloth Studio(推荐)
# macOS / Linux / WSL |
安装 Unsloth Core(Python 库)
# Linux / WSL |
高级安装选项:
# 仅 GGUF 推理(无需 PyTorch) |
Docker 部署
docker run -d \ |
性能基准
| 模型规模 | 训练方法 | 显存需求 | 加速比 |
|---|---|---|---|
| 7B | LoRA (16-bit) | 16GB | 1.5x |
| 7B | QLoRA (4-bit) | 6GB | 2x |
| 14B | QLoRA (4-bit) | 12GB | 2x |
| 70B | QLoRA (4-bit) | 48GB | 1.8x |
| MoE (如 DeepSeek-V2) | LoRA | 比标准方案少 35% | 12x |
| 20B (500K ctx) | Full | 80GB | — |
源码架构
unsloth 的项目组织围绕内核优化展开:
unsloth/ |
核心设计模式:
- 猴子补丁注入:在模型加载时动态替换 HuggingFace 的注意力、MLP、归一化等模块为 unsloth 的优化版本,无需修改模型代码。
- 内核融合:将多个连续算子(如 RoPE + Attention、SwiGLU + Cross-Entropy)融合为单个 Triton Kernel,消除中间结果的显存读写。
- 派生式适配:每个模型家族拥有独立的适配文件,通过继承 HuggingFace 的模型类并重写关键方法来注入优化。
- 双重许可:Core 库使用 Apache 2.0 保证社区可用性;Studio UI 采用 AGPL 3.0 保护商业利益。
实操 Demo
以下演示在单张 RTX 3090(24GB)上使用 Unsloth Studio 完成 Qwen3.5-4B 的 GRPO 强化学习训练。
步骤 1:启动 Studio
unsloth studio -p 8888 |
浏览器打开 http://localhost:8888,进入 Studio 主界面。
步骤 2:选择模型与数据集
在 Studio 界面中:
- 模型选择:搜索
Qwen3.5-4B-Instruct,点击下载 - 数据 Recipe:选择 “GRPO - Math Reasoning”
- 数据集自动从 HuggingFace 下载并预处理
步骤 3:配置 GRPO 参数
Studio 自动生成的等效 Python 配置逻辑:
from unsloth import FastModel, FastGRPOTrainer |
步骤 4:训练与导出
# 训练过程中 Studio 实时显示 Loss 和奖励曲线 |
# 编程方式导出 |
同类对比
| 维度 | unsloth | LLaMA-Factory | Axolotl |
|---|---|---|---|
| 核心理念 | 内核级性能优化 | 统一微调框架 | YAML 驱动的训练管线 |
| 训练加速 | 1.5x-2x(自研 Triton Kernel) | 标准(集成 unsloth 可选) | 标准(集成 Liger Kernel) |
| 显存优化 | 50-70% 节省 | QLoRA 2-8 bit | QLoRA + FP8 |
| GRPO 强化学习 | 80% 显存节省 | 不支持 | 原生支持 |
| 配置方式 | Python API + Studio WebUI | YAML CLI | YAML CLI |
| 超长上下文 | 500K tokens (20B 模型) | 受限于 Flash Attention | 支持序列并行 |
| MoE 加速 | 12x | 标准 | 通过 ScatterMoE |
| 多模态 | VLM GRPO | 图像/视频/音频全面 | 图像/音频 |
| 学习曲线 | 低(Notebook 交互 + WebUI) | 中等 | 中等 |
| 开源协议 | Apache-2.0 + AGPL-3.0 | Apache-2.0 | Apache-2.0 |
unsloth 的核心优势在于”极致性能”——如果你的瓶颈是显存不足或训练太慢,unsloth 是最直接有效的解决方案。LLaMA-Factory 和 Axolotl 甚至内置了 unsloth 作为可选的加速后端。但 unsloth 的模型适配需要手工编写内核,对新模型的支持通常比 LLaMA-Factory 慢 1-2 周。
参考资源
- GitHub 仓库: https://github.com/unslothai/unsloth
- 官方文档: https://unsloth.ai/docs
- Studio 文档: https://unsloth.ai/docs/new/studio
- 技术博客: https://unsloth.ai/blog
- Colab Notebooks: https://unsloth.ai/ — 每个模型家族均有对应的交互式 Notebook
- HuggingFace 组织: https://huggingface.co/unsloth
- Docker Hub: https://hub.docker.com/r/unsloth/unsloth


