unsloth — Triton 内核级大模型训练加速神器

GitHub: unslothai/unsloth
Stars: 66,600+ | Language: Python (66.3%), TypeScript (26.7%), Rust (2.1%)
License: Apache-2.0（Core） / AGPL-3.0（Studio UI）
最新版本: v0.1.464-beta（2026 年 6 月 12 日）

项目速览

unsloth 是目前大模型社区中最激进的训练加速项目，由 unslothai 团队开发维护，GitHub 66.6k Star。它的核心竞争力在于自研 Triton 和数学内核——团队直接手写了 RoPE、MLP、Cross-Entropy 等底层算子的 CUDA/Triton 实现，绕开了 HuggingFace Transformers 中的通用路径，从而在不损失精度的前提下将训练速度提升 1.5-2 倍，同时将显存占用降低 50-70%。

与 LLaMA-Factory 和 Axolotl 的”大而全”定位不同，unsloth 走的是”极致优化”路线。它不仅提供 Python 库（unsloth Core），还推出了 Unsloth Studio——一套基于 WebUI 的可视化训练和推理环境，支持从数据集构建、模型训练、强化学习到 GGUF 导出的完整工作流。

项目与 PyTorch 和 HuggingFace 团队保持密切合作，其内核优化已被整合到官方 Transformers 库中。2026 年 6 月发布的 v0.1.464-beta 已支持 Gemma 4、Qwen3.6、gpt-oss 等最新模型。unsloth 也是首个在消费级 GPU（RTX 3090/4090）上实现 500K 上下文训练和 FP8 视觉强化的框架。

功能概述

训练加速内核

unsloth 的核心优势来自手工优化的算子：

优化技术	效果	原理
手写 Triton RoPE Kernel	训练速度提升 30%	融合位置编码计算与注意力计算，减少显存读写
手写 MLP/Cross-Entropy Kernel	反向传播加速 2x	融合 SwiGLU + Cross-Entropy，消除中间张量存储
Padding-Free + Packing	训练加速 3x，显存节省 30%	将多个短序列拼接为单个长序列，消除无效计算
MoE 专用 Kernel	MoE 训练加速 12x，显存节省 35%	优化 Expert 路由和负载均衡的并行策略
4-bit QLoRA 量化	7B 模型仅需 6GB 显存	独创的 4-bit 量化算法，精度与 16-bit 持平
FP8 训练	显存再节省 50%	H100/B200 FP8 Tensor Core 加速
GRPO 强化学习	RL 训练显存节省 80%	优化的批量采样和奖励计算管线

模型支持

500+ 模型通过 HuggingFace 通用适配，官方提供了针对以下模型家族的细化 Notebook：

Gemma 4 (E2B)
Qwen3.5 (4B) / Qwen3.6 (35B-A3B MoE)
gpt-oss (20B MoE)
Llama 3.1 (8B) / Llama 3.2 (1B/3B) / Llama 4
Mistral / Ministral 3 (3B) / Mistral Medium
DeepSeek (MoE)
Phi-4 / Orpheus-TTS (3B) / GLM / embeddinggemma (300M)

Unsloth Studio — 可视化训练环境

# 一键启动 WebUI
unsloth studio -p 8888

Studio 提供了：

模型搜索、下载与一键部署（GGUF、LoRA、safetensors 互转）
自动从 PDF/CSV/DOCX 构建数据集，节点式可视化编辑
实时训练监控（Loss 曲线、GPU 使用率）
自修复工具调用（Tool Calling）和联网搜索
OpenAI 兼容 API 端点（可直接接入 Claude Code、Codex 等工具）

适用场景

消费级 GPU 微调大模型：在 RTX 3090/4090（24GB）上微调 Llama-3.1-8B 甚至 70B（4-bit），适合个人开发者和学生。
超长上下文训练：需要在 80GB GPU 上训练 500K 上下文的 20B 模型时，unsloth 几乎是唯一可行的方案。
GRPO 强化学习：想在消费级 GPU 上跑大模型 RL 对齐实验，unsloth 的 GRPO 显存优化（80% 节省）是关键。
MoE 模型微调：DeepSeek、Qwen MoE、gpt-oss 等稀疏专家模型的训练，unsloth 的 MoE Kernel 提供 12x 加速。
快速原型与教学：通过 Unsloth Studio 的 WebUI 零代码完成从数据到部署的全流程，适合教学和快速验证。

快速上手

安装 Unsloth Studio（推荐）

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh

# Windows
irm https://unsloth.ai/install.ps1 | iex

# 启动 Studio
unsloth studio -p 8888

安装 Unsloth Core（Python 库）

# Linux / WSL
uv pip install unsloth --torch-backend=auto

# Windows
uv pip install unsloth --torch-backend=auto

高级安装选项：

# 仅 GGUF 推理（无需 PyTorch）
UNSLOTH_NO_TORCH=1 uv pip install unsloth

# 钉选 Python 版本
UNSLOTH_PYTHON=3.12 curl -fsSL https://unsloth.ai/install.sh | sh

# 限制 CPU 线程
UNSLOTH_CPU_THREADS=8 unsloth studio

Docker 部署

docker run -d \
  -e JUPYTER_PASSWORD="mypassword" \
  -p 8888:8888 -p 8000:8000 \
  --gpus all \
  unsloth/unsloth

性能基准

模型规模	训练方法	显存需求	加速比
7B	LoRA (16-bit)	16GB	1.5x
7B	QLoRA (4-bit)	6GB	2x
14B	QLoRA (4-bit)	12GB	2x
70B	QLoRA (4-bit)	48GB	1.8x
MoE (如 DeepSeek-V2)	LoRA	比标准方案少 35%	12x
20B (500K ctx)	Full	80GB	—

源码架构

unsloth 的项目组织围绕内核优化展开：

unsloth/
├── unsloth/                    # Python 核心库
│   ├── models/                 # 模型适配层（Llama、Mistral、Qwen、Gemma 等）
│   │   ├── llama.py            # Llama 系列的 Triton 内核注入
│   │   ├── mistral.py          # Mistral 系列
│   │   ├── qwen2.py            # Qwen2/3 系列
│   │   ├── gemma.py            # Gemma 系列
│   │   └── deepseek.py         # DeepSeek MoE 系列
│   ├── kernels/                # 自研 Triton/CUDA 内核
│   │   ├── rope_embedding.py   # 融合 RoPE Kernel
│   │   ├── cross_entropy.py    # 融合 Cross-Entropy Loss
│   │   ├── rms_layernorm.py    # 融合 RMS Norm
│   │   └── moe/                # MoE 专用内核
│   ├── save.py                 # 模型导出（GGUF、safetensors、16-bit）
│   └── chat_templates.py       # 对话模板管理
├── unsloth-studio/             # Studio WebUI（TypeScript + Rust）
│   ├── frontend/               # React 前端
│   ├── backend/                # FastAPI 后端
│   └── electron/               # 桌面应用
└── install.sh                  # 一键安装脚本

核心设计模式：

猴子补丁注入：在模型加载时动态替换 HuggingFace 的注意力、MLP、归一化等模块为 unsloth 的优化版本，无需修改模型代码。
内核融合：将多个连续算子（如 RoPE + Attention、SwiGLU + Cross-Entropy）融合为单个 Triton Kernel，消除中间结果的显存读写。
派生式适配：每个模型家族拥有独立的适配文件，通过继承 HuggingFace 的模型类并重写关键方法来注入优化。
双重许可：Core 库使用 Apache 2.0 保证社区可用性；Studio UI 采用 AGPL 3.0 保护商业利益。

实操 Demo

以下演示在单张 RTX 3090（24GB）上使用 Unsloth Studio 完成 Qwen3.5-4B 的 GRPO 强化学习训练。

步骤 1：启动 Studio

unsloth studio -p 8888

浏览器打开 http://localhost:8888，进入 Studio 主界面。

步骤 2：选择模型与数据集

在 Studio 界面中：

模型选择：搜索 Qwen3.5-4B-Instruct，点击下载
数据 Recipe：选择 “GRPO - Math Reasoning”
数据集自动从 HuggingFace 下载并预处理

步骤 3：配置 GRPO 参数

Studio 自动生成的等效 Python 配置逻辑：

from unsloth import FastModel, FastGRPOTrainer
from unsloth.chat_templates import get_chat_template

model, tokenizer = FastModel.from_pretrained(
    model_name="unsloth/Qwen3.5-4B-Instruct",
    max_seq_length=2048,
    load_in_4bit=True,  # 4-bit 量化
    fast_inference=True,
    gpu_memory_utilization=0.85,
)

model = FastModel.get_peft_model(
    model,
    r=16,               # LoRA rank
    lora_alpha=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
                    "gate_proj", "up_proj", "down_proj"],
    use_gradient_checkpointing="unsloth",
)

trainer = FastGRPOTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    args=GRPOConfig(
        per_device_train_batch_size=4,
        num_generations=8,       # 每 prompt 生成 8 条回复
        max_prompt_length=512,
        max_completion_length=1024,
        learning_rate=5e-6,
        beta=0.04,               # KL 散度惩罚系数
    ),
)

步骤 4：训练与导出

# 训练过程中 Studio 实时显示 Loss 和奖励曲线
# 完成后，导出为 GGUF 格式用于 Ollama 部署

# 编程方式导出
model.save_pretrained_gguf("qwen3.5-grpo-math", tokenizer)
# 输出: qwen3.5-grpo-math-Q4_K_M.gguf

维度	unsloth	LLaMA-Factory	Axolotl
核心理念	内核级性能优化	统一微调框架	YAML 驱动的训练管线
训练加速	1.5x-2x（自研 Triton Kernel）	标准（集成 unsloth 可选）	标准（集成 Liger Kernel）
显存优化	50-70% 节省	QLoRA 2-8 bit	QLoRA + FP8
GRPO 强化学习	80% 显存节省	不支持	原生支持
配置方式	Python API + Studio WebUI	YAML CLI	YAML CLI
超长上下文	500K tokens (20B 模型)	受限于 Flash Attention	支持序列并行
MoE 加速	12x	标准	通过 ScatterMoE
多模态	VLM GRPO	图像/视频/音频全面	图像/音频
学习曲线	低（Notebook 交互 + WebUI）	中等	中等
开源协议	Apache-2.0 + AGPL-3.0	Apache-2.0	Apache-2.0

参考资源

GitHub 仓库： https://github.com/unslothai/unsloth
官方文档： https://unsloth.ai/docs
Studio 文档： https://unsloth.ai/docs/new/studio
技术博客： https://unsloth.ai/blog
Colab Notebooks： https://unsloth.ai/ — 每个模型家族均有对应的交互式 Notebook
HuggingFace 组织： https://huggingface.co/unsloth
Docker Hub： https://hub.docker.com/r/unsloth/unsloth

目录