DiT (Scalable Diffusion Models with Transformers)

alt text

太好了，這張圖就是 DiT（Diffusion Transformer） 家族的典型模組。下面用「歷史 → 解痛點 → 能做什麼 → 誰在用」四段超清楚帶你過一遍。

1) DiT 的小歷史

2020–2022： 主流擴散模型都用 U-Net 當骨幹（如 DDPM、Latent Diffusion）。
2022/2023：DiT 提出：把 LDM 的 U-Net 換成 Vision Transformer，把潛在特徵「patchify → 送進 Transformer」，並用簡潔的條件注入（如 adaLN-Zero）。結果顯示：模型/序列越大，FID 越穩定下降，而且在 ImageNet 256/512 上拿到 SOTA。(arXiv)

可擴展性（Scaling law）：U-Net 放大常受限；Transformer 易於堆深/堆寬、拿到更好的算力並行（張量並行、Flash-Attention 等），算力↑ → 質量穩步↑。(arXiv)
全域關係：自注意力能在單步就看全圖（或時空）token，長距依賴與高解析度表現更穩。(CVF Open Access)
條件融合更自然：把時間步、標籤或文字 token 一起丟進 Transformer；像 SD3 的 MMDiT 甚至把文字/影像各自用獨立權重，但在注意力時合併序列，對齊更好。(Stability AI)
與 LLM 工程生態對齊：可直接複用 Transformer 訓練技巧與基礎設施，特別對大型影像/影片生成很關鍵。(yenchenlin.github.io)

原始 DiT（Peebles & Xie）— 以 ViT 替代 U-Net 的 LDM 骨幹，ImageNet 上達 SOTA。(CVF Open Access)
Stable Diffusion 3 / 3.5— 採用 MMDiT（Multimodal DiT），文字/影像分別一套權重、注意力時合併序列。(Stability AI)
PixArt-α / PixArt-Σ— 以 DiT 為核心的 T2I，主打高效訓練與最高可到 4K 解析度。(arXiv)
Hunyuan-DiT— 騰訊開源的 T2I Diffusion Transformer，中英文理解細緻。(GitHub)
HunyuanVideo— 開源影片生成，採 Transformer 全注意力的擴散式影片骨幹（DiT 系譜）。(GitHub)
FLUX.1（Black Forest Labs）— 以 Diffusion Transformer / MMDiT 類設計為核心的 T2I 家族。(Hugging Face)
OpenAI Sora— 官方技術頁明講「Sora is a diffusion transformer」，以時空 patch運作的可擴展影片模型。(OpenAI)

DiT = 把擴散的「去噪骨幹」換成 Transformer。 它帶來更好的可擴展性、全域建模與多模態融合，因此從高畫質影像到長時長影片的生成，最新一代模型多半都往 DiT/MMDiT 系列演進。