1、RMSNorm(RMS归一化)介绍
RMSNorm(RMS归一化)介绍-CSDN博客
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
https://zhuanlan.zhihu.com/p/691227850
十分钟读懂旋转编码(RoPE)
十分钟读懂旋转编码(RoPE)
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA – 科学空间|Scientific Spaces
正交微调OFT
条件扩散模型:Classifier-Guidance
https://zhuanlan.zhihu.com/p/686864187
条件扩散模型:Classifier-free Guidance
https://zhuanlan.zhihu.com/p/703579064
prompt2prompt
diffusion model(十四): prompt-to-prompt 深度剖析-CSDN博客
AIGC面试常考的评价指标大家都清楚吗?
https://zhuanlan.zhihu.com/p/693463490
InstructPix2Pix:用指令给图像做修改
https://zhuanlan.zhihu.com/p/660353664
实时AI绘画模型SDXL Turbo核心基础知识详解
实时AI绘画模型SDXL Turbo核心基础知识详解-CSDN博客
SD3-turbo,围绕SD3的加速&蒸馏算法方案
https://zhuanlan.zhihu.com/p/688746889
多头注意力机制经典pytorch实现
https://zhuanlan.zhihu.com/p/679950971
SigLIP技术小结
https://zhuanlan.zhihu.com/p/741515848
Rectified Flow 原理简介与示例代码解读
Rectified Flow 原理简介与示例代码解读-CSDN博客
FLUX.1 原理与源码解析
https://zhuanlan.zhihu.com/p/741939590
Stable Diffusion 3「精神续作」FLUX.1 源码深度前瞻解读_flux源码-CSDN博客
OpenVision:开源视觉编码器家族,打破CLIP垄断,开启多模态学习新纪元
https://zhuanlan.zhihu.com/p/1905998408667336943
360CVGroup发布FG-CLIP:突破视觉与语言细粒度对齐的边界
https://zhuanlan.zhihu.com/p/1905573129234907741
字节团队发布Mogao:一个用于交错式多模态生成的全能基础模型
https://zhuanlan.zhihu.com/p/1904169149179077155
字节团队发布SuperEdit:革新图像编辑监督信号,用高质量指令解锁精准编辑新境界
https://zhuanlan.zhihu.com/p/1903857906153158002
X-Fusion:为冻结大语言模型引入新模态的革命性框架
https://zhuanlan.zhihu.com/p/1903369473051854744
GILL:用多模态大语言模型生成图片
https://zhuanlan.zhihu.com/p/676383135
ICLR 2024 感知+生成多模态大模型 DreamLLM
https://zhuanlan.zhihu.com/p/695700682
100万token,一次能分析1小时YouTube视频,「大世界模型」火了
https://zhuanlan.zhihu.com/p/682809059
https://zhuanlan.zhihu.com/p/682825577
暂无评论内容