1.ping 网址
2.ssh nscc/l20
3.crtl+,打开vscode的setting
4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园
整体来看:
使用transformer作为其主干网络,代替了原先的UNet
在latent space进行训练,通过transformer处理潜在的patch
输入的条件(timestep 和 text/label )的四种处理方法:
In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量
Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q
Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。
adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。
整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。
由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。
本站资源均来自互联网,仅供研究学习,禁止违法使用和商用,产生法律纠纷本站概不负责!如果侵犯了您的权益请与我们联系!
转载请注明出处: 免费源码网-免费的源码资源网站 » Dit架构 diffusion范式分类+应用
发表评论 取消回复