参考:
https://github.com/naklecha/llama3-from-scratch(一定要看看)
https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb
视频:
https://www.youtube.com/watch?v=l8pRSuU81PU
https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)
可以通过transformers加载模型查看具体结构和权重情况:
from transformers import GPT2LMHeadModel
model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()
for k, v in sd_hf.items():
print(k, v.shape)
可以查看打印每层权重:
sd_hf["transformer.wpe.weight"].view(-1)[:20]
import matplotlib.pyplot as plt
%matplotlib inline
plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")
本站资源均来自互联网,仅供研究学习,禁止违法使用和商用,产生法律纠纷本站概不负责!如果侵犯了您的权益请与我们联系!
转载请注明出处: 免费源码网-免费的源码资源网站 » gpt、llama大模型模型结构细节探索
发表评论 取消回复