gpt、llama大模型模型结构细节探索

54 阅读 0 评论 0 点赞

参考：
https://github.com/naklecha/llama3-from-scratch（一定要看看）
https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频：
https://www.youtube.com/watch?v=l8pRSuU81PU
在这里插入图片描述

https://tiktokenizer.vercel.app/ （可以查看场景大模型的tiktokenizer具体值encode与decode）
在这里插入图片描述

可以通过transformers加载模型查看具体结构和权重情况：

from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

在这里插入图片描述
可以查看打印每层权重：

sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")

在这里插入图片描述

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » gpt、llama大模型模型结构细节探索

点赞(0) 打赏

本文分类：文章资讯
本文标签：gpt、llama大模型模型结构细节探索
浏览次数：54 次浏览
本文链接：https://freeymw.com/article/9936.html

上一篇 > python数据分析——聚类
下一篇 > 前台怎么调用Oracle proc过程

gpt、llama大模型模型结构细节探索

可以通过transformers加载模型查看具体结构和权重情况：

评论列表共有 0 条评论

发表评论取消回复

gpt、llama大模型模型结构细节探索

可以通过transformers加载模型查看具体结构和权重情况：

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复