BERT(Bidirectional Encoder Representations from Transformers)

1 子词Tokenization算法简介

子词Tokenization(可以理解为分词)在很多SOTA NLP模型上得到广泛的使用,包括BERT和GPT-3。
它能很有效的处理未登陆词。

1.1 单词级的Tokenization

假设我们有一个训练数据集。
我们从这个训练数据集中构建一个词表。
为了构建该词表,我们将数据集中的文本拆分成单词,然后把唯一的单词加入到词表。
通常,词表包含很多单词(标记),为了举例的简单,假设我们的词表只包含下面的单词:

vocabulary = [game, the, I, played, walked, enjoy]

现在我们有了词表,然后我们基于该词表来对输入进行分词。
考虑输入句子​​I played the game​​​。
在英文中,

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部