深度学习-15-深入理解BERT的子词Tokenization算法

8 阅读 0 评论 0 点赞

BERT(Bidirectional Encoder Representations from Transformers)

1 子词Tokenization算法简介

子词Tokenization(可以理解为分词)在很多SOTA NLP模型上得到广泛的使用，包括BERT和GPT-3。
它能很有效的处理未登陆词。

假设我们有一个训练数据集。
我们从这个训练数据集中构建一个词表。
为了构建该词表，我们将数据集中的文本拆分成单词，然后把唯一的单词加入到词表。
通常，词表包含很多单词(标记)，为了举例的简单，假设我们的词表只包含下面的单词：

vocabulary = [game, the, I, played, walked, enjoy]

现在我们有了词表，然后我们基于该词表来对输入进行分词。
考虑输入句子I played the game。
在英文中，

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

点赞(0) 打赏