企业行业分类【BERT bert-base-chinese】

4 阅读 0 评论 0 点赞

现有的背景:

我们需要把几千万企业挂靠到一个或多个国家二级行业（企业在国民经济行业分类里隶属的行业类别，分类有农、林、牧、渔业等），使用当前的大模型或传统的BERT模型存在准确率低或性能差的问题，不能满足业务及系统要求。

现有技术方案:

方案1、使用100M以上的NLP传统bert模型进行类目预测：

1.1）其能够预测的数量为10个左右，业务需要预测100个左右，数量上不能满足要求；

1.2）该模型超过10个会导致预测准确率大幅下降，比如类目10个以内准确率会在80%左右，国家标准行业类别有97个准确率会下降到30%以内，业务要求准确率80%以上，不能满足业务需要。

1.3）该方案在线实时进行类目预测耗时在100ms左右，API响应时间勉强满足要求。

方案2、使用大模型进行类目预测：qwen1.5 72b

2.1）支持把企业分类到97个行业

2.2）准确率在40%左右，业务要求准确率80%以上，不能满足业务需要。

2.3）API响应时间在1000ms以上，不能满足要求。

问题：产品业务需要预测100个左右的类目，准确率在80%以上，API响应时间需要在100ms以内，现有开源的模型不能同时满足这些要求。

现有技术问题的推导:

1、使用大模型得到初步的结构化数据D，解决训练集获取难的问题

2、使用步骤1中的数据D，进一步清洗得到高准确度的训练数据S

3、使用步骤2中的数据S训练一个小模型，得到一个高准确率及性能满足要求的模型M，解决准确率低、预测数目少、API响应时间长的问题

新方案：

优化后的技术方案:

最终实现的方案：分5步实现

1、通过各种渠道获取企业介绍、当前售卖的产品、业务介绍等非结构化的文本数据

2、通过大模型使用步骤1的数据对企业进行分类，并提取主营产品词，提取的样例数据如下：

3、清洗加工步骤2生成的5000多万数据，得到高准确率的30万数据，作为下一步bert模型训练数据S，数据加工步骤如下：

首先：统计5000多万个企业：产品词与行业分类词的关系及出现的次数，同一个产品词需要合并所有结果并统计各个行业分类的数量，比如第2步中的数据统计结果并排序如下：

然后：针对每个产品词-行业分类词（出现次数），把出现次数小于10的去掉，得到可信度非常高的产品词与行业分类的映射数据，比如示例数据中把次数小于2的去掉后结果如下：

最终从5000万准确率为40%的数据中清洗得到准确率接近100%的数据，把这些数据作为下一步模型的训练集

4、使用步骤3的数据集S训练已预训练过的bert模型bert-base-chinese，生成训练后的类目预测模型M

5、使用步骤4生成的模型M部署到生产环境，准确率98%，api响应时间100ms以内，效果及性能均满足业务需要。

最张的技术效果:

1、能够预测的类目数量从原来的10个左右提升到100个左右

2、类型预测准确率：从原来的30%~40%提升到98%左右

3、API响应时间从原来的1000ms以上，降低到50ms左右

总结：

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

点赞(0) 打赏

暂无评论