现有的背景:

我们需要把几千万企业挂靠到一个或多个国家二级行业(企业在国民经济行业分类里隶属的行业类别,分类有农、林、牧、渔业等),使用当前的大模型或传统的BERT模型存在准确率低或性能差的问题,不能满足业务及系统要求。

现有技术方案:

方案1、使用100M以上的NLP传统bert模型进行类目预测:

1.1)其能够预测的数量为10个左右,业务需要预测100个左右,数量上不能满足要求;

1.2)该模型超过10个会导致预测准确率大幅下降,比如类目10个以内准确率会在80%左右,国家标准行业类别有97个准确率会下降到30%以内,业务要求准确率80%以上,不能满足业务需要

1.3)该方案在线实时进行类目预测耗时在100ms左右,API响应时间勉强满足要求。

方案2、使用大模型进行类目预测:qwen1.5 72b

2.1)支持把企业分类到97个行业

2.2)准确率在40%左右,业务要求准确率80%以上,不能满足业务需要

2.3)API响应时间在1000ms以上,不能满足要求。

问题:产品业务需要预测100个左右的类目,准确率在80%以上,API响应时间需要在100ms以内,现有开源的模型不能同时满足这些要求。

现有技术问题的推导:

1、使用大模型得到初步的结构化数据D,解决训练集获取难的问题

2、使用步骤1中的数据D,进一步清洗得到高准确度的训练数据S

3、使用步骤2中的数据S训练一个小模型,得到一个高准确率及性能满足要求的模型M,解决准确率低、预测数目少、API响应时间长的问题

新方案:

优化后的技术方案:

最终实现的方案:分5步实现

1、通过各种渠道获取企业介绍、当前售卖的产品、业务介绍等非结构化的文本数据

2、通过大模型使用步骤1的数据对企业进行分类,并提取主营产品词,提取的样例数据如下:

3、清洗加工步骤2生成的5000多万数据,得到高准确率的30万数据,作为下一步bert模型训练数据S,数据加工步骤如下:

首先:统计5000多万个企业:产品词与行业分类词的关系及出现的次数,同一个产品词需要合并所有结果并统计各个行业分类的数量,比如第2步中的数据统计结果并排序如下:

然后:针对每个产品词-行业分类词(出现次数),把出现次数小于10的去掉,得到可信度非常高的产品词与行业分类的映射数据,比如示例数据中把次数小于2的去掉后结果如下:

最终从5000万准确率为40%的数据中清洗得到准确率接近100%的数据,把这些数据作为下一步模型的训练集

4、使用步骤3的数据集S训练已预训练过的bert模型bert-base-chinese,生成训练后的类目预测模型M

5、使用步骤4生成的模型M部署到生产环境,准确率98%,api响应时间100ms以内,效果及性能均满足业务需要。

最张的技术效果: 

1、能够预测的类目数量从原来的10个左右提升到100个左右

2、类型预测准确率:从原来的30%~40%提升到98%左右

3、API响应时间从原来的1000ms以上,降低到50ms左右

总结:

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部