1. 引言

前面一篇文章欺诈文本分类微调(一):基座模型选型记录了选择基座模型的过程,本文主要来介绍下如何获得训练模型需要的数据集,特别是与诈骗有关的对话数据集。

我们需要什么样的数据集呢?

  • 文本形式:会议场景的欺诈分析主要针对参会人的发言内容进行文本分析。
  • 对话格式:会议场景的诈骗是通过人与人之间的对话发生的,对话格式要比事后报道更贴合。
  • 语言:最好是中文

因此,需要先查找可用的数据集。

2. 查找数据集

我们想到了以下几种途径:

  1. 去HuggingFace以及modelscope等开源模型网站上查找是否有相关领域的数据集。
  2. 去一些防诈骗网站(例如:反诈中心)上找公开介绍的诈骗案例,或者可直接下载的数据集。
  3. 让chatgpt来生成诈骗话术。
开源网站

我们在开源网站使用fraud关键字进行搜索,最终找到的与欺诈相关的数据集只有下面几个:

数据集地址 数据集内容 语言/格式 可用性评估
Fraud_Case_Verdicts 各法院关于犯罪的判决书内容,也包括欺诈相关的犯罪案例 繁体中文/csv 主要内容为法院的犯罪判决书,不太适用于欺诈对话语料
Amazon-Fraud) 金融欺诈类的交易数据 matlab 主要内容为交易数字,没有文本,不适用。
Fraud_News_Reports 各个地方新闻网站上发布过的诈骗案例报道 简体中文/csv 报道的这些诈骗案例是我们需要的内容领域,但不是对话格式,无法直接拿来使用
防诈骗网站

有一个全民反诈中心:https://www.ww12321.com/ , 主要是关于如何预防诈骗的,并没有可直接下载的数据集。

再有就是门户网站上会有一些关于诈骗案例的新闻报道,内容形式和Fraud_News_Reports里收集的案例差不多,也没有可以直接下载的数据集。

GPT生成话术

我们尝试让GPT来生成10个关于诈骗内容的对话案例,它的输出内容如下。

以下是10个常见的诈骗对话文本,用于训练欺诈文本分类模型:

1.
骗子: 您好,我是某某银行的客服,您的账户出现异常活动,需要您提供账户信息以便我们验证。
受害者: 真的?我应该怎么做?
骗子: 请您提供您的账号和密码,方便我们为您处理。

2.
骗子: 恭喜您中奖!请点击以下链接并填写个人信息以领取奖品。
受害者: 是什么奖品?我怎么知道这不是骗局?
骗子: 我们是正规公司,您可以通过官方网站查询。

3.
骗子: 您的账户存在异常活动,请立即登录我们的网站以确认身份。
受害者: 我需要提供哪些信息?
骗子: 请提供您的用户名、密码和验证码。

4.
骗子: 您好,我们是某某公司,您的账户欠费,请立即支付小额费用以避免账户冻结。
受害者: 我需要支付多少?
骗子: 只需支付100元,您可以通过以下链接进行支付。

5.
骗子: 我们发现您的信用卡有可疑交易,请提供卡号以便核实。
受害者: 我的卡号是xxxxxxxxxxxxxxx。
骗子: 谢谢,我们会尽快为您处理。

6.
骗子: 您好,您的手机号码被抽中获得大奖,请回复此短信领取。
受害者: 我需要做什么?
骗子: 请回复您的姓名和身份证号码,我们会为您安排领奖。

7.
骗子: 您的亲属遇到紧急情况,请立即汇款到以下账户。
受害者: 发生了什么事?
骗子: 请尽快汇款5000元到这个账号,否则会有严重后果。

8.
骗子: 我们是某某公司,请支付未结清的账单以避免法律诉讼。
受害者: 我什么时候欠的账?
骗子: 您的账户有未支付的费用,请立即付款以避免法律问题。

9.
骗子: 恭喜您获得免费旅游,请提供身份证号码进行登记。
受害者: 我怎么知道这不是骗局?
骗子: 我们是正规旅行社,您可以通过官网查询相关信息。

10.
骗子: 您的电脑感染了病毒,请下载附件中的软件进行修复。
受害者: 我应该相信这是真的吗?
骗子: 是的,请立即下载并运行附件中的软件,以免造成更多损失。

让GPT生成诈骗话术时有两个明显的缺点:

  1. 由于没有具体的故事背景,它只能将常见的诈骗话术进行罗列,缺少前后铺垫,构不成完整的案例。
  2. 生成大量数据集时避免不了多次调用GPT,而多次调用的结果是难以避免重复的,并且调用的次数越多,重复率越高。
综合分析

从上面来看,几种途径均没有直接可用的数据集,但有一个想法或许可行:将上面的途径一和途径三结合起来,即以Fraud_New_Reports的诈骗案例为内容背景,调用GPT生成我们需要的对话数据集。

Fraud_New_Reports中的案例内容示例如下:

<截图>
如果将上面表格截图中的F列内容作为上下文,让GPT以此上下文作为背景,生成此故事所描述的对话集,并打上分类标签加以训练,理论上能实现我们想要的目标,但需要实际验证下。

3. 对话生成验证

3.1 预览数据

Fraud_New_Reports中的原始案例集是csv格式,我们使用pandas提供的read_csv函数来加载整个表格的数据,使用head函数来预览数据集的前几条内容。

import pandas as pd

file = "/Users/a200007/work/ucgit/github/fraud/dataset/Fraud_News_Reports/冒充客服诈骗(200).csv"
dataset = pd.read_csv(file)
dataset.head()
标题 标题链接 首页缩略封面图 首页缩略文段 发布者 文章正文内容 图片链接
0 近期高发!警惕冒充电商物流客服骗局!视频↘ https://so.toutiao.com/search/jump?url=http%3A... NaN 深入揭批电信网络诈骗套路手法,进一步增强知诈、识诈、防诈、反诈意识,筑牢反诈“防火墙”。 冒... 平安哈尔滨 为全面提升群众防范电信网络诈骗能力和水平,增强安全防范意识,哈尔滨市委政法委认真梳理归纳出目... NaN
1 假客服,真诈骗!受害人现身说法! https://so.toutiao.com/search/jump?url=http%3A... http://p1-tt.byteimg.com/img/tos-cn-i-qvj2lq49... 1、诈骗分子往往通过不法渠道获取到公民个人信息,再利用192”+、00”开头的境外号码、“区... 潍坊网警 假客服,真诈骗!受害人现身说法!\n\n“您好,我是京东客服”\n\n“不关闭京东金条,会影... https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq...
2 被骗100余万!又是假冒客服诈骗,16人落网 https://so.toutiao.com/search/jump?url=http%3A... https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges... 电信诈骗案案件回顾近日,牡丹分局北城派出所接到辖区居民陈某报警,称其遭遇冒充客服诈骗,被骗1... 环球网 来源:菏泽公安\n\n“双11”刚刚过去\n\n“双12”又紧跟着要来了\n\n网购过后的你... https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges...
3 警惕!冒充客服类诈骗 https://so.toutiao.com/search/jump?url=http%3A... https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0... 冒充客服诈骗主要分为以下几类 01 网购商品出现问题或免费赠送小家电 一是冒充淘宝、京东、抖... 平安石柱 网络购物的快速发展\n\n让人们享受到了其带来的便利\n\n也产生了一大批网购达人\n\n当... https://p3-sign.toutiaoimg.com/tos-cn-i-axegup...
4 又出新花招!!“平台客服”骗局它来了 https://so.toutiao.com/search/jump?url=http%3A... https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges... 接下来给大家分析一下冒充客服诈骗的手法第一步:事主接到电话(固话、手机号码),嫌疑人自称“平... 广州公安 NaN NaN

上面表格中的文章正文内容列是案例报道的正文࿰

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部