[发明专利]基于分类模拟模型提升短信触达率的方法及装置有效
申请号: | 202110986162.7 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113434691B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 陈帆;其他发明人请求不公开姓名 | 申请(专利权)人: | 南京山猫齐动信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194;G06F40/247;G06F40/279;G06F40/30;G06N20/00 |
代理公司: | 江苏东银律师事务所 32381 | 代理人: | 江艳丽 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分类 模拟 模型 提升 短信 触达率 方法 装置 | ||
1.基于分类模拟模型提升短信触达率的方法,其特征在于,包括以下步骤:
步骤(1):将无标签的短信样本数据输入到真实的短信触达识别装置M0中,获得带二分类标签的短信样本数据D,对带二分类标签的短信样本数据D训练得到文本分类模拟模型M1;
步骤(2):将预发送的短信文本,经过分词和去除停用词处理后,得到预处理短信文本序列Xorg,将其输入到文本分类模拟模型M1中:
若模型预测结果M1(Xorg)=0,则发送短信;
若模型预测结果M1(Xorg)=1,则继续步骤(3);
步骤(3):将预处理短信文本序列Xorg生成对抗文本序列Xadv,包括以下步骤:
(31)固定信息抽取:对预处理短信文本序列Xorg进行短信固定信息抽取,获取短信签名wsig,同时进行短信内容中固定信息识别获得所有的固定信息词汇集合Xfix;
(32)确定影响因子集合:将预处理短信文本序列Xorg过滤掉其中的固定信息词汇集合,得到可以替换的词汇序列Xreplace=Xorg-Xfix;遍历逐个删除可替换的词汇序列Xreplace中的词汇,输入到文本分类模拟模型M1中进行预测;
Xorg/w表示预处理短信文本序列Xorg中删除了词汇w后的文本序列,当M1(Xorg/w)=0时,则w为影响因子词汇,遍历结束,得到影响因子词汇集合:Xfactor={wfac1 ,wfac2,…,wfack};
(33)构建同义词库:对步骤(2)的影响因子词汇集合Xfactor中的每一词汇wfack选择与其最相似的q个词汇,得到其同义词集合:
wfack_sim={wfack_sim1,wfack_sim2, …,wfack_simp,…, wfack_simq };
(34)生成对抗文本序列Xadv:
将预处理短信文本序列Xorg中每个影响因子词汇wfack逐个替换为其同义词Wfack_simp,然后依次输入到文本分类模拟模型M1中进行预测,依次遍历影响因子词汇集合Xfactor,如果M1=0,即替换的同义词改变预测结果,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv;
步骤(4):将对抗文本序列Xadv输入文本分类模拟模型M1中,使得M1(Xadv)=0,然后将对抗文本序列Xadv输入到真实的短信触达识别装置M0中:
若M0(Xadv)=0,则发送短信;
若M0(Xadv)=1,则返回步骤(3),直至真实的短信触达识别装置M0的预测结果为0时,发送短信。
2.根据权利要求1所述的基于分类模拟模型提升短信触达率的方法,其特征在于,
所述的带二分类标签的短信样本数据D=(X,Y),X={X1,X2,…,Xn},Y={0,1},其中,Y表示短信样本标签,Y=0表示短信可以触达用户,Y=1表示短信无法触达用户,X表示所有的短信样本数据,包含n条短信样本,每条短信样本数据可表示为Xi=[w1,w2,…,wj…,wm],i∈[1,n],j∈[1,m],Xi表示每条短信文本数据的特征词汇序列,wj表示短信文本中的特征词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京山猫齐动信息技术有限公司,未经南京山猫齐动信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110986162.7/1.html,转载请声明来源钻瓜专利网。