[发明专利]一种基于统计模型识别短信文本模版的方法、设备及介质在审
申请号: | 202010434799.0 | 申请日: | 2020-05-21 |
公开(公告)号: | CN111597806A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 元方;唐小波;宋争光;黄建辉;黄春霞 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/194 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 胡文莉 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计 模型 识别 短信 文本 模版 方法 设备 介质 | ||
1.一种基于统计模型识别短信文本模版的方法,其特征在于,包括以下步骤:
S1.筛选同一模板的短信文本集合,记作sms_pttDay;
S2.清洗sms_pttDay中所有短信文本数据,删除短信中的网址链接,数字与标点符号,清洗后的sms_pttDay,记作clean_sms_pttDay;
S3.把同一模板的短信文本或者相似模板的短信文本筛选出来,具体方法为使用文本相似度算法把相似度比较高的短信文本收集到一个集合,多个集合分别记作sms_template_set_1~sms_template_set_i;
S4.对每个sms_template_set_i都进行如下的操作:
S41.把单条短信字符串变成有顺序的单字符数组,记作charsi;
S42.任意取集合中的一条短信文本作为基准比较短信base;
S43.用base去遍历剩余短信,提取base与charsi中的公共字符,base与charsi求交集,结果记作common_chars;
S44.定位公共字符common_chars在base与charsi中的位置,通过字符串查找函数,按顺序依次提取common_chars在base与charsi中的字符,对应为s1,s2;
S45.通过字符串模式匹配,找出s1与s2中所有公共序列,记作seg1...segn;
S46.顺序拼接seg1...segn,segn前后用{var}分隔,记作temp_cand1~temp_candi;
S47.每个temp_candi中的segn总数记作number_seg,选择number_seg相同的temp_candi,组成的集合为candinate1~candinatei,然后对每个集合进行最终模板的选择;
S48.从sms_template_set_i中剩余的短信中选择任一条作为新的base,回到S43进行循环,直到处理完sms_template_set_i所有数据;
S5.按照S4的步骤依次提取sms_template_set_1~sms_template_set_i中的模板,并且最终的模板都加入真模板集合template_sms。
2.根据权利要求1所述的一种基于统计模型识别短信文本模版的方法,其特征在于:S1采用天为时间片筛选同一模板的短信文本集合。
3.根据权利要求1所述的一种基于统计模型识别短信文本模版的方法,其特征在于:S3的具体步骤如下:采用融合simhash和minhash的LSH的相似度算法对clean_sms_pttDay下所有短信文本进行两两计算,输出相似度的值;当两种算法对同样两条短信文本都计算得出高相似度值时,才能把两条短信文本归属同一个模板集合;最后会生成多个集合,每个集合中的短信文本都是彼此相似的,记作sms_template_set_1~sms_template_set_i;相反,把没有选中模版集合的短信文本加入到下一天的sms_pttDay数据中继续进行数据筛选。
4.根据权利要求3所述的一种基于统计模型识别短信文本模版的方法及装置,其特征在于:融合simhash和minhash的LSH的相似度算法还可替换为以下算法:基于余弦相似性的Random Binary Projection LSH;基于欧式距离E2LSH;还有基于汉明距离的Bit SamplingLSH。
5.根据权利要求1所述的一种基于统计模型识别短信文本模版的方法及装置,其特征在于:S46的具体步骤如下:
S461.把segn字符数小于2的用{var}替换掉;
S462.替换后,当连续多个{var}一起出现时,则合并为一个{var},表现形式为temp_candi={var}seg1{var}...{var}segn{var}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010434799.0/1.html,转载请声明来源钻瓜专利网。