[发明专利]一种短信文本模版的提取方法及相关装置在审
申请号: | 201710980332.4 | 申请日: | 2017-10-19 |
公开(公告)号: | CN107748739A | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 高金容;杨俊欧;李伟;周小林;黄云;雷笑海;周诺舟;王路刚;黄伟;陆勇思 | 申请(专利权)人: | 上海大汉三通通信股份有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/30;H04W4/14 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 201203 上海市浦东新区自由贸易试验区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 短信 文本 模版 提取 方法 相关 装置 | ||
技术领域
本申请涉及信息处理领域,特别涉及一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器。
背景技术
在短信的业务中,随着客户的需求应用量越来越大。同时为了保证发送短信的内容的合法性,需要对短信的内容进行审核。一般情况下是需要人工对短信内容进行审核,但是面对巨量的短信,人工审核会导致错审、漏审等的问题。并且由于发送的短信中,有大量的相似短信,重复内容的短信,还需要人工审核去筛查,浪费了大量的人工成本。
因此,如何解决短信的审核速度的问题,是本领技术人员所关注的重点问题。
发明内容
本申请的目的是提供一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器,通过对短信内容的聚类整合提取出含有变量规则的短信文本模版,可以使终端将短信与模版进行对比进行审核,当短信命中某一个模版后,就不需要继续进行人工审核,直接下发短信,极大的节约了审核的时间以及提高了人工审核的利用率。
为解决上述技术问题,本申请提供一种短信文本模版的提取方法,包括:
获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
可选的,所述获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合,包括:
将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比,得到多个匹配率;
判断所有所述匹配率是否低于预设匹配率;
若是,则将所述短信作为新的所述分类集合,并更新到所述内存中;
若否,则将所述短信加入到所述匹配率最高的所述分类集合中。
可选的,所述获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合,还包括:
当所有所述分类集合的数量大于预设数量时,将已有的所有所述分类集合进行分组,得到多个集合组;
将每个所述集合组分配一个线程,所有所述线程进行聚类处理。
可选的,所述将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版,包括:
获取所有所述非公共文本部分的取值长度;
选择所述取值长度中的最短长度和最长长度,作为所述模版变量的取值长度范围;
将所述公共文本和所述模版变量的所述取值长度范围作为模版。
本申请还提供一种短信文本模版的提取装置,其特征在于,包括:
聚类处理模块,用于获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
公共文本获取模块,用于在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
非公共文本获取模块,用于将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
模版获取模块,用于将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
可选的,所述聚类处理模块,包括:
对比处理单元,用于将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比,得到多个匹配率;
判断单元,用于判断所有所述匹配率是否低于预设匹配率;
新分类集合获取单元,用于将所述短信作为新的所述分类集合,并更新到所述内存中;
分类处理单元,用于将所述短信加入到所述匹配率最高的所述分类集合中。
可选的,所述聚类处理模块,还包括:
分组处理单元,用于当所有所述分类集合的数量大于预设数量时,将已有的所有所述分类集合进行分组,得到多个集合组;
线程分配单元,用于将每个所述集合组分配一个线程,所有所述线程进行聚类处理。
可选的,所述模版获取模块,包括:
取值长度获取单元,用于获取所有所述非公共文本部分的取值长度;
取值范围获取单元,用于选择所述取值长度中的最短长度和最长长度,作为所述模版变量的取值长度范围;
模版获取单元,用于将所述公共文本和所述模版变量的所述取值长度范围作为模版。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大汉三通通信股份有限公司,未经上海大汉三通通信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710980332.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子书目录的生成方法及装置、存储介质、计算设备
- 下一篇:齿轮加工设备