[发明专利]训练语料的获取方法和装置在审
申请号: | 201510992677.2 | 申请日: | 2015-12-24 |
公开(公告)号: | CN105630976A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 马璇 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 王书彪;刘艳芬 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 语料 获取 方法 装置 | ||
1.一种训练语料的获取方法,其特征在于,包括:
获取通信运营商发送给用户的文本信息;
通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文 本信息;
利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务 类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量 名称作为第二训练语料。
3.根据权利要求1或2所述的方法,其特征在于,所述利用第一正则表 达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的 各业务的使用情况信息的短文本作为第一训练语料包括:
将过滤后的文本信息拆分为多个短句,其中,每个短句中包含该业务类 型的不同业务;
利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出 包含该业务的使用情况信息的短文本作为第一训练语料。
4.根据权利要求1-3任意一项所述的方法,其特征在于,在利用第一正 则表达式对过滤后的文本信息进行匹配之前,还包括:
对过滤后的文本信息进行去重处理。
5.根据权利要求4所述的方法,其特征在于,所述利用第一正则表达式 对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业 务的使用情况信息的短文本作为第一训练语料包括:
获取去重后的文本信息的重复率;
利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹 配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本 作为第一训练语料。
6.根据权利要求4所述的方法,其特征在于,所述利用第一正则表达式 对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业 务的使用情况信息的短文本作为第一训练语料包括:
获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排 序;
从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加 强训练的文本信息;
以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文 本信息变为多个文本信息;
利用第一正则表达式对所述多个文本信息进行匹配,以提取出包含业务 类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述业务类型 包括流量、短信、彩信、通话时长和话费中的一项或多项。
8.一种训练语料的获取装置,其特征在于,包括:
获取单元,用于获取通信运营商发送给用户的文本信息;
过滤单元,用于通过预设过滤规则对所述文本信息的内容进行过滤,以 得到过滤后的文本信息;
第一匹配单元,用于利用第一正则表达式对过滤后的文本信息进行匹 配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本 作为第一训练语料。
9.根据权利要求8所述的装置,其特征在于,还包括:
第二匹配单元,用于利用第二正则表达式对所述短文本进行匹配,以提 取出各业务的使用量名称作为第二训练语料。
10.根据权利要求8或9所述的装置,其特征在于,所述第一匹配单元 包括:
拆分模块,用于将过滤后的文本信息拆分为多个短句,其中,每个短句 中包含所述业务类型的不同业务;
匹配模块,用于利用每个业务对应的第一正则表达式对相应的短句进行 匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510992677.2/1.html,转载请声明来源钻瓜专利网。