[发明专利]训练语料的获取方法和装置在审
申请号: | 201510992677.2 | 申请日: | 2015-12-24 |
公开(公告)号: | CN105630976A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 马璇 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 王书彪;刘艳芬 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 语料 获取 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其是一种训练语料的获取方法和装置。
背景技术
移动通信运营商为用户提供通信业务的查询功能,例如,用户可以通过 短信、电话、客户端等多种方式进行查询,但是,上述几种方式均需要用户 进行大量的操作,实时性较差,不能满足用户的要求。
随着互连网技术的发展,出现了很多在终端侧进行通信业务使用量的监 测的技术,从而可以及时向用户报告。然而,在终端侧监测到的数据经常会 出现与通信运营商的统计数据不一致,因此,现有的通信业务使用量的监控 方法需要定期根据通信运营商的统计数据进行校准。
一种有效的校准方法是利用条件随机场(CRF)识别模型对截取到的运 营商发给用户的短信进行识别,这种方法可以提高校准的精度。但是,条件 随机场识别模型需要训练语料进行训练得到,而现有技术中训练语料均是通 过人工的方式来获取,效率低下,影响运营效率。
发明内容
本发明实施例所要解决的一个技术问题是:提供一种训练语料的获取方 法和装置,以提高训练语料的获取效率。
本发明实施例提供的一种训练语料的获取方法包括:获取通信运营商发 送给用户的文本信息;通过预设过滤规则对所述文本信息的内容进行过滤, 以得到过滤后的文本信息;利用第一正则表达式对过滤后的文本信息进行匹 配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本 作为第一训练语料。
在基于本发明上述方法的另一个实施例中,还包括:利用第二正则表达 式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语 料。
在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对 过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务 的使用情况信息的短文本作为第一训练语料包括:将过滤后的文本信息拆分 为多个短句,其中,每个短句中包含该业务类型的不同业务;利用每个业务 对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用 情况信息的短文本作为第一训练语料。
在基于本发明上述方法的另一个实施例中,在利用第一正则表达式对过 滤后的文本信息进行匹配之前,还包括:对过滤后的文本信息进行去重处 理。
在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对 过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务 的使用情况信息的短文本作为第一训练语料包括:获取去重后的文本信息的 重复率;利用第一正则表达式按照重复率的高低依次对去重后的文本信息进 行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短 文本作为第一训练语料。
在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对 过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务 的使用情况信息的短文本作为第一训练语料包括:获取去重后的文本信息的 重复率,按照重复率的高低对文本信息进行排序;从排序后的文本信息中提 取出重复率大于预设值的文本信息作为需要加强训练的文本信息;以多组随 机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多 个文本信息;利用第一正则表达式对所述多个文本信息进行匹配,以提取出 包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练 语料。
在基于本发明上述方法的另一个实施例中,所述业务类型包括流量、短 信、彩信、通话时长和话费中的一项或多项。
本发明实施例提供的一种训练语料的获取装置,包括:获取单元,用于 获取通信运营商发送给用户的文本信息;过滤单元,用于通过预设过滤规则 对所述文本信息的内容进行过滤,以得到过滤后的文本信息;第一匹配单 元,用于利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含 业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语 料。
在基于本发明上述装置的另一个实施例中,还包括:第二匹配单元,用 于利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名 称作为第二训练语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510992677.2/2.html,转载请声明来源钻瓜专利网。