[发明专利]一种语料生成装置和方法在审
申请号: | 201680001747.6 | 申请日: | 2016-06-29 |
公开(公告)号: | CN107004000A | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 王昊奋;邱楠;杨新宇 | 申请(专利权)人: | 深圳狗尾草智能科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳市华优知识产权代理事务所(普通合伙)44319 | 代理人: | 李丽君 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 生成 装置 方法 | ||
技术领域
本发明涉及文字处理领域,特别是涉及一种语料生成装置和方法。
背景技术
随着互联网的发展,网络检索的需求也越来越高,因此需要储备更多的关键词,以及语料,存储于云端的语料库中,供网民上网搜索时使用。
但是语言表达方式丰富多变,仅需通过若干词语随机组合,可能就会形成语句,如果语料库通过依次采集输入全部的语料,需要投入过大的精力,而且容易遗漏。现有技术有采用编辑距离的方法,通过删除、移位、插入等操作扩充语料库,但是实际操作的过程繁琐。
发明内容
本发明主要解决的技术问题是提供一种语料生成装置和方法,能够通过将词语嵌套到扩充得到的句式结构中获取语料,操作简单,节省资源,同时较大程度的扩充了语料库。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种语料生成装置,该装置包括:分词模块,连接至少一个单语平行语料库,用于对每一平行语料库内的语句进行分词,并对分词进行知识驱动以实现标签化;分类模块,用于识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;映射模块,用于分析每一单语平行语料库中每一语句簇中的语句,确定语句簇中所有语句的句式结构类别,确定并记录存储同一语句簇中不同句式结构类别之间进行变换时,相应的句式结构之间的标签变换的映射方式;句式结构生成模块,用于查找所有单语平行语料库中每一语句簇中相同的第一类别句式结构,并根据语句簇其中之一者的第一类别句式结构与同一语句簇中其他类别句式结构的第一类映射方式,在其余的语句簇中对第一类别句式结构按照映射方式分别进行映射,生成相应的句式结构类别;以及,语料生成模块,用于对新生成的句式结构嵌套语句簇中句式结构的序列标签对应的词语,生成新的单语平行语料库。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种语料生成方法,该方法的步骤包括:对至少一个单语平行语料库中每一语句进行分词,并对分词进行知识驱动以实现标签化;识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;分析每一单语平行语料库中每一语句簇中的语句,确定语句簇中所有语句的句式结构类别,确定并记录存储同一语句簇中不同句式结构类别之间进行变换时,相应的句式结构之间的标签变换的映射方式;查找所有单语平行语料库中每一语句簇中相同的第一类别句式结构,并根据语句簇其中之一者的第一类别句式结构与同一语句簇中其他类别句式结构的第一类映射方式,在其余的语句簇中对第一类别句式结构按照映射方式分别进行映射,生成相应的句式结构类别;对新生成的句式结构嵌套语句簇中句式结构的序列标签对应的词语,生成新的单语平行语料库。
区别于现有技术,本发明的语料生成装置在通过将现有语料库中的语句进行标签化,将标签序列不同的句式格式根据句式的标签进行映射,得到更多的句式结构,填充嵌套标签对应的词语后得到更多的语料。通过本发明,能够通过将词语嵌套到扩充得到的句式结构中获取语料,操作简单,节省资源,同时较大程度的扩充了语料库。
附图说明
图1是本发明提供的一种语料生成装置的实施方式的结构示意图;
图2是本发明提供的一种语料生成方法的实施方式的流程示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳狗尾草智能科技有限公司,未经深圳狗尾草智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680001747.6/2.html,转载请声明来源钻瓜专利网。