[发明专利]一种语料生成装置和方法在审
申请号: | 201680001747.6 | 申请日: | 2016-06-29 |
公开(公告)号: | CN107004000A | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 王昊奋;邱楠;杨新宇 | 申请(专利权)人: | 深圳狗尾草智能科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳市华优知识产权代理事务所(普通合伙)44319 | 代理人: | 李丽君 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种语料生成装置和方法,该装置(100))包括分词模块(110),连接至少一个单语平行语料库,用于对语句分词,对分词进行知识驱动;分类模块(120)),用于将标签序列不同的相同含义的语句分类到同一语句簇;映射模块(130)),用于确定语句簇中所有语句的句式结构类别,记录存储同一语句簇中不同句式结构类别变换时,句式结构之间的标签变换的映射方式;句式结构生成模块(140),用于根据语句簇其中之一者的第一类别句式结构与同一语句簇中其他类别句式结构的第一类映射方式;以及,语料生成模块(150),用于序列标签对应的词语,生成新的单语平行语料库。该装置和方法能够通过将词语嵌套到扩充得到的句式结构中获取语料,操作简单,节省资源,同时较大程度的扩充了语料库。 | ||
搜索关键词: | 一种 语料 生成 装置 方法 | ||
【主权项】:
一种基于知识驱动的语料生成装置,其特征在于,包括:分词模块,连接至少一个单语平行语料库,用于对每一所述平行语料库内的语句进行分词,并对分词进行知识驱动以实现标签化;分类模块,用于识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;映射模块,用于分析每一所述单语平行语料库中每一所述语句簇中的语句,确定所述语句簇中所有语句的句式结构类别,确定并记录存储同一所述语句簇中不同所述句式结构类别之间进行变换时,相应的所述句式结构之间的标签变换的映射方式;句式结构生成模块,用于查找所有单语平行语料库中每一所述语句簇中相同的第一类别句式结构,并根据所述语句簇其中之一者的所述第一类别句式结构与同一所述语句簇中其他类别句式结构的第一类映射方式,在其余的所述语句簇中对所述第一类别句式结构按照所述映射方式分别进行映射,生成相应的句式结构类别;以及,语料生成模块,用于对新生成的所述句式结构嵌套所述语句簇中句式结构的序列标签对应的词语,生成新的单语平行语料库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳狗尾草智能科技有限公司,未经深圳狗尾草智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201680001747.6/,转载请声明来源钻瓜专利网。