[发明专利]一种语料生成装置和方法在审
申请号: | 201680001747.6 | 申请日: | 2016-06-29 |
公开(公告)号: | CN107004000A | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 王昊奋;邱楠;杨新宇 | 申请(专利权)人: | 深圳狗尾草智能科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳市华优知识产权代理事务所(普通合伙)44319 | 代理人: | 李丽君 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 生成 装置 方法 | ||
1.一种基于知识驱动的语料生成装置,其特征在于,包括:
分词模块,连接至少一个单语平行语料库,用于对每一所述平行语料库内的语句进行分词,并对分词进行知识驱动以实现标签化;
分类模块,用于识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;
映射模块,用于分析每一所述单语平行语料库中每一所述语句簇中的语句,确定所述语句簇中所有语句的句式结构类别,确定并记录存储同一所述语句簇中不同所述句式结构类别之间进行变换时,相应的所述句式结构之间的标签变换的映射方式;
句式结构生成模块,用于查找所有单语平行语料库中每一所述语句簇中相同的第一类别句式结构,并根据所述语句簇其中之一者的所述第一类别句式结构与同一所述语句簇中其他类别句式结构的第一类映射方式,在其余的所述语句簇中对所述第一类别句式结构按照所述映射方式分别进行映射,生成相应的句式结构类别;以及,
语料生成模块,用于对新生成的所述句式结构嵌套所述语句簇中句式结构的序列标签对应的词语,生成新的单语平行语料库。
2.根据权利要求1所述的语料生成装置,其特征在于,所述分词模块包括:
分词单元,用于对所有单语平行语料库中的所述语句进行分词;
第一标签单元,用于按照词语的词性对分词处理后的所述语句添加第一标签;
第二标签单元,用于按照词语在句中成分对分词处理后的所述语句添加第二标签。
3.根据权利要求2所述的语料生成装置,其特征在于,所述分词模块还包括第三标签单元;
所述第三标签单元用于对经标签化处理后标签序列相同的不同含义的语句,按照词语含义对所述语句添加第三标签。
4.根据权利要求1所述的语料生成装置,其特征在于,所述语料生成模块包括:
标签识别单元,用于识别所有单语平行语料库中每一所述语句簇中全部句式结构中的标签;
语料生成单元,用于将每一所述语句簇中全部句式结构中的标签对应的词语嵌套到所述句式结构中,生成新的单语平行语料库。
5.根据权利要求4所述的语料生成装置,其特征在于,所述语料生成单元按照所述分词模块的所述知识驱动标准对新生成的所述句式结构进行嵌套。
6.一种语料生成方法,其特征在于,包括:
对至少一个单语平行语料库中每一语句进行分词,并对分词进行知识驱动以实现标签化;
识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;
分析每一所述单语平行语料库中每一所述语句簇中的语句,确定所述语句簇中所有语句的句式结构类别,确定并记录存储同一所述语句簇中不同所述句式结构类别之间进行变换时,相应的所述句式结构之间的标签变换的映射方式;
查找所有单语平行语料库中每一所述语句簇中相同的第一类别句式结构,并根据所述语句簇其中之一者的所述第一类别句式结构与同一所述语句簇中其他类别句式结构的第一类映射方式,在其余的所述语句簇中对所述第一类别句式结构按照所述映射方式分别进行映射,生成相应的句式结构类别;
对新生成的所述句式结构嵌套所述语句簇中句式结构的序列标签对应的词语,生成新的单语平行语料库。
7.根据权利要求6所述的语料生成方法,其特征在于,在对平行语料库内的语句进行分词的步骤中,包括步骤:
对所有单语平行语料库中的语句进行分词;
按照词语的词性对分词处理后的所述语句添加第一标签;
按照词语在句中成分对分词处理后的所述语句添加第二标签。
8.根据权利要求7所述的语料生成方法,其特征在于,在对平行语料库内的语句进行分词的步骤中,还包括步骤:
对经标签化处理后标签序列相同的不同含义的语句,按照词语含义对所述语句添加第三标签。
9.根据权利要求6所述的语料生成方法,其特征在于,在对所有所述语句簇中生成的所述句式结构嵌套所述语句簇中句式结构的序列标签对应的词语的步骤中,包括步骤:
分别所有单语平行语料库中每一所述语句簇中全部句式结构中的标签;
将每一所述语句簇中全部句式结构中的标签对应的词语嵌套到所述句式结构中,生成语料。
10.根据权利要求9所述的语料生成方法,其特征在于,在将所述标签对应的词语嵌套到所述句式结构的步骤中,按照所述知识驱动标准对新生成的所述句式结构进行嵌套。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳狗尾草智能科技有限公司,未经深圳狗尾草智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680001747.6/1.html,转载请声明来源钻瓜专利网。