[发明专利]一种语句训练装置、方法和信息提取系统在审
申请号: | 201610061449.8 | 申请日: | 2016-01-28 |
公开(公告)号: | CN105550372A | 公开(公告)日: | 2016-05-04 |
发明(设计)人: | 李源;徐宏伟;姚民伟 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 训练 装置 方法 信息 提取 系统 | ||
1.一种语句训练装置,其特征在于,包括:
接收单元,用于接收至少一个训练语料;
筛选单元,用于对所述接收单元接收到的至少一个训练语料进行分词, 获取各个词组,并从各个词组中筛选出各个主词和各个从词;
融合单元,用于将所述筛选单元筛选出的主词和从词进行顺序匹配,生 成至少一个语义语句;
提供单元,用于将所述融合单元生成的语义语句发送给外设的信息提取 设备。
2.根据权利要求1所述的语句训练装置,其特征在于,进一步包括:设 置单元,其中,
所述设置单元,用于设置主词阈值和从词阈值;
所述筛选单元,进一步用于构建主词表和从词表,统计所述各个主词和 各个从词出现的频率,当所述各个主词中当前主词出现的频率大于所述设置 单元设置的主词阈值时,将所述当前主词存储到所述主词表;当所述各个主 从词中当前从词出现的频率大于所述设置单元设置的从词阈值时,将所述当 前从词存储到所述从词表;
所述融合单元,用于将所述主词表中的主词和所述从词表中的从词进行 匹配,生成至少一个语义语句。
3.根据权利要求2所述的语句训练装置,其特征在于,所述筛选单元, 用于:
根据所述当前主词出现的频率,确定所述当前主词在所述主词表中的存 储顺序,并按照该存储顺序在所述主词表中存储所述主词;根据所述当前从 词出现的频率,确定所述当前从词在所述从词表中的存储顺序,并按照该存 储顺序在所述从词表中存储所述从词。
4.根据权利要求1或2所述的语句训练装置,其特征在于,
所述能够
所述提供单元,用于将所述融合单元筛选出的目标语义语句发送的信息 提取设备。
5.一种语句训练方法,其特征在于,包括:
接收至少一个训练语料;
对所述接收到的至少一个训练语料进行分词,获取各个词组,并从各个 词组中筛选出各个主词和各个从词;
将所述筛选出的主词和从词进行顺序匹配,生成至少一个语义语句;
将所述生成的语义语句发送给外设的信息提取设备。
6.根据权利要求5所述的语句训练方法,其特征在于,
进一步包括:设置主词阈值和从词阈值,并构建主词表和从词表;
在所述从各个词组中筛选出各个主词和各个从词之后,在所述将所述筛 选出的主词和从词进行顺序匹配之前,进一步包括:
统计所述各个主词和各个从词出现的频率;
当所述各个主词中当前主词出现的频率大于所述主词阈值时,将所述当 前主词存储到所述主词表;
当所述各个从词中当前从词出现的频率大于所述从词阈值时,将所述当 前从词存储到所述从词表;
所述将所述筛选出的主词和从词进行顺序匹配,包括:将所述主词表中 的主词和所述从词表中的从词进行匹配。
7.根据权利要求6所述的语句训练方法,其特征在于,
所述将所述当前主词存储到所述主词表,包括:根据所述当前主词出现 的频率,确定所述当前主词在所述主词表中的存储顺序,并按照该存储顺序 在所述主词表中存储所述主词;
所述将所述当前从词存储到所述从词表,包括:根据所述当前从词出现 的频率,确定所述当前从词在所述从词表中的存储顺序,并按照该存储顺序 在所述从词表中存储所述从词。
8.根据权利要求5或6所述的语句训练方法,其特征在于,
在所述生成至少一个语义语句之后,在所述将所述生成的语义语句发送 给外设的信息提取设备之前,进一步包括:确定所述至少一个训练语料,通 过所述至少一个训练语料对所述至少一个语义语句进行语句训练,筛选出符 合所述至少一个训练语料的目标语义语句;
所述将所述生成的语义语句发送给外设的信息提取设备,包括:将筛选 出的目标语义语句发送给外设的信息提取设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610061449.8/1.html,转载请声明来源钻瓜专利网。