[发明专利]零代词消解方法及装置有效
申请号: | 201811361401.4 | 申请日: | 2018-11-15 |
公开(公告)号: | CN109471919B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 李军炜 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京华圣典睿知识产权代理有限公司 11510 | 代理人: | 赵景平 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 代词 消解 方法 装置 | ||
1.一种零代词消解方法,其特征在于,所述方法包括:
获取当前语句及其上文语句;
利用预先构建的零代词位置预测模型预测当前语句中代词的插入位置,得到预测位置;
根据上文语句及预先构建的先行词位置模型预测得到先行词在上文语句中的位置(start,end),其中,start表示先行词的起始位置,end表示先行词的结束位置,将上文语句中对应先行词预测位置的字串作为先行词;
将所述先行词插入到所述预测位置,得到候选语句;
其中,所述根据上文语句及预先构建的先行词位置模型预测得到先行词在上文语句中的位置包括:
对所述上文语句进行分词处理,得到各词单元及其词向量;
将所述词向量输入预先构建的先行词位置模型,根据所述先行词位置模型的输出,得到先行词预测位置。
2.根据权利要求1所述的方法,其特征在于,所述利用预先构建的零代词位置预测模型预测当前语句中代词的插入位置,得到预测位置包括:
对所述当前语句进行分词处理,得到各词单元及其词向量;
将所述词向量输入预先构建的零代词位置预测模型,根据所述零代词位置预测模型的输出,得到预测位置。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述方法还包括:
利用热搜检查所述候选语句,得到消解后语句;和/或
利用预先构建的语言模型对所述候选语句进行过滤,得到消解后语句。
4.根据权利要求3所述的方法,其特征在于,所述利用热搜检查所述候选语句,得到消解后语句包括:
检查热搜库中是否有与所述候选语句相匹配的热搜词条;
如果有,则根据所述候选语句的长度及与所述候选语句相匹配的热搜词条的长度,计算得到所述候选语句的覆盖率,并将覆盖率大于设定的覆盖率阈值的候选语句作为消解后语句。
5.根据权利要求3所述的方法,其特征在于,所述利用预先构建的语言模型对所述候选语句进行过滤,得到消解后语句包括:
利用预先构建的语言模型确定所述候选语句的流畅度得分;
将流畅度得分大于设定的流畅度阈值的候选语句作为消解后语句。
6.一种零代词消解装置,其特征在于,所述装置包括:
语句获取模块,用于获取当前语句及其上文语句;
位置预测模块,用于利用预先构建的零代词位置预测模型预测当前语句中代词的插入位置,得到预测位置;
先行词确定模块,用于根据上文语句及预先构建的先行词位置模型预测得到先行词在上文语句中的位置(start,end),其中,start表示先行词的起始位置,end表示先行词的结束位置,将上文语句中对应先行词预测位置的字串作为先行词;
插入模块,用于将所述先行词插入到所述预测位置,得到候选语句;
其中,所述先行词确定模块包括:
分词处理单元,用于对所述上文语句进行分词处理,得到各词单元及其词向量;
位置确定单元,用于将所述词向量输入预先构建的先行词位置模型,根据所述先行词位置模型的输出,得到先行词预测位置;
提取单元,用于获取所述上文语句中对应所述先行词预测位置的字串,并将所述字串作为先行词。
7.根据权利要求6所述的装置,其特征在于,所述位置预测模块包括:
预处理单元,用于对所述当前语句进行分词处理,得到各词单元及其词向量;
预测单元,用于将所述词向量输入预先构建的零代词位置预测模型,根据所述零代词位置预测模型的输出,得到预测位置。
8.根据权利要求6至7任一项所述的装置,其特征在于,所述装置还包括:热搜检查模块、和/或流畅度检查模块;
所述热搜检查模块,用于利用热搜检查所述候选语句,得到消解后语句;
所述流畅度检查模块,用于利用预先构建的语言模型对所述候选语句进行过滤,得到消解后语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811361401.4/1.html,转载请声明来源钻瓜专利网。