[发明专利]提取文档关键句的方法及装置在审
申请号: | 201510587652.4 | 申请日: | 2015-09-15 |
公开(公告)号: | CN105243053A | 公开(公告)日: | 2016-01-13 |
发明(设计)人: | 姜迪;石磊;连荣忠;殷瑞;蒋佳军 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 文档 关键 方法 装置 | ||
1.一种提取文档关键句的方法,其特征在于,包括:
根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
计算所述句子向量和所述文档向量之间的相关性;
选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
2.根据权利要求1所述的方法,其特征在于,根据层级语义向量模型训练得到与文档信息相关的句子向量和文档向量,包括:
获取所述文档中包含的词和句子,为每个词分别定义初始词向量、为每个句子分别定义初始句子向量,为所述文档定义初始文档向量;
采用所述层级语义向量模型的词向量更新公式更新所述初始词向量,得到所述文档中每个词对应的词向量;
将所述词向量作为已知向量,根据所述词向量采用所述句子向量更新公式更新所述初始句子向量,得到所述文档中每个句子对应的句子向量;
将所述句子向量作为已知向量,根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量,得到所述文档对应的文档向量。
3.根据权利要求1所述的方法,其特征在于,选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句,包括:
选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。
4.根据权利要求3所述的方法,其特征在于,选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句之后还包括:
计算所述第一关键句与其它句子向量的冗余距离;
计算其它各句子向量和所述文档向量之间的距离与对应的冗余距离之间的差值;
用所述差值表示其它各句子向量和所述文档向量之间的相关性;
从其它各句子向量中选取与所述文档向量相关性最高的句子向量作为所述第一关键句,返回执行计算冗余距离操作,直至达到结束条件;
将每次循环计算得到的所述第一关键句作为所述文档的摘要返回用户。
5.根据权利要求1~4任一项所述的方法,其特征在于,建立所述层级语义向量模型包括:
根据所述文档训练资料库,为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量;
根据所述文档训练资料库的初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数;
对所述联合似然函数进行参数估计得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。
6.根据权利要求1~4任一项所述的方法,其特征在于,所述相关性为所述句子向量与所述文档向量之间的余弦距离。
7.一种提取文档关键句的装置,其特征在于,包括:
向量训练模块,用于根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
相关性计算模块,用于计算所述句子向量和所述文档向量之间的相关性;
关键句选取模块,用于选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
8.根据权利要求7所述的装置,其特征在于,所述向量训练模块具体用于:
获取所述文档中包含的词和句子,为每个词分别定义初始词向量、为每个句子分别定义初始句子向量,为所述文档定义初始文档向量;采用所述层级语义向量模型的词向量更新公式更新所述初始词向量,得到所述文档中每个词对应的词向量;将所述词向量作为已知向量,根据所述词向量采用所述句子向量更新公式更新所述初始句子向量,得到所述文档中每个句子对应的句子向量;将所述句子向量作为已知向量,根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量,得到所述文档对应的文档向量。
9.根据权利要求7所述的装置,其特征在于,所述关键句选取模块具体用于:
选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510587652.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于电子天平的硅片自动计片装置
- 下一篇:一种冲裁夹紧式防变形百搭格挡