[发明专利]文本摘要的智能抽取方法、装置、计算机设备及存储介质在审

申请号：	201910752285.7	申请日：	2019-08-15
公开（公告）号：	CN110674283A	公开（公告）日：	2020-01-10
发明（设计）人：	杨春春	申请（专利权）人：	中国平安财产保险股份有限公司
主分类号：	G06F16/34	分类号：	G06F16/34
代理公司：	11015 北京英特普罗知识产权代理有限公司	代理人：	程超
地址：	518048 广东省深圳市福田区益田路***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征词特征语句类簇加权向量聚类分析聚类中心特征向量文本相似度抽取计算机设备存储介质聚类运算词向量加权智能
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本摘要的智能抽取方法，其特征在于，包括：

从多篇文本中获取多个特征语句，对每个所述特征语句划分特征词，得到多个特征词；

通过聚类分析将所述多个特征词划归到不同的类簇中；

将每个所述特征词所隶属的特征语句划归到相应的类簇中；

从每个所述类簇中抽取固定个数的特征语句，以形成所述多篇文本的整体摘要。

2.根据权利要求1所述的智能抽取算法，其特征在于，所述通过聚类分析将所述多个特征词划归到不同的类簇中的步骤包括：

对所述多个特征词分别进行词向量表征，得到多个特征向量；

根据重要程度对每个所述特征向量加权，得到多个加权向量；

计算每两个加权向量之间的相似度；

根据相似度进行聚类运算，得到聚类中心数量，根据所述聚类中心数量将所述多个特征词划分为多个类簇。

3.根据权利要求2所述的智能抽取算法，其特征在于，所述根据重要程度对每个所述特征向量加权，得到多个加权向量的步骤包括：

基于Tf-idf算法计算所述特征向量的第一权重；

基于所述特征词在特征语句中的出现位置计算所述特征向量的第二权重；

将所述特征向量依次与所述第一权重和所述第二权重相乘，得到所述加权向量。

4.根据权利要求2或3所述的智能抽取算法，其特征在于，所述将每个所述特征词所隶属的特征语句划归到相应的类簇中的步骤包括：

标记目标特征词所隶属的目标特征语句；

将所述目标特征语句划分为所述目标特征词所对应的类簇。

5.根据权利要求4所述的智能抽取算法，其特征在于，所述从每个类簇中抽取固定个数的特征语句，以形成所述多篇文本的整体摘要的步骤包括：

按照重要程度由高到低的顺序对每个类簇中的所有特征语句进行排序；

从每个类簇中抽取固定个数的排序靠前的特征语句汇集成文本摘要。

6.一种文本摘要的智能抽取装置，其特征在于，包括：

特征词获取模块，适用于从多篇文本中获取多个特征语句，对每个所述特征语句划分特征词，得到多个特征词；

聚类分析模块，适用于通过聚类分析将所述多个特征词划归到不同的类簇中；

类簇划分模块，适用于将每个所述特征词所隶属的特征语句划归到相应的类簇中；

汇集模块，适用于从每个所述类簇中抽取固定个数的特征语句，以形成所述多篇文本的整体摘要。

7.根据权利要求6所述的智能抽取装置，其特征在于，所述聚类分析模块包括：

向量表征子模块，适用于对所述多个特征词分别进行词向量表征，得到多个特征向量；

加权子模块，适用于根据重要程度对每个所述特征向量加权，得到多个加权向量；

相似度子模块，适用于计算每两个加权向量之间的相似度；

类簇划分子模块，适用于根据相似度进行聚类运算，得到聚类中心数量，根据所述聚类中心数量将所述多个特征词划分为多个类簇。

8.根据权利要求7所述的智能抽取装置，其特征在于，所述加权子模块包括：

第一权重单元，适用于基于Tf-idf算法计算所述特征向量的第一权重；

第二权重单元，适用于基于所述特征词在特征语句中的出现位置计算所述特征向量的第二权重；

加权向量生成单元，适用于将所述特征向量依次与所述第一权重和所述第二权重相乘，得到所述加权向量。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国平安财产保险股份有限公司，未经中国平安财产保险股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910752285.7/1.html，转载请声明来源钻瓜专利网。

上一篇：基于专家知识规则库的一键顺控操作票智能拟制方法
下一篇：多系统的方法调用链路图的生成方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本摘要的智能抽取方法、装置、计算机设备及存储介质在审

专利文献下载