[发明专利]一种摘要抽取方法有效

专利信息
申请号: 202111532196.5 申请日: 2021-12-15
公开(公告)号: CN113918708B 公开(公告)日: 2022-03-22
发明(设计)人: 胡为民;郑喜 申请(专利权)人: 深圳市迪博企业风险管理技术有限公司
主分类号: G06F16/34 分类号: G06F16/34;G06F16/36;G06F40/30;G06N3/04;G06K9/62
代理公司: 北京惟盛达知识产权代理事务所(普通合伙) 11855 代理人: 陈钊
地址: 518000 广东省深圳市福田*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 摘要 抽取 方法
【权利要求书】:

1.一种摘要抽取方法,其特征在于,包括如下步骤:

S1、预处理,将公告文本中的数值、时间类型数据进行泛化处理;

S2、构建第一词表;

S3、构建第一词表的词语共现矩阵;

S4、词语共现矩阵降维,提取第一词表内所有词语的语义表征;

S5、重复S2至S4,提取公告文本中所有词语的语义表征;

S6、以语句为单位,将语义表征进行累加合并,形成语句上下文语义表征;

S7、用户输入关键词组,提取关键词组语义表征;

S8、判断关键词组语义表征与语句上下文语义表征的相似度,关键词组的相似度大于设定值,则将包括该关键词组的公告文本语句抽取为公共文本摘要;

所述S1包括,

替换公告文本Text中的数值为汉字数值,替换公告文本Text中的时间为汉字时间;

剔除标点符号中的标号,以及点号中的顿号和冒号,利用保留的点号作为分隔符将公告文本分解为语句;采用jieba分词法对公告文本Text进行中文分词,剔除其中的停用词后,采用TFIDF对词语进行加权,并将词语按照权值从大到小进行排列;

所述S2构建第一词表包括,获取权值排列前2000的词语构建第一词表Words

其中wi表示第i个词语,wj表示第j个词语,n为词语的数量

所述S3包括,

对出现在同一语句中、同一段落中、同一篇章中的任意两词语wiwj建立关联,构建词语共现矩阵

为语句级词语共现矩阵;

为段落级词语共现矩阵;

为篇章级共现矩阵;

矩阵行索引i、列索引j分别表示两共现词语wiwj的索引;矩阵中的元素表示行、列索引指向的两词语的联合概率。

2.根据权利要求1所述的摘要抽取方法,其特征在于,所述S4包括,采用主成分分析法分别对语句级词语共现矩阵、段落级词语共现矩阵、篇章级词语共现矩阵进行降维,降维后的维度为2000*100,其中2000表示词语的数量,100表示每个词语语义向量的维度;降维后词语共现矩阵的三级向量即为三级语义表征;所述三级语义表征即词语的语句级、段落级、篇章级语义表征;提取第一词表内所有词语的三级语义表征。

3.根据权利要求2所述的摘要抽取方法,其特征在于,降维计算公式如下:

其中表示第k个行向量标准差;

表示中的第k个行向量;

表示协方差矩阵;

表示协方差矩阵的前100列特征列向量;

表示词语共现矩阵中第k个词语的三级语义表征。

4.根据权利要求3所述的摘要抽取方法,其特征在于,所述S5,每次重复,S2分别构建词表,直至包括公告文本中的所有词语,所述词表依次为权值排列前2000的词语。

5.根据权利要求4所述的摘要抽取方法,其特征在于,以语句为单位,将语义表征进行累加合并,形成语句上下文三级语义表征;所述语句上下文三级语义表征为

式中t为语句中第t个词语。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市迪博企业风险管理技术有限公司,未经深圳市迪博企业风险管理技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111532196.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top