[发明专利]一种文本自动摘要方法、装置及一种电子设备有效
申请号: | 201810787848.1 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109101489B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 文卫东;刘健博;王忠璐 | 申请(专利权)人: | 武汉数博科技有限责任公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/30;G06F40/211 |
代理公司: | 北京思格颂知识产权代理有限公司 11635 | 代理人: | 潘珺 |
地址: | 430072 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 自动 摘要 方法 装置 电子设备 | ||
本发明公开了一种文本自动摘要方法,包括将待摘要文档按照预定义的句子结束符号进行分割;根据已有的文本语料库计算分割后每个句子的主题向量;根据两两语句间共同出现的词语数量,确定两两语句的相关度;根据每个句子的主题向量计算两两语句间的语义相似度;利用各句子间的相关度及语义相似度计算每个句子的分值;选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。本发明利用各句子间的相关度及相似度计算所述每个句子的分值,综合考虑句子词共线率和语义相关性,提高了句子评分的准确率。本发明提出的摘要方法计算方便,普适性强。本发明还公开了一种文本自动摘要装置及一种电子设备。
技术领域
本发明涉及自然语言理解技术领域,主要涉及文本自动摘要方法、装置及一种电子 设备。
背景技术
摘要通过简短连贯的短文全面准确的反应原始文献的中心内容。由于信息的爆炸, 人们在完成一项工作前需要阅读的文档数量不断增加,所花费的时间加长,自动摘要的 应用能够有效减少阅读时间,能够提升诸多领域的工作效率,有着广阔的应用前景。
按照原文和摘要的关系自动摘要技术可以划分为两种类别:抽取式摘要技术和生成 式摘要技术。抽取式摘要是从原文的子句集合中抽取重点句,但不对其进行修改,然后组合重点句形成一个摘要,其本质是将摘要问题转换为一个排序问题,对每个句子进行 打分,高分句组成对应文献的摘要。生成式摘要技术则试图理解文献的内容,并通过精 炼的语句概括文献的中心内容,这种方式更符合摘要的本质,现阶段在短文本摘要问题 上采用seq2seq的方法取得了一定的进展,但是在解决长文本摘要问题时,由于技术难 度大,效果欠佳。
目前,使用较为广泛的技术仍然为基于抽取式的摘要生成方法,一般通过组成句子 的词语来衡量句子的相关性,然而在实际文档中,词语相关度高的句子和语义相关度高的句子都有可能为关键句,因此完全不考虑两者,或者仅考虑一种相关度都是不合理的。
发明内容
有鉴于此,实有必要提出一种文本自动摘要方法及装置,能解决现有抽取式摘要方 法的缺陷,具有普适性且准确率较高的特点。
本发明包括以下内容:
一种文本自动摘要方法,包括以下步骤:
将待摘要文档按照预定义的句子结束符号进行分割;
根据已有的文本语料库计算分割后每个句子的主题向量;
根据两两语句间共同出现的词语数量,确定两两语句的相关度;
根据每个句子的主题向量计算两两语句间的语义相似度;
利用所述各句子间的相关度及语义相似度计算所述每个句子的分值;
选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。
另一方面,本发明还公开了一种文本自动摘要装置,其特征在于,所述装置包括:
分割模块,用于将待摘要文档按照预定义的句子结束符号进行分割;
第一计算模块,用于根据已有的文本语料库计算分割后每个句子的主题向量;
第二计算模块,用于根据两两语句间共同出现的词语数量,确定两两语句的相关度;
第三计算模块,用于根据每个句子的主题向量计算两两语句间的语义相似度;
打分模块,用于利用所述各句子间的相关度及语义相似度计算所述每个句子的分值;
摘要输出模块,用于选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉数博科技有限责任公司,未经武汉数博科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810787848.1/2.html,转载请声明来源钻瓜专利网。