[发明专利]一种基于概念语义基元的文摘自动生成方法有效

专利信息
申请号: 201410309528.7 申请日: 2014-06-30
公开(公告)号: CN105320642B 公开(公告)日: 2018-08-07
发明(设计)人: 张全;袁毅;韦向峰;丛培民;杜义华;池毓焕 申请(专利权)人: 中国科学院声学研究所
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京方安思达知识产权代理有限公司 11472 代理人: 王宇杨;吕爱霞
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于概念语义基元的文摘自动生成方法,包含:利用概念语义基元作为语义计算和文档内容表示的载体,通过对文档语义内容的汇聚,获取文档内容的语义重心,然后根据语义重心选择代表文档内容的文摘句构成文档摘要的自动生成方法。本发明利用潜在狄利克雷分配(LDA)模型对文档主题进行建模,实现主题生成处理,按照主题重要度选择文摘句。在计算过程中引入概念层次网络符号,并利用其中的语义层次关系实现对语义信息的归并,改善以词语作为语义计算单元而造成的数据稀疏问题。
搜索关键词: 一种 基于 概念 语义 文摘 自动 生成 方法
【主权项】:
1.一种基于概念语义基元的文摘自动生成方法,所述方法包含:步骤101)利用文档中语句的语义信息对文档主题进行LDA建模,获得语义主题模型;步骤102)根据获得的语义主题模型,即LDA模型,进一步计算文档的语义重心,所述文档的语义重心指文档的“语句‑‑主题分布”和“主题‑‑概念语义基元分布”;步骤103)根据语义重心的表述,选择若干语句作为文摘句进行输出;所述步骤101)进一步包含:步骤101‑1)抽取输入文档的正文内容和标题;步骤101‑2)根据文档中的标点符号将抽取的正文内容划分为若干语句,且将标题作为一个独立的语句,进而得到文档的语句集合;步骤101‑3)为语句集合中的各语句增加序号信息和段标识信息,进而得到文档语句集合,其中,所述序号信息用于表示各语句属于文档的第几个句子;所述段标识信息用于表示各语句在一个段落中处于段首、段中还是段尾;步骤101‑4)对文档语句集合中的语句进行词语切分和概念语义基元符号映射,将各个语句中的词语与一个或若干个概念语义基元符号相对应,再对得到的概念语义基元符号进行层次分解,进而得到不同层次的概念语义基元符号的频次,最后将得到各个概念语义基元符号的频次特征输入潜在狄利克雷分配模型;步骤101‑5)通过潜在狄利克雷分配模型对输入信息的处理,进而得到语义主题模型;所述步骤101‑4)包括:步骤101‑4‑1)对文档语句集合中的语句进行词语切分和概念语义基元符号映射,进而将各个语句与一个或若干个概念语义基元符号相对应;并过滤词语切分后得到的连词、介词,进而保留实词;步骤101‑4‑2)从保留的实词中提取词语对应的、以概念层次网络符号表示的词语语义,计算概念语义基元符号的频次;步骤101‑4‑3)根据概念语义基元符号的层次关系,得到词语对应的概念语义基元符号的父节点和祖先节点,自底向上将底层节点的频次信息添加到上层节点上;步骤101‑4‑4)记录所有概念语义基元符号的频次信息,其中概念语义基元符号包括语句中词语对应的概念语义基元符号以及这些概念语义基元符号的祖先节点符号。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410309528.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top