[发明专利]一种基于句义结构模型的文本数据生成观点摘要的方法及系统有效
申请号: | 201911205403.9 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110889292B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 廖祥文;李晓滨;陈志豪;陈癸旭;吴运兵 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F16/34 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 模型 文本 数据 生成 观点 摘要 方法 系统 | ||
1.一种基于句义结构模型的文本数据生成观点摘要的方法,其特征在于,包括以下步骤:
提取网站上的待处理数据集,并对其进行预处理;
构建话题语料集和背景语料集,并提取话题属性;
进行语义权值计算,得到句子的语义权重值;
进行关联权重计算,得到句子的关联权重值;
利用话题属性、语义权重值以及关联权重值在话题中抽取观点摘要;
所述语义权值计算包括以下步骤:
步骤S11:利用基于情感词典的情感分析方法计算每个句子的情感得分作为情感特征;
步骤S12:利用基于语义词典的语义词提取方法提取词法特征;
步骤S13:利用BFS-CSA分析句子得到句义结构特征;
步骤S14:计算句子的语义权重;
步骤S14具体为:利用句义结构特征F6和词法特征计算句子的语义权重,其中词法特征划分为5种,分别为句子有效词的平均TFIDF*POS词权重F1、句子中话题词的覆盖率F2、句子谓词包含话题词的个数F3、句子一般格式包含话题词的个数F4、以及句子有效词包含情感词的个数F5;语义权重值计算方法如下:
式中,Pcon(S)为句子S的语义权重值,Fi和μi分别代表句子的语义特征值和该特征的加权系数;
所述关联权重计算包括以下步骤:
步骤S21:利用句义结构划分词语,生成词向量表示,进而得到句子的表示向量;
步骤S22:通过计算句子的表示向量的余弦相似度得到两个句子的相似度;
步骤S23:以文档集合的句子为结点,以句子间的联系为边,以句子间的相似度为权值构建句子图模型,通过其他句子对该句的语义重合度得到句子的关联权重值;
步骤S23中句子的关联权重值R(Sk,Sj)计算采用下式:
R(Sk,Sj)=Pcon(Sj)*s(Sk,Sj);
式中,s(Sk,Sj)表示句子Sj对句子Sk的相似性,Pcon(Sj)表示句子Sj的语义权重值;
利用话题属性、语义权重值以及关联权重值在话题中抽取观点摘要具体为:每个话题的平均句子权重由语义权重值和关联权重值加权得到,最后选择得分最高的20个句子作为观点摘要。
2.根据权利要求1所述的一种基于句义结构模型的文本数据生成观点摘要的方法,其特征在于,所述网站上的待处理数据集包括微博数据、网站新闻数据与商品评论数据。
3.根据权利要求1所述的一种基于句义结构模型的文本数据生成观点摘要的方法,其特征在于,所述预处理具体为:
去除评论句子中的网页链接;
去除字符长度小于3的评论句子;
去除评论句子中的常用不相关词;
将所有英文统一表示成小写英文。
4.根据权利要求1所述的一种基于句义结构模型的文本数据生成观点摘要的方法,其特征在于,所述构建话题语料集和背景语料集,并提取话题属性具体为:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集,借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用预设的阈值对单词进行过滤,其中单词词性要求必须是名词、形容词、动词、数词,提取话题语料集的话题属性。
5.一种基于句义结构模型的文本数据生成观点摘要系统,其特征在于,包括存储器、处理器以及存储在存储器上并能够被处理器所运行的计算机程序,当处理器运行该计算机程序时实现如权利要求1-4任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911205403.9/1.html,转载请声明来源钻瓜专利网。