[发明专利]一种基于话题多样性的文本数据观点摘要挖掘方法有效
申请号: | 201810166896.9 | 申请日: | 2018-02-28 |
公开(公告)号: | CN108268668B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 廖祥文;陈国龙;赵楠;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/36;G06F16/33 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 话题 多样性 文本 数据 观点 摘要 挖掘 方法 | ||
1.一种基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:
步骤S1:对话题文本进行预处理,过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;
步骤S2:输入话题语料集和背景语料集;
步骤S3:提取话题语料集的话题属性;
步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;
步骤S4中包括以下具体步骤:
将得到的话题属性作为评价对象,利用面向多评价对象的动态词序列情感分析方法分析评价对象在句子中的情感极性,给话题属性分别加上正面或负面情感极性,分别得到正面的话题属性和负面的话题属性;
步骤S5:将步骤S3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化;
其中面向多评价对象的动态词序列情感分析方法是基于情感词典的词袋模型,主要分为两步:第一步利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;第二步利用情感词典匹配每个评价对象的词序列情感词,利用情感词的极性和权重计算该评价对象的情感倾向,根据句子中的话题属性和情感极性得到句子特征向量;
步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数;
步骤S6中构建多样性目标函数,目标函数保证挑选一定数量的句子集合包含的情感话题属性最多,将此句子集合作为观点摘要,由此保证最终得到的观点摘要多样性最好;
目标函数的构建包括以下步骤:首先构建融合话题多样性和句子重要性的观点句子评分函数,评分函数中考虑句子与摘要集合之间的话题属性差异,并融合句子的重要性,利用话题属性权重和句子包含的话题属性得到句子的重要性,每次选择使得观点摘要集合话题多样性增加最大的句子加入到观点摘要中,其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数。
2.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S1中的过滤规则如下:
(1)、去除评论句子中的网页链接;
(2)、去除字符长度小于3的评论句子;
(3)、去除评论句子中的常用不相关词;
(4)、将所有英文表成小写或大写。
3.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S2 包括以下步骤:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。
4.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S3借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,提取话题语料集的话题属性,其中单词词性要求必须是名词、形容词、动词或数词。
5.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:
将步骤S4中带有情感的话题属性作为情感话题属性,并作为特征用于步骤S6的句子特征向量化;
其中词序列的方法流程简述如下:
步骤S41:确定评价对象在句子中的位置;针对每一个句子,以话题属性集合中的话题属性为评价对象,按照句子前到后的方向确定各个评价对象在句子中的位置,位置从小到大;
步骤S42:以句子中评价对象的位置为中心向左右两个方向扩展,直到遇到标点符号或其他评价对象;
若向左或向右遇到标点符号,则截取标点符号到评价对象内的左词序列或右词序列;
若向左或向右遇到其他评价对象,则取两个评价对象的位置坐标的中间坐标,截取中间坐标到评价对象位置的词序列作为左词序列或右词序列;
步骤S423:经过上述步骤后得到某一评价对象的左词序列和右词序列,左词序列和右词序列合并得到该评价对象完整的词序列,其中是评价对象,做情感分析时去掉,参数范围,两者具体的值是动态变化的,没有固定值,对于两个不同词序列存在两者的参数值不一样;同时,对于任意两个动态词序列和,满足条件,即两个词序列没有重合的单词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810166896.9/1.html,转载请声明来源钻瓜专利网。