[发明专利]一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法有效
申请号: | 201510082519.3 | 申请日: | 2015-02-15 |
公开(公告)号: | CN104699766B | 公开(公告)日: | 2018-01-02 |
发明(设计)人: | 张宇;刘妙 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司33224 | 代理人: | 蒋琼 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,包括构建语料库,并利用语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵;利用构建的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵,结合分句的上下文语境依次对待分析评论数据集中需要进行隐式属性挖掘的每一条分句进行挖掘,从而得到隐式属性挖掘的结果。本发明综合利用了两种不同的词语关联关系属性词与情感词之间的修饰关系、属性词与实词之间的共现关系,并融合分句的上下文语境进行推断,从而大大提高了隐式属性挖掘的准确率。 | ||
搜索关键词: | 一种 融合 词语 关联 关系 上下文 语境 推断 属性 挖掘 方法 | ||
【主权项】:
一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特征在于,包括如下步骤:(1)构建语料库,并利用所述的语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵;(2)依次对待分析评论数据集中的每一条分句进行处理,对当前分句进行处理时,首先利用所述的属性词词典判断当前分句是否需要进行隐式属性挖掘,通过以下方法判断当前分句是否需要进行隐式属性挖掘:首先判断该分句是否为观点句,如果不是观点句,则不需要进行隐式属性挖掘;如果是观点句,则利用正则表达式判断该分句是否表期望、祝愿或假想:如果是,则不需要进行隐式属性挖掘;如果不是,则需要进行隐式属性挖掘;若不需要,则直接处理下一条分句,否则,进行如下操作:(2‑1)利用所述的情感词词典和属性词‑情感词修饰矩阵确定当前分句的候选属性词数组Af;步骤(2‑1)包括如下操作:(2‑11)利用所述的情感词词典,抽取当前分句中所有的情感词形成情感词数组Ao;(2‑12)利用如下公式计算当前分句的情感词数组Ao中每一个情感词与其修饰的任意一个属性词fi之间的点态互信息值:PMI(fi,oj)=logP(fi,oj)P(fi)P(oj)]]>其中,1≤i≤n,n为属性词词典中属性词的个数,oj为情感词数组Ao中的情感词,1≤j≤no,no为情感词数组Ao中情感词的个数,P(fi,oj)为属性词fi和情感词oj在所述的参考评论数据集中共现的次数,P(fi,oj)是从所述的属性词‑情感词修饰矩阵中读取得到的,P(fi)、P(oj)分别为属性词fi和情感词oj在所述的参考评论数据集中出现的次数;(2‑13)根据情感词数组Ao中每个情感词与其修饰的属性词之间的点态互信息值,选取点态互信息值最高的3个属性词作为候选属性词,然后将根据情感词数组Ao中所有情感词选取的候选属性词进行融合,删除其中重复的属性词构建出当前分句的候选属性词数组Af,并将Af中每一个属性词fi的上下文权值的初值赋为1;(2‑2)分析当前分句的上下文语境,如果其前一条分句或后一条分句中存在显式属性词fi,且则将fi加入到当前分句的候选属性词数组Af中,并将fi的上下文权值赋值为1;若fi∈Af,则增大fi的上下文权值1≤i≤nf,nf表示候选属性词数组Af中属性词的个数;(2‑3)利用所述的情感词词典和实词词典构建当前分句的实词数组At,针对当前分句的候选属性词数组Af中的每一个属性词,根据属性词和实词的共现次数、实词数组At中每个实词在参考评论数据集中的出现情况以及属性词的上下文权值计算该属性词与实词数组At中所有实词的加权关联值,并选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果;步骤(2‑3)包括如下操作:(2‑31)利用所述的实词词典,抽取当前分句中所有的实词形成实词数组At,并删除实词数组At中的情感词;(2‑32)利用如下公式计算候选属性词数组Af中的每一个属性词fi与实词数组At中所有实词的关联值:T(fi)=Σk=1vP(fi|tk)v,]]>其中,T(fi)为属性词fi与实词数组At中所有实词的关联值,tk为实词数组At中的实词,1≤i≤nf,nf表示候选属性词数组Af中属性词的个数,1≤k≤v,v表示实词数组At中实词的个数,P(fi|tk)为所述的参考评论数据集中属性词fi与实词数组At中实词tk共现情况下的条件概率,根据如下公式计算:P(fi|tk)=P(fi,tk)P(tk)=nc/nnntk/nn=ncntk,]]>其中,nc表示所述的参考评论数据集中属性词fi和实词tk的共现次数,nc从所述属性词‑实词共现矩阵中读取得到,表示实词tk在参考评论数据集中出现的次数,nn表示实词词典中所有实词在参考评论数据集中出现的次数;(2‑33)对于候选属性词数组Af中的每一个候选属性词fi,用如下公式计算其与实词数组At中所有实词的加权关联值T'(fi):T′(fi)=wfi×T(fi)]]>其中,为每个候选属性词fi的上下文权值,1≤i≤nf,nf表示候选属性词数组Af中属性词的个数,并根据计算结果选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510082519.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种对象编号的生成方法和装置
- 下一篇:一种计算全文检索查全率的方法及装置