[发明专利]基于语义图谱的短文本特征扩展方法有效
申请号: | 201410686237.X | 申请日: | 2014-11-25 |
公开(公告)号: | CN104391942B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 徐博;王鹏;王方圆;张恒;郝红卫 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 图谱 文本 特征 扩展 方法 | ||
1.一种基于语义图谱的短文本特征扩展方法,其特征在于,包括以下步骤:
步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分布;
步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进行重排序,获得重排序的主题表示;
步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选关键词构成的候选关键词词典,并构建主题-关键词语义图谱;
步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤,将匹配到的短语作为种子关键词,利用主题-关键词语义图谱,候选关键词词典中所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展;
步骤2中基于主题概率分布的指数变换排序方法,其评分计算方法是对每一个主题下关键词的分布进行指数变换然后对每一个关键词估计一个显著度值
公式为
其中,是主题Z下第i个关键词的概率分布值,K是总的主题个数。
2.根据权利要求1所述的方法,其特征在于,步骤3中主题-关键词语义图谱构建方法为:
步骤3.1:对于每一个重排序的主题,选择前N个关键词作为候选关键词,所有主题的候选关键词构成候选关键词词典;
步骤3.2,将每一个主题选取的候选关键词作为叶子节点,相应的主题索引作为父亲节点,生成一个有向二分图的团簇,所有的主题构成一个主题-关键词语义图谱;
步骤3.3,将步骤2中计算所得显著度值,设置为主题-关键词语义图谱中父亲节点指向叶子节点的连接边上的权值。
3.根据权利要求1或2中任一项所述的方法,其特征在于,种子关键词和候选关键词的相似度的计算包括以下步骤:
步骤4.1:计算种子关键词和候选关键词词典中所有元素的结构相似度,公式为.
SR(swi,cwj)=SAS(swi)SAS(cwj)s(swi,cwj)
其中,swi是目标短文本中第i个种子关键词,cwj是候选关键词词典中第j个候选关键词,SAS(swi)为swi的显著度值,SAS(cwj)cwj为cwj的显著度值,s(swi,cwj)是传统基于链接分析的结构相似度计算方法计算的swi与cwj的相似度的值,SR(swi,cwj)是计算出的swi与cwj结构相似度的值;
步骤4.2:计算种子关键词和候选关键词词典中所有元素的语义相似度,包括如下步骤:
a、提取swi对应的主题分布向量提取cwj对应的主题分布向量
b、利用和计算种子关键词和候选关键词的K-L散度,并以该值作为语义相似度;
步骤4.3:综合结构相似度和语义相似度对关键词进行综合评分,公式为
其中,KL(swi,cwj)是种子关键词swi和候选关键词cwj之间的K-L散度,CScore(swi,cwj)是计算出的swi与cwj结构相似度和语义相似度的综合评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410686237.X/1.html,转载请声明来源钻瓜专利网。