[发明专利]基于语义图谱的短文本特征扩展方法有效
申请号: | 201410686237.X | 申请日: | 2014-11-25 |
公开(公告)号: | CN104391942B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 徐博;王鹏;王方圆;张恒;郝红卫 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义图谱的短文本特征扩展方法,包括以下步骤利用短文本训练数据集进行主题建模,抽取主题词分布;对主题词分布进行重排序;构建候选关键词词典和主题‑关键词语义图谱;基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价,选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单,执行效率高,而且充分利用关键词之间的语义关联信息,较传统的基于词袋模型的短文本特征表示方法,有效缓解了数据稀疏性问题和语义敏感性问题,不依赖于外部大规模辅助训练语料或者搜索引擎。 | ||
搜索关键词: | 基于 语义 图谱 文本 特征 扩展 方法 | ||
【主权项】:
一种基于语义图谱的短文本特征扩展方法,其特征在于,包括以下步骤:步骤1,使用短文本训练数据集进行主题建模,提取每一个主题下的关键词概率分布;步骤2,采用基于主题概率分布的指数变换排序方法,对每一个主题下的关键词分布进行重排序,获得重排序的主题表示;步骤3,基于重排序的主题表示,对于每一个主题,选择前N个关键词生成由候选关键词构成的候选关键词词典,并构建主题‑关键词语义图谱;步骤4,采用候选关键词词典与目标短文本中的短语进行匹配的方法对目标短文本进行过滤,将匹配到的短语作为种子关键词,利用主题‑关键词语义图谱,候选关键词词典中所有元素的相似度,提取前V个最相似的候选关键词对所述种子关键词进行扩展;步骤2中基于主题概率分布的指数变换排序方法,其评分计算方法是对每一个主题下关键词的分布进行指数变换然后对每一个关键词估计一个显著度值公式为其中,是主题Z下第i个关键词的概率分布值,K是总的主题个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410686237.X/,转载请声明来源钻瓜专利网。