[发明专利]融合Wikipedia分类及显式语义特征的短文本检索方法有效
申请号: | 201910095679.X | 申请日: | 2019-01-31 |
公开(公告)号: | CN109871429B | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 李璞;张志锋;郑倩;邓璐娟;马军霞;梁辉;张世征;张王卫;李玉华 | 申请(专利权)人: | 郑州轻工业学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338 |
代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 栗改 |
地址: | 450002 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种融合Wikipedia分类及显式语义特征的短文本检索方法,针对当前短文本检索方法面临的局限性,根据Wikipedia中的语义信息选择和目标短文本最为相关的特征概念作为显式语义特征构建低维特征向量;通过分析这些特征概念在Wikipedia中对应的分类结构,计算特征向量中对应位置的不同分量之间的关联系数,将两个不同的特征向量转化到相同的语义空间中并计算语义关联度;根据语义关联度进行排序并返回结果,从而实现短文本的检索。通过对比实验表明,本发明提高了在大数据环境下短文本理解及检索的计算效率和计算准确度,具有更好的检索效果,为更加合理地选取特征信息,提供了后续研究思路。 | ||
搜索关键词: | 融合 wikipedia 分类 语义 特征 文本 检索 方法 | ||
【主权项】:
1.一种融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,其步骤如下:步骤一:用户输入查询信息q,对短文本数据集、查询信息q及Wikipedia知识源进行预处理;步骤二:对用户的查询信息q进行显示语义特征筛选;步骤三:对短文本数据集中的目标短文本d进行显式语义特征筛选;步骤四:根据Wikipedia数据源中的分类结构对目标短文本d和查询信息q对应的显式语义特征列表进行类图构建;步骤五:计算目标短文本d和查询信息q所对应的显式语义特征列表对应维度上语义特征的语义关联系数;并在低维显式语义空间下,计算目标短文本d和查询信息q的语义关联度;步骤六:对短文本数据集中的所有短文本重复执行步骤三‑步骤五,直到循环计算完短文本数据集中的所有短文本;步骤七:根据短文本数据集中各短文本与查询信息q的语义关联度对短文本数据集中的所有短文本进行排序,将排序后的短文本列表中的相关短文本返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业学院,未经郑州轻工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910095679.X/,转载请声明来源钻瓜专利网。