[发明专利]一种基于深度语义辨析的文本推荐方法有效
申请号: | 201710000406.3 | 申请日: | 2017-01-03 |
公开(公告)号: | CN107832312B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 郐弘智;陈建辉;盛文瑾;闫健卓 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9532;G06F16/332;G06F16/36 |
代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 韩剑峰 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 语义 辨析 文本 推荐 方法 | ||
技术领域
本发明涉及推荐技术领域,涉及一种基于深度语义辨析的文本推荐方法,特别涉及一种基于类脑“分层-发散”思考模式构建的深度语义网格模型与文本主题情景语义辨析的推荐方法。
背景技术
推荐系统在上世纪90年代被提出,早期的推荐系统主要关注于检索结果的形式相似性,而忽略了检索结果与查询的语义相关性,导致推荐结果的噪音很大。近几年,随着无纸化数据的爆发式增长,信息检索的有效性问题引起了研究人员的广泛关注,提出多种基于语义的信息检索方法。在个性化语义推荐方面,主要分为形式语义学和社会语义学两类方法。
社会语义学方法一方面通过分析用户日志、用户标签、领域流行度和用户活跃度等信息,构建用户人体画像,达到个性化推荐的效果;另一方面基于用户相似性和项目相似性的方法,通过最相似的若干用户对某个项目的评分逼近目标用户对该项目的评分达到推荐效果,例如协同过滤方法。前者提高了检索结果的兴趣相关性,但是需要分析大量的用户行为数据,显然大部分用户的数据达不到这个要求,同时,这种方法的本质是兴趣关键词的形式匹配,缺乏语义分析和潜在兴趣挖掘的能力;后者虽然更加人性化,并且具有较强的挖掘潜在兴趣文档的能力,但是由于反馈的结果复杂多样,反而导致出现大量与查询不相关的内容。同时,随着数据推荐维度的不断扩大,数据稀疏性引起的冷启动问题,特别是在一个新用户或者一系列新领域文献资料进入系统时,由于没有足够的信息支撑,使得推荐效果下降。
形式语义学推荐系统大部分采用基于本体的语义查询技术。这种方式将文档信息抽象到概念层,概念与概念之间利用不同语义关系连接在一起,形成一种类脑思维模式的网状结构。由于该方法直接从概念层对文本进行操作,并且绝大部分应用于结构化知识库的检索,所以结果的语义相关性提高十分明显。但是,在利用这些方法对文本进行推荐时,并没有考虑到概念在文本中隐含的情景语义,导致文档向本体映射的过程中出现语义模糊的情况。因此,现有技术还有待于改进和发展。
发明内容
有鉴于现有技术的不足,本发明提供了一种基于深度语义辨析的文本推荐方法,旨在解决现有推荐方法语义相关性有待提高的问题。
为解决上述技术问题,本发明所采取的技术方案具体包括如下步骤:
步骤1:基于类脑“分层-发散”思考模式构建深度语义网格模型;
步骤2:结合“网格主题-同义词袋”模型和词匹配技术推理文本的网格主题集,其次,利用网格模型的“联想-记忆”功能将分散的主题联结,接着,利用情景语义分析功能推理不同激活主题在当前文本下的情景标签,最后,构建融合多种情景语义以及记忆联结的文本主题树;
步骤3:根据用户兴趣对文本主题树进行剪枝处理,即过滤掉不符合用户当前情景状态的主题和关系,从而构建基于情景语义筛选的文本主题树;
步骤4:利用TF-IDF算法统计数据库中所有经过情景语义筛选后的文本主题树,计算主题的权重值并映射到相应的网格主题节点中,从而为每篇文档构建出用户文本兴趣画像;
步骤5:根据伪相关反馈方法抽取出与用户查询内容相关的文档以及相应的情景语义筛选后的文本主题树,统计反馈树中主题的频次并做归一化处理得到初始兴趣主题激活值;
步骤6:利用激活扩散机制计算反馈学习下初始兴趣网格主题与潜在兴趣网格主题的全局动态激活值,将计算结果赋值给网格模型中相应的主题节点,构建融合当前情景语义的用户查询兴趣画像;
步骤7:利用基于网格的余弦相似度计算方法,为用户查询兴趣画像和用户文本兴趣画像之间的深度语义相关度进行评分,并生成推荐列表进行推荐。
进一步的,本发明步骤1所述的深度语义网格模型是依据类脑“分层-发散”思维模式的构建方法,所述步骤1构建过程具体包括:
步骤1-1,选取具有多领域融合的分类本体,利用Stanford大学的自然语言处理工具对本体中主题作语义拆分和词性还原处理得到核心主题集,按照本体的记忆特性将核心主题连接成发散的网格模型;
步骤1-2,构建“网格主题-同义词袋”语义映射模型,“主题”代表分层网格模型中核心主题,“词袋”是通过抽取上述主题在WordNet词典中的同义术语集合组成。若“主题-词袋”模型中术语在文本中出现,则该主题被激活并将对应的网格节点属性设置为“1”,实现文本浅层语义主题挖掘功能;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710000406.3/2.html,转载请声明来源钻瓜专利网。