[发明专利]一种基于监督主题模型的文本标签推荐方法有效

专利信息
申请号: 201710442281.X 申请日: 2017-06-13
公开(公告)号: CN107239564B 公开(公告)日: 2021-03-19
发明(设计)人: 吕建;徐锋;姚远;吴勇 申请(专利权)人: 南京大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F40/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 李玉平
地址: 210008 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 主题 模型 文本 标签 推荐 方法
【说明书】:

发明公开了一种基于监督主题模型的文本标签推荐方法,通过考虑了标签及其相关词频繁出现于对应文本的特点,给出了一个新的监督文本主题模型Sim2Word,从而较好地解决了文本关键词抽取方法预测效率低和文本主题分析方法预测准确率低的问题。本方法分为两个主要步骤,首先基于词向量技术获取已有标签的相关词数据,之后利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签。在收集于StackOverflow等真实数据集上的实验表明,该方法较传统的文本标签推荐技术具有更高识别准确率。

技术领域

本发明涉及标签推荐,特别是文本标签推荐。许多拥有大量文本的在线网站中,标签和它的相关词经常出现或者多次出现在标签对应的文本内容中,而且这些词往往在文本内容中占有重要的地位。利用该观察信息,在词向量技术的基础上,获取标签的相关词,基于标签和相关词训练监督主题模型,有效增强了对新文本的标签推荐能力,提高了文本标签推荐系统的推荐精度。

背景技术

近年来,随着计算机互联网技术的迅速发展,标签系统已经在互联网上得到了广泛的使用。从一方面来看,标签通常代表着关键字,用来描述和总结在线的内容,使得对在线内容的信息组织和提取更为方便。而另一方面,目前有超过50%的在线内容缺乏足够的标签信息甚至没有包含标签。面对庞大的在线内容,对用户甚至是内容的创建者而言,人工地对内容进行标签标注都是极其困难的。手工方式标签标注不仅费时费力,还面临诸多挑战:一方面,用户往往缺乏专门的知识,难以标注合适的标签;另一方面,面对内容庞杂的在线文本,用户标注的标签往往不够全面和准确。因此,如何为在线内容自动化地推荐合适的标签,已经日益成为一个必要的工作。

以问答网站为例,用户可以在网站上发表提问帖子,寻求问题的解决方案。在发帖时用户需要为帖子标注上合适的标签。对问答网站来说,一个问题是否被标注上合适的标签对该问题是否能够得到及时回复影响很大。标注合适标签的问题,往往能够很快得到领域专业人士的回复,而标注不够全面和准确的标签的问题,可能在很长一段时间都得不到回复,或者得不到有效的解决方案。

在研究在线文本内容时,我们发现,许多拥有大量文本的在线网站中,标签和它的相关词经常出现或者多次出现在标签对应的文本内容中,而且这些词往往在文本内容中占有重要的地位。我们在多个真实数据集上对这类现象进行了实证研究,验证了这类现象的普遍存在,但仍然需要考虑如何将此观察现象进行建模,使得标签推荐方法能够利用更多的信息去提高标签推荐的准确率。

目前主流的文本标签推荐方法大致可分为两类:文本关键词抽取方法和文本主题分析方法。文本关键词抽取方法的基本思想是提取文本中的关键词,根据关键词,推荐出新文本的标签。此类方法将标签看作文本中的关键词,预测准确率较高,但在预测过程中需要大量计算开销,难以适用在线的文本标签推荐任务。文本主题分析方法的基本思想是发现文本中的主题,对主题进行建模,然后推荐出新文本的标签。此类方法的预测效率较高,但仅将标签看作文本主题,忽略了标签往往是一类重要的词,预测准确率较低。对于在线文本标签推荐来说,首先需要满足的是预测效率。在此基础上,考虑如何提高预测准确率。

为此,我们结合这两类方法的优点,在监督文本主题模型的基础上,考虑了标签及其相关词频繁出现于对应文本的特点,给出了一个新的监督文本主题模型Sim2Word。通过词向量技术获取已有标签的相关词数据,再利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签,从而地解决自动文本标签推荐的问题。

发明内容

发明目的:由于基于文本关键词抽取方法在预测过程中需要大量计算开销,难以适用在线的文本标签推荐任务,基于文本主题分析方法忽略了标签往往是一类很重要的词,预测准确率较低,而且标签和它的相关词经常出现或者多次出现在标签对应的文本内容中。为此,本发明在利用该观察信息和监督主题模型的基础上提出了一种新的文本标签推荐方法,有效地解决了文本标签推荐的准确率低下和效率低下问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710442281.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top