[发明专利]基于混合主题的文本标注方法及系统有效

专利信息
申请号: 201310691189.9 申请日: 2013-12-13
公开(公告)号: CN103699522A 公开(公告)日: 2014-04-02
发明(设计)人: 王勇;赵立军 申请(专利权)人: 东软集团股份有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京鸿元知识产权代理有限公司 11327 代理人: 陈英俊
地址: 110179 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 混合 主题 文本 标注 方法 系统
【说明书】:

技术领域

发明涉及文本标注技术领域,更为具体地,涉及一种基于混合主题的文本标注方法及系统。

背景技术

随着移动互联网和社交网络的推广,产生了大量的用户生成文本(User Generated Content,简称UGC),但是由于人们往往会使用不同的词语和表述方式表达类似的内容,因此,传统搜索引擎中广泛使用的基于词语的倒排索引来管理UGC内容的方法无法揭示UGC内在的相关性,无法对这些文本进行有效的维护、检索和推荐,所以,在语义层面理解文本的含义变得十分必要。

使用自然语言处理((Natural Language Processing,简称NLP)技术可以对UGC进行深度的理解,但是由于人类自然语言的复杂性,精确的理解是不可能的,而且也往往是不必要的。事实上,如果能够对文本进行语义标注,构建起词到语义概念的映射,则即使只能对UGC进行浅层分析,系统也能够判断UGC在语义概念空间上的分布,从而为UGC的管理、搜索和推荐提供切实的基础。

解决语义标注问题的一种思路是通过领域专家建立一个领域本体,该领域本体包含本领域的概念、概念实例、以及概念实例之间的关系(如“is a”、“has a”)。我们可以根据领域本体中的概念(在本发明的后续说明中,如不做特殊说明,所说的概念均包含领域概念和概念的实例)的各种词语表述,来对文本进行语义概念标注,当一个词语对应于多个语义概念的时候,可以根据文本上下文中的其他词语进行语义消歧。

和上述思路不同,隐含主题分析方法是一种基于无监督学习的统计方法,在这种方法中,对于给定的文本集合,系统通过参数能够估计确定一些隐含主题(Topic),每个主题是一个单词表上的概率分布,每篇文本则可以表示为在多个主题上的概率分布,和词袋模型中的单词相比隐含主题的维度要低得多,因此可以有效地避免词一级的噪音。

但是,这两种思路都不是完美的,前者虽然能够对文本产生易于理解的和符合人类直觉的语义标注,但是需要巨大的人工编辑工作,这在很多环境下是根本不可能的;而后者虽然能够通过机器学习的方法自动地学习到潜在的主题,但是学习到的主题的含义往往难以解释,而且其粒度往往过大,并且缺乏控制粒度的方法。

因此,需要一种新的文本标注方法解决上述两种思路中出现的问题。

发明内容

鉴于上述问题,本发明的目的是提供一种基于混合主题的文本标注方法及系统,通过混合主题结合,以保证领域本体的准确性、降低企业的资源文本的不断增加所造成的成本提示、确保系统准确性以及文本语义标注质量。

本发明提供一种基于混合主题的文本标注方法,包括:

步骤一:采用LDA算法对获取的概念文本进行学习;

其中,在采用LDA算法对获取的概念文本进行学习的过程中,针对概念文本,设定第一目标显式主题,对设定的第一目标显式主题进行学习,获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,

设定的第一目标显式主题的数量与概念文本的数量相同;

步骤二:采用LDA算法对获取的资源文本进行学习;

其中,在采用LDA算法对获取的资源文本进行学习的过程中,针对资源文本,设定目标主题;其中,

目标主题包括第二目标显式主题和目标隐含主题,并且,设定的目标隐含主题的数量小于资源文本的数量;以及,

根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化;

对第二目标显式主题初始化的结果和目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;

步骤三:根据在对资源文本进行学习的过程中获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布,对待标注文本进行语义标注。

此外,优选的方案是,在对设定第一目标显式主题进行学习的过程中,

采用如下的公式获得所述第一目标显式主题-单词的概率分布:

其中,d为概念文本;wi为概念文本中的当前单词;

zi为当前单词wi的主题分配;

z-i为概念文本除去wi之后其他所有单词的主题分配;

k是Topic的游标;t是单词的游标;

表示除掉单词wi后文本m下出现主题k的数量;

表示除掉单词wi后主题k下出现单词t的数量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310691189.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top