[发明专利]基于混合主题的文本标注方法及系统有效
申请号: | 201310691189.9 | 申请日: | 2013-12-13 |
公开(公告)号: | CN103699522A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 王勇;赵立军 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 主题 文本 标注 方法 系统 | ||
技术领域
本发明涉及文本标注技术领域,更为具体地,涉及一种基于混合主题的文本标注方法及系统。
背景技术
随着移动互联网和社交网络的推广,产生了大量的用户生成文本(User Generated Content,简称UGC),但是由于人们往往会使用不同的词语和表述方式表达类似的内容,因此,传统搜索引擎中广泛使用的基于词语的倒排索引来管理UGC内容的方法无法揭示UGC内在的相关性,无法对这些文本进行有效的维护、检索和推荐,所以,在语义层面理解文本的含义变得十分必要。
使用自然语言处理((Natural Language Processing,简称NLP)技术可以对UGC进行深度的理解,但是由于人类自然语言的复杂性,精确的理解是不可能的,而且也往往是不必要的。事实上,如果能够对文本进行语义标注,构建起词到语义概念的映射,则即使只能对UGC进行浅层分析,系统也能够判断UGC在语义概念空间上的分布,从而为UGC的管理、搜索和推荐提供切实的基础。
解决语义标注问题的一种思路是通过领域专家建立一个领域本体,该领域本体包含本领域的概念、概念实例、以及概念实例之间的关系(如“is a”、“has a”)。我们可以根据领域本体中的概念(在本发明的后续说明中,如不做特殊说明,所说的概念均包含领域概念和概念的实例)的各种词语表述,来对文本进行语义概念标注,当一个词语对应于多个语义概念的时候,可以根据文本上下文中的其他词语进行语义消歧。
和上述思路不同,隐含主题分析方法是一种基于无监督学习的统计方法,在这种方法中,对于给定的文本集合,系统通过参数能够估计确定一些隐含主题(Topic),每个主题是一个单词表上的概率分布,每篇文本则可以表示为在多个主题上的概率分布,和词袋模型中的单词相比隐含主题的维度要低得多,因此可以有效地避免词一级的噪音。
但是,这两种思路都不是完美的,前者虽然能够对文本产生易于理解的和符合人类直觉的语义标注,但是需要巨大的人工编辑工作,这在很多环境下是根本不可能的;而后者虽然能够通过机器学习的方法自动地学习到潜在的主题,但是学习到的主题的含义往往难以解释,而且其粒度往往过大,并且缺乏控制粒度的方法。
因此,需要一种新的文本标注方法解决上述两种思路中出现的问题。
发明内容
鉴于上述问题,本发明的目的是提供一种基于混合主题的文本标注方法及系统,通过混合主题结合,以保证领域本体的准确性、降低企业的资源文本的不断增加所造成的成本提示、确保系统准确性以及文本语义标注质量。
本发明提供一种基于混合主题的文本标注方法,包括:
步骤一:采用LDA算法对获取的概念文本进行学习;
其中,在采用LDA算法对获取的概念文本进行学习的过程中,针对概念文本,设定第一目标显式主题,对设定的第一目标显式主题进行学习,获得概念文本中的单词在第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,
设定的第一目标显式主题的数量与概念文本的数量相同;
步骤二:采用LDA算法对获取的资源文本进行学习;
其中,在采用LDA算法对获取的资源文本进行学习的过程中,针对资源文本,设定目标主题;其中,
目标主题包括第二目标显式主题和目标隐含主题,并且,设定的目标隐含主题的数量小于资源文本的数量;以及,
根据在概念文本学习中获得的第一目标显式主题-单词的概率分布对第二目标显式主题进行初始化;
对第二目标显式主题初始化的结果和目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;
步骤三:根据在对资源文本进行学习的过程中获得的第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布,对待标注文本进行语义标注。
此外,优选的方案是,在对设定第一目标显式主题进行学习的过程中,
采用如下的公式获得所述第一目标显式主题-单词的概率分布:
其中,d为概念文本;wi为概念文本中的当前单词;
zi为当前单词wi的主题分配;
z-i为概念文本除去wi之后其他所有单词的主题分配;
k是Topic的游标;t是单词的游标;
表示除掉单词wi后文本m下出现主题k的数量;
表示除掉单词wi后主题k下出现单词t的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310691189.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车载式色盲辅助驾驶装置
- 下一篇:汽车轮胎石子清除器