[发明专利]一种基于规则和统计学习的变形实体识别方法和装置有效
申请号: | 201910048233.1 | 申请日: | 2019-01-18 |
公开(公告)号: | CN110008307B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 虎嵩林;黄龙涛;周艳;吕尚文 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 统计 学习 变形 实体 识别 方法 装置 | ||
本发明涉及一种基于规则和统计学习的变形实体识别方法和装置。该方法定义目标实体生成变形实体的规则,并且通过这些规则定义演绎生成算法,为每个目标实体生成大量的候选变形实体集合;利用目标实体和变形实体所在文本的上下文语义相似性,提出基于统计学习的方法来识别出上面候选变形实体集合中真正对应于目标实体的变形实体。本发明既可以找到尽可能多的变形实体,又通过识别模型保证了最终识别出的变形实体的准确性,具有良好的实用性。
技术领域
本发明涉及统计学习与自然语言处理技术,具体涉及一种基于规则和统计学习的变形实体识别方法。
背景技术
变形实体是指用户为了某种原因用实体的别名来替代真实实体的一种现象。变形实体广泛存在于社交网络上,并经常被用来表达使用者的某种情绪,比如:讽刺、积极、消极等。例如某人的体现其某种特征(如身材等)的别名或昵称等。
变形实体的识别对于检索,实体链接以及事件抽取等任务都有很好的促进作用,但是识别出实体对应的变形实体却是比较困难的。这是由于变形实体很少和它所指的真实实体同时出现,并且人们使用变形实体时经常采用一些非正式的、模糊不清的用词。本发明主要解决给出一些中文人名,利用网络上所有可用信息,比如:用户生成的内容、wikipedia、知识库等,尽可能准确且多的找到这些中文人名对应的变形实体。
目前,已有一些对变形实体识别的方法。有的方法把目标实体和变形实体作为种子,查找目标实体和变形实体之间的共现模板,但是这类方法只能识别出目标实体和变形实体共同出现在一个文本内容中的情况;有的方法假设变形实体已经被识别出来的,把变形实体直接链接到对应的目标实体,但是往往找出变形实体这个过程是很困难的;另外还有的方法预定义一些规则来生成变形实体,但是这些规则是离散的,很难覆盖比较多的情况。
发明内容
为了克服上述现有技术的缺陷,本发明提出一种基于规则和统计学习相结合的方法来识别人名变形实体,既可以充分利用规则的演绎生成大量的候选变形实体,又可以利用变形实体和目标实体上下文的语义的相似性来对生成的错误变形实体进行过滤,得到正确的变形实体。
本发明的技术方案如下:
一种基于规则和统计学习的变形实体识别方法,包括如下步骤:
1)利用规则,通过演绎的方式为每个目标实体生成对应的候选变形实体;
2)基于统计学习的方法,从候选变形实体中选出和目标实体对应的变形实体。
进一步地,步骤1)所述规则的构建方法为:
通过观察已有的变形实体,提出假设1:人们在创造变形实体(如变形词)的时候主要受到和目标实体相关的人、事件、属性、概念等信息的启发;
根据上面的观察,提出6种规则并用它们生成候选的变形实体。
进一步地,所述6种规则具体定义为:
common knowledge(CK)表示和目标实体相关的常识;related events(RE)表示和目标实体相关的事件;phonetic similarity(PS)表示和实体中某个字的读音相似的规则;spelling decomposition(SD)表示把实体中的字进行拆分;address terms(AT)表示可以用来强调实体的规则;semantic inference(SI)表示和实体中词具有语义近似关系的规则。
进一步地,步骤1)利用上面的规则,为每个目标实体自动构建满足相关规则的构造词,这些构造词和目标实体之间的关系即为上面定义的6种规则;然后根据定义的规则以及生成的构造词,定义一种演绎的方式来为每个目标实体生成对应的候选变形实体。
较佳地,把构造词根据生成的规则分为两大类:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910048233.1/2.html,转载请声明来源钻瓜专利网。