[发明专利]一种实体识别方法及系统有效
申请号: | 201810101815.7 | 申请日: | 2018-02-01 |
公开(公告)号: | CN108491373B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 任可欣;冯知凡;陆超;张扬;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 方法 系统 | ||
本申请提供一种实体识别方法,所述方法包括:利用自然语言处理方法对输入文本进行分词并进行实体标注;根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配;判断命中知识库实体词典的字符串是否符合预设词性规则,将符合预设词性规则的字符串作为实体修正结果;利用所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正。修正了分词边界错误减少了实体识别的人力成本,提高了整体效率,改善了未收录实体的识别效果。
【技术领域】
本申请涉及自然语言处理技术领域,尤其涉及一种实体识别方法及系统。
【背景技术】
Entity实体是指存在于现实世界中并且可以与其他物体区分开来的物体。EntityMention是指自由文本中可以表示一个实体的字符子串。实体识别是指对文本中的人名、地名等专有名称进行识别。例如,输入短文本,如query,title等,输出短文本中的Entity实体;如,输入“周杰伦昆凌婚礼”,输出“周杰伦昆凌婚礼”,以达到实现对文本理解的目的。
实体识别是信息提取、问答系统、句法分析、实体链指、机器翻译等应用领域重要的基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
传统的实体识别方法主要分为:
(1)基于领域规则和词典的方法。该方法基于语言学家手工编写的语法规则,根据词法、句法等相关信息进行识别。
(2)基于机器学习的方法。基于已经人工标注好的训练预料,训练诸如条件随机场、隐马尔可夫模型等序列标注模型,从而对未标注数据进行预测。
但是,上述方案都需要大量的人力成本,并且对于未收录实体的识别效果较差。
首先,基于规则和字典的方法,需要领域专家配置规则,一般在小数据集上准确较高,但是召回低;并且不能识别词典之外的实体,即使在词典内,基于规则词典的方法无法解决实体歧义问题;很难扩展到多领域,领域专家配置规则人力成本较大。
其次,基于机器学习的方法,作为目前主流的解决方案,为了取得比较好的训练效果,需要人力标注高质量的训练模型,人力成本较高;由于是从标注的训练数据中学习,对于未收录实体识别效果较差;并且对没有明显特征的实体,如歌曲名、影视名等识别效果较差。
另外,由于短文本,如query,title等,表达不规范及一些新热门实体的出现,会导致基础的分词工具会将一些新出现的实体切散,造成识别效果较差。
【发明内容】
本申请的多个方面提供一种实体识别方法及系统,用以减少实体识别的人力成本,提高整体效率,改善未收录实体的识别效果。
本申请的一方面,提供一种实体识别方法,包括:
对输入文本进行分词并进行实体标注;
根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配;
判断命中知识库实体词典的字符串是否符合预设词性规则;
利用符合预设词性规则的字符串,修正所述输入文本的实体标注结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述知识库实体词典包括:
知识库的百科实体中的名称字段;百科推送的人工整理的别名;百科中挖掘的别名。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配还包括:
根据新实体词典,对未命中知识库实体词典的字符串进行匹配;
若命中新实体词典,则跳过所述字符串,继续进行前向最大匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810101815.7/2.html,转载请声明来源钻瓜专利网。