[发明专利]一种命名实体识别方法及装置有效
申请号: | 201811572990.0 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109670181B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 贾弼然;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 方法 装置 | ||
本发明公开了一种命名实体识别方法及装置,该命名实体识别方法,包括:获取待识别的词语集合;根据预先得到的概率模型,对词语集合中的词语进行角色标注;以角色标注的结果为依据,确定词语集合中的命名实体;其中,概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。在对词语集合中的词语进行角色标注时,不仅考虑了词语和隐含角色之间的概率以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,可以提高命名实体识别的准确性和性能。
技术领域
本申请涉及文本识别技术领域,尤其涉及一种命名实体识别方法及装置。
背景技术
命名实体(named entity),一般值得是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。命名实体的识别就是识别出词语集合(例如句子、段落和文章等)中特定词语(包括单字和词组)的过程。
目前,在进行命名实体的识别时,通常会采用隐马尔可夫模型(Hidden MarkovModel,HMM)。HMM是一种统计模型,包括五个基本元素:状态、观测值、状态转移概率矩阵、观测概率矩阵和初始概率矩阵。其中,状态指的是词语集合中每个词语的角色;观测值则指的是词语集合中的词语本身;状态转移矩阵包括某一个角色转移至另一个角色的概率;观测概率矩阵,也可以称为发射矩阵,包括某一个角色输出特定词语的概率;初始概率矩阵,包括词语集合以某一个角色开始的概率。以上五个基本元素均可以通过对训练语料统计得到。
从上述HMM的五个基本元素中可看出,利用HMM进行命名实体的识别时,重点关注观测值之间隐含的状态及状态之间的相关联性,并没有考虑到词语本身的特征,导致对命名实体的识别准确率不高。
发明内容
有鉴于此,本申请实施例提供了一种命名实体识别方法及装置,能够解决现有技术中识别准确率较低的问题。
本申请实施例第一方面提供的一种命名实体识别方法,包括:
获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;
根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;
以角色标注的结果为依据,确定所述词语集合中的命名实体;
其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。
可选的,所述观测转移概率矩阵,包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;
所述第一观测转移概率包括所述前一个词语本身转移至当前词语的概率;
所述第二观测转移概率包括所述前一个词语中任意一个字符转移至所述当前词语的概率;
所述第三观测转移概率包括所述前一个词语中任意一个子字符转移至所述当前词语的概率;所述字符包括至少一个所述子字符。
可选的,所述根据预先得到的概率模型,对所述词语集合中的词语进行角色标注,具体包括:
根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色。
可选的,所述根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色,具体包括:
根据所述初始概率矩阵和所述发射矩阵,确定所述词语集合的第1个词语对应每个角色的概率,得到多个第1概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811572990.0/2.html,转载请声明来源钻瓜专利网。