[发明专利]一种中文文本命名实体的识别方法有效

申请号：	201910779133.6	申请日：	2019-08-22
公开（公告）号：	CN110472248A	公开（公告）日：	2019-11-19
发明（设计）人：	程良伦;邓健峰;张凡龙	申请（专利权）人：	广东工业大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06N3/04;G06N3/08
代理公司：	11227 北京集佳知识产权代理有限公司	代理人：	侯珊<国际申请>=<国际公布>=<进入国
地址：	510060 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	命名实体中文文本上下文特征句子词语词语特征句子特征特征序列字符特征转移矩阵法存储介质技术效果识别装置准确率拼接标注解析分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中文文本命名实体的识别方法，包括：当接收到命名实体识别请求时，对命名实体识别请求进行解析，得到待识别中文文本；将待识别中文文本以句子为分析单位，分别提取各句子中的字符特征、词语特征及整个句子特征；分别将待识别中文文本中各词语的字符特征、词语特征及所在句子的句子特征进行拼接，得到各词语分别对应的特征序列；提取各特征序列的上下文特征，得到上下文特征提取结果；根据上下文特征提取结果，利用马尔科夫转移矩阵法从各词语中标注出待识别中文文本的各命名实体。本发明较大地提高了命名实体识别的性能，提高了识别准确率。本发明还公开了一种中文文本命名实体的识别装置、设备及存储介质，具有相应技术效果。

技术领域

本发明涉及大数据技术领域，特别是涉及一种中文文本命名实体的识别方法、装置、设备及计算机可读存储介质。

背景技术

命名实体识别(Named Entity Recognition，NER)是指从文本中识别出特定对象事务名称或者符号的过程。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理任务中必不可少的组成部分，使得后续的关系抽取等自然语言处理等任务能够根据实体识别获取更多的知识。因此，对它的研究具有重要的研究意义和价值。

目前，英文命名实体识别技术比较成熟。相比于英文，中文命名实体没有明确的边界信息和首字大小写信息，在特定句子语境下，词语具有特定的含义。现有的中文命名实体识别方式是通过单字识别或单词识别的方式对文本进行命名实体识别，命名实体识别的性能差，识别准确率低。

综上所述，如何有效地解决命名实体识别的性能差，识别准确率低等问题，是目前本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种中文文本命名实体的识别方法，该方法较大地提高了命名实体识别的性能，提高了识别准确率；本发明的另一目的是提供一种中文文本命名实体的识别装置、设备及计算机可读存储介质。

为解决上述技术问题，本发明提供如下技术方案：

一种中文文本命名实体的识别方法，包括：

当接收到命名实体识别请求时，对所述命名实体识别请求进行解析，得到待识别中文文本；

将所述待识别中文文本以句子为分析单位，分别提取各句子中的字符特征、词语特征及整个句子特征；

分别将所述待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接，得到各词语分别对应的特征序列；

提取各特征序列的上下文特征，得到上下文特征提取结果；

根据所述上下文特征提取结果，利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。

在本发明的一种具体实施方式中，提取各特征序列的上下文特征，包括：