[发明专利]中文命名实体识别方法、装置及计算机可读存储介质在审
申请号: | 201910965462.X | 申请日: | 2019-10-10 |
公开(公告)号: | CN110909548A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 邓悦;金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 命名 实体 识别 方法 装置 计算机 可读 存储 介质 | ||
本发明涉及一种人工智能技术,揭露了一种中文命名实体识别方法,包括:接收原始文本集并进行去噪、去停用词及标注处理后得到标准文本集,将所述标准文本集进行聚类操作得到类簇个数及聚类中心,基于所述类簇个数及所述聚类中心,将所述标准文本集建立后验概率模型,优化所述后验概率模型得到标准词向量集,将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型,接收用户输入的文本集,计算所述文本集得到词向量集,将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。本发明还提出一种中文命名实体识别装置以及一种计算机可读存储介质。本发明可以实现精准的中文命名实体识别功能。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于中文命名实体识别方法、装置及计算机可读存储介质。
背景技术
命名实体识别是指识别语目中人名、地名、组织机构名等命名实体,中文命名实体是以中文为语言基础的命名实体,被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。目前对于中文命名实体识别,现有技术方案有基于词和基于字两种方法,所述基于词的方法都需要先对中文语句进行分词,再在分词的结果上进行命名实体识别,这就使得命名实体的结果依赖于分词的准确性;此外,基于字的方法的不足在于缺失了中文词汇的语义信息,因为不同的字在不同的词汇中含义是有差异的,比如“今天”和“天气”,“上马”和“马上”,缺失了词汇信息必然会极大地降低模型的准确率。
发明内容
本发明提供一种中文命名实体识别方法、装置及计算机可读存储介质,其主要目的在于提供一种准确率高的中文命名实体识别方案。
为实现上述目的,本发明提供的一种中文命名实体识别方法,包括:
接收包含中文命名实体的原始文本集,将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集;
将所述标准文本集进行聚类操作得到类簇个数及聚类中心;
基于所述类簇个数及所述聚类中心,将所述标准文本集建立后验概率模型,优化所述后验概率模型得到标准词向量集;
将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型;
接收用户输入的文本集,计算所述文本集得到词向量集,将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。
可选地,所述标注处理包括:
将所述原始文本集进行分词处理得到分词文本集;
根据预先设定的标注规则对所述分词文本集内的词语进行标注;
根据标注之后的所述分词文本集重新组建成文本集得到标准文本集。
可选地,所述聚类操作包括:
随机初始化k个初始类簇和所述k个初始类簇的聚类中心Centerk;
根据聚类更新方法对所述聚类中心Centerk进行训练得到训练值;
基于平方误差计算所述训练值的误差,若所述误差大于预设误差阈值则继续训练,若所述误差小于预设误差阈值则退出训练得到训练后的类簇个数及聚类中心。
可选地,所述聚类更新方法为:
其中,xi为所述标准文本集的数据,i为编号,Ck为所述标准文本集;
所述基于平方误差计算所述训练值的误差为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910965462.X/2.html,转载请声明来源钻瓜专利网。