[发明专利]实体识别方法、装置、电子设备及存储介质有效
申请号: | 202110701796.3 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113408287B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 周新宇;刘振国;陈凯 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李娜 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 电子设备 存储 介质 | ||
本发明关于一种实体识别方法、装置、电子设备及存储介质,该方法包括:根据实体词表,将对象主题文本切分为多个字符和至少一个实体词,并确定包括对象主题文本中每个字符的词汇;确定每个字符的字向量,作为第一字向量,并确定实体词的词向量,作为第一词向量,确定词汇的词向量,作为第二词向量;根据包括同一字符的第二词向量和第一字向量,确定所述同一字符的第二字向量;根据每个字符的第二字向量和实体词的第一词向量,对对象主题文本进行实体识别,得到实体识别结果。本发明加强了字符在整体文本中的词汇分布,而且基于实体词强化了实体词的边界信息,提高了实体识别的准确率。
技术领域
本发明涉及实体识别技术,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
背景技术
相关技术中,在对对象主题进行实体识别时,可以使用大规模语言模型进行识别,或者使用匹配的方式,直接使用词表匹配对象主题中的实体。
相关技术依赖大量的人工标注数据来实现训练数据集的构建,成本过高,而且由于对象主题文本组成复杂的特殊情况很难覆盖所有种类,训练数据容易有偏差,而且模型依赖于对象主题中每个字符本身的信息来进行实体识别,导致模型的识别准确率不高;使用匹配的方式直接匹配,没有语言模型的配合,准确率也比较低。
发明内容
本发明提供一种实体识别方法、装置、电子设备及存储介质,以至少解决相关技术中实体识别准确率低的问题。本发明的技术方案如下:
根据本发明实施例的第一方面,提供一种实体识别方法,包括:
根据实体词表,将对象主题文本切分为多个字符和至少一个实体词,并确定包括所述对象主题文本中每个字符的词汇;
确定所述每个字符的字向量,作为第一字向量,并确定所述实体词的词向量,作为第一词向量,确定所述词汇的词向量,作为第二词向量;
根据包括同一字符的第二词向量和第一字向量,确定所述同一字符的第二字向量;
根据每个字符的第二字向量和所述实体词的第一词向量,对所述对象主题文本进行实体识别,得到实体识别结果。
可选的,根据包括同一字符的第二词向量和第一字向量,确定所述同一字符的第二字向量,包括:
分别确定包括同一字符的多个词汇中以所述同一字符开头、居中和结尾的词汇;
确定以所述同一字符开头的词汇的第二词向量的平均向量,作为第一平均向量,确定以所述同一字符居中的词汇的第二词向量的平均向量,作为第二平均向量,并确定以所述同一字符结尾的词汇的第二词向量的平均向量,作为第三平均向量;
拼接所述同一字符的第一字向量、所述第一平均向量、所述第二平均向量和所述第三平均向量,作为所述同一字符的第二字向量。
可选的,根据包括同一字符的第二词向量和第一字向量,确定所述同一字符的第二字向量,包括:
确定包括同一字符的至少一个词汇的第二词向量的平均向量;
拼接所述同一字符的第一字向量和所述平均向量,作为所述同一字符的第二字向量。
可选的,根据每个字符的第二字向量和所述实体词的第一词向量,对所述对象主题文本进行实体识别,得到实体识别结果,包括:
根据所述每个字符的第二字向量、每个字符在所述对象主题文本中的第一位置信息、第一词向量以及所述实体词在所述对象主题文本中的第二位置信息,对所述对象主题文本进行实体识别,得到实体识别结果。
可选的,所述第一位置信息包括第一开头位置信息和第一结尾位置信息,所述第二位置信息包括第二开头位置信息和第二结尾位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110701796.3/2.html,转载请声明来源钻瓜专利网。