[发明专利]一种实体识别方法、装置和计算设备有效
申请号: | 202010187932.7 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111444719B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 石智中;张志申;吕政伟 | 申请(专利权)人: | 车智互联(北京)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 史小娟;谢建云 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 方法 装置 计算 设备 | ||
1.一种实体识别方法,适于在计算设备中执行,所述方法包括步骤:
对用户的输入语句进行语义编码,生成针对所述输入语句的语义特征向量,作为当前语义特征向量;
基于当前语义特征向量对所述输入语句进行实体识别,得到本次识别出的一个或多个实体名、以及每个实体名的字符位置和自身实体类型;
对于每个实体名:
根据输入语句的每个字符是否属于该实体名来生成实体位置特征,根据该实体名的自身实体类型和上层实体类型来生成实体类型特征;
将所述输入语句的语义特征向量与所述实体位置特征、实体类型特征进行拼接,得到拼接向量;
将所述当前语义特征向量更新为所述拼接向量,并重新开始执行所述实体识别步骤,直到实体识别结果中不存在任何实体为止;以及
汇总每次进行实体识别后所得到的实体名,作为该输入语句的最终实体识别结果。
2.如权利要求1所述的方法,其中,
所述输入语句的语义特征向量为[T1,T2,……,Tm],m为输入语句的最大字符长度,Tm为第m个字符的字向量;
所述实体位置特征为[L1,L2,……,Lm],Lm为第m个字符是否属于对应实体名的字符标记;
所述实体类型特征为[C1,C2,……,Cn],n为实体类型的总数,Cn为第n个实体类型的标记。
3.如权利要求1或2所述的方法,其中,
所述实体位置特征中,属于该实体名的字符标记为1,反之标记为0;
所述实体类型特征中,该实体名的自身实体类型和上层实体类型标记为1,其他实体类型标记为0;
其中,所述上层实体类型是指该实体名所属的上层实体名的实体类型。
4.如权利要求1-3中任一项所述的方法,其中,所述将所述输入语句的语义特征向量与所述实体位置特征、实体类型特征进行拼接的步骤包括:
对于所述输入语句的每个字符,将其字向量、字符标记和实体类型特征进行拼接,得到每个字符拼接后的字向量,进而得到所述输入语句的拼接向量。
5.如权利要求1-4中任一项所述的方法,其中,所述对用户的输入语句进行语义编码的步骤包括:
将所述输入语句输入到Bert模型中,生成针对该输入语句的语义特征向量。
6.如权利要求1-5中任一项所述的方法,其中,所述基于所述当前语义特征对所述输入语句进行实体识别的步骤包括:
将所述当前语义特征向量输入到条件随机场模型中,得到该输入语句的实体识别结果。
7.如权利要求1-6中任一项所述的方法,其中,所述计算设备中存储有训练好的实体识别模型,该模型包括:
Bert模型层,适于输出输入语句的语义特征向量;和
p层条件随机场模型,适于输出输入语句的实体识别结果,其中p值为输入语句的嵌套实体层数加一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于车智互联(北京)科技有限公司,未经车智互联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010187932.7/1.html,转载请声明来源钻瓜专利网。