[发明专利]一种实体抽取方法、装置及设备在审
申请号: | 202010609557.0 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111985237A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 王萌萌 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 周伟 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 抽取 方法 装置 设备 | ||
本发明公开了一种实体抽取方法、装置及设备,该方法包括:获取待处理信息,待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;对待处理信息中每一交互信息数据进行多标签分类识别,以对待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;根据标签标注结果,对待处理消息分层进行实体抽取;标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。如此,充分考虑了类似于语音对话过程的交互信息中存在的中断、重复、确认等问题,分层对待处理信息进行识别,能够有效识别出完整的实体信息。
技术领域
本发明涉及信息技术领域,尤其涉及一种实体抽取方法、装置及设备。
背景技术
在银行、通信服务商、网络电商等很多行业,需要针对客服对话等过程中的语音或文本等形式的对话信息,进行较为准确的分析。在分析对话信息时,信息中有较多的口头语,例如:对话录音、对话信息转录的文本、聊天记录等,易出现对话过程中信息被中断、重复、确认、否定和纠正等各种信息不连续的情况。
目前常用的实体识别方法,例如:序列标注(CRF,LSTM)方法,其中,CRF是条件随机场(Conditional Random Field)的简称,LSTM是长短期记忆网络(Long Short-TermMemory)的简称。该方法在对话中存在重复、否定和纠正等交互过程时,无法有效识别信息中非连续的实体,因此也无法抽取得到准确的完整实体内容。
发明内容
本发明实施例为了解决实体抽取过程中存在的上述问题,创造性地提供一种实体抽取方法、装置及设备。
根据本发明第一方面,提供了一种实体抽取方法,该方法包括:获取待处理信息,所述待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;对所述待处理信息中每一交互信息数据进行多标签分类识别,以对所述待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;根据所述标签标注结果,对所述待处理消息分层进行实体抽取;所述标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。
根据本发明一实施方式,对所述待处理信息分别进行不同功能类型的标签标注,包括以下至少之一:对所述待处理信息进行具有交互类型标识功能的标签标注,确定每一交互信息数据的交互类型标签;对所述待处理信息进行具有序列标识功能的标签标注,确定每一交互信息数据的序列标签;对所述待处理信息进行具有信息来源标识功能的标签标注,确定每一交互信息数据的信息来源标签。
根据本发明一实施方式,对所述待处理信息分别进行不同功能类型的标签标注,包括:依次获取所述待处理信息中的每一交互信息数据;基于每一交互信息数据,获取与所述交互信息数据的相关交互信息数据;根据所述交互信息数据和所述相关交互数据,对所述交互信息数据进行标签识别。
根据本发明一实施方式,获取与所述交互信息数据的相关交互数据,包括:确定每一所述交互信息数据在所述待处理信息中的交互顺序;获取交互顺序位于所述交互信息数据之前第一设定字段的交互信息数据;和/或,获取交互顺序位于所述交互信息数据之后第二设定字段的交互信息数据。
根据本发明一实施方式,所述根据所述标签标注结果,对所述待处理消息分层进行实体抽取,包括:根据所述标签标注结果,确定被标注实体标签的交互信息数据为实体类信息数据;确定所述实体类信息中每一交互信息数据的序列标签;根据所述序列标签,对所述实体类信息进行实体块识别,得到实体识别结果;根据所述实体识别结果,执行以下操作中至少之一:实体块去重、实体块排序、实体块拼接,以得到实体抽取结果。
根据本发明一实施方式,所述交互类型标签包括以下至少之一:询问类型数据、重复类型数据、否定类型数据、提供信息类型数据。
根据本发明一实施方式,所述序列标签包括以下至少之一:开始数据、暂停数据、重新开始数据、结束数据。
根据本发明一实施方式,所述待处理消息为语音转录对话文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010609557.0/2.html,转载请声明来源钻瓜专利网。