[发明专利]一种条件实体提取方法有效
申请号: | 202110562087.1 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113239688B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 王丙栋;游世学;朱江平 | 申请(专利权)人: | 北京中科汇联科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 李兴林 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 条件 实体 提取 方法 | ||
本发明提供了一种条件实体提取方法,接收待提取实体的文本及其人机交互上下文语境信息,从接收到的文本中提取实体词,并标注实体类型,对提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途,对实体用途未确定的实体词,根据其人机交互上下文语境信息判断语境约束条件,识别实体用途,封装实体词及其实体类型及实体用途,得到条件实体。本发明提供的条件实体提取方法,能够提取条件实体,从而得到实体类型和实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。
技术领域
本发明涉及文本提取技术领域,特别是涉及一种条件实体提取方法。
背景技术
计算机自然语言处理中的实体提取技术广泛应用于人机对话、智能填单、信息抽取等系统中。目前的实体提取技术,包括深度学习模型序列标注方法、词库匹配方法、正则表达式规则匹配方法,主要用于从给定文本中找出实体词及出现位置,并标注实体类型,而欠缺识别实体用途的能力。例如在人机对话订票场景中,在某一轮用户回复的是“北京”,现有的实体提取技术很容易找出实体词“北京”,并确定实体类型是“城市”,至于“北京”是“出发城市”还是“目的城市”,缺少有效的技术手段来进行识别。因此,设计一种条件实体提取方法是十分有必要的。
发明内容
本发明的目的是提供一种条件实体提取方法,能够提取条件实体,从而得到实体类型和实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。
为实现上述目的,本发明提供了如下方案:
一种条件实体提取方法,应用于条件实体提取系统,所述系统包括条件实体提取模块及条件实体管理配置模块,所述条件实体提取模块用于提取实体词、标注实体类型及判定实体用途,所述条件实体管理配置模块,用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置;
所述方法包括如下步骤:
步骤1:接收待提取实体的文本及其人机交互上下文语境信息;
步骤2:从步骤1接收到的文本中提取实体词,并标注实体类型;
步骤3:对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途;
步骤4:对实体用途未确定的实体词,根据其人机交互上下文语境信息判断语境约束条件,识别实体用途;
步骤5:封装实体词及其实体类型及实体用途,得到条件实体。
可选的,步骤1中,接收待提取实体的文本及其人机交互上下文语境信息,具体为:
根据用户的输入信息,生成待提取实体的文本及其人机交互上下文语境信息,其中,将优先级别高的系统所需实体词排在前面,在后续的人机交互过程中,循环接收用户的输入信息,实时更新待提取实体的文本及其人机交互上下文语境信息,并调整系统所需实体词的优先级,将优先级别高的系统所需实体词排在前面。
可选的,步骤2中,从步骤1接收到的文本中提取实体词,并标注实体类型,具体为:
通过深度学习模型序列标注方法、词库匹配方法及规则匹配方法从接收到的文本中提取实体词,并标注实体类型。
可选的,步骤3中,对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途,具体包括如下步骤:
S301:获取步骤2中提取得到的实体词及其实体类型、位置和所在的文本;
S302:根据实体类型获取实体词的候选实体用途,并获取候选实体用途的判定规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联科技股份有限公司,未经北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110562087.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种容积型尾矿浆输送泵
- 下一篇:一种用于输电铁塔的无人机智能巡检识别方法