[发明专利]可自我更新的语义理解系统与方法在审
申请号: | 201710358502.5 | 申请日: | 2017-05-19 |
公开(公告)号: | CN107015969A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 尹娟;高岚;李足红 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 四川省成都市天策商标专利事务所51213 | 代理人: | 谭德兵,刘渝 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自我 更新 语义 理解 系统 方法 | ||
技术领域
本发明涉及人工智能技术自然语言处理(NLP)领域,具体涉及一种可自我更新的语义理解系统与方法。
背景技术
在用语音识别系统应用到智能电视上做应用开发时,开发者发现:当下的语音识别系统语音识别的准确率较高,但对识别文字的理解较简单,理解准确度不够,理解扩展性不大,不能对用户某种意图的各种说法准确理解。同时,语音识别系统通常不具备自动更新的能力,经常是应用开发人员或测试人员发现识别失败时,手动添加关键词或者通知语音识别系统开发者修改,这样更新效率低。而且现有技术中常用的自然语言处理技术将词向量放在整个系统最前端,词向量用作句法分析的输入,也就是说仅仅是将词向量作为向量化的工具而已,但实际上用神经网络训练后的词向量能够很好的表示词与词之间的关系,因此,为了提高语义理解系统的准确性和泛化理解力,遂提出了本申请。
以及,现在的语音系统对电视领域的语义理解不够准确,主要是由于电视领域的语义理解和移动终端的应用场景不太一样。移动终端主要是聊天、通过搜索引擎查找,而电视领域主要是查询电视功能,查找视频、音乐、换台等。电视领域的语义理解涉及到大量的影视、音乐相关知识,且不能在终端直接调用搜索引擎进行搜索。因此,需要语义引擎本身涵盖大而全的影视、音乐知识,才能正确的理解,并完成用户想要的操作。但是,现在主流的语音系统对电视领域没有做这样细致的工作,导致终端用户使用语音功能时经常得不到想要的结果。
同时,当电视软件开发人员发现某一些语句是终端用户常说但不能正确理解,想要将这些语句添加到语义理解引擎中,只能通过语音系统供应商或者自己手动添加到配置文件中,通知供应商更新速度很慢,自己手动添加很机械,效果不好。
综上分析,现有技术中存在的技术问题有两个:(1)现有的语音系统在电视领域语义理解准确率低;(2)语音系统的语义理解引擎不可自动更新。
发明内容
为了解决背景技术中的技术问题,本发明提供一种可自我更新的语义理解系统与方法。
考虑到现有技术的上述问题,根据本发明公开的一个方面,本发明采用以下技术方案:
一种可自我更新的语义理解系统,包括:
在线语义理解引擎,用于理解语音识别引擎转换得到的语句,所述在线语义理解引擎包括句法分析模型和词向量模型,通过所述句法分析模型解析所述语句的语法成分以及各成分之间的关系,忽略所述语句中不重要的词语,保留所述语句中重要的词语,通过所述词向量模型将所述重要的词语转换为第三方应用或执行设备本身能识别的标准词;
离线自更新系统,用于读取数据库中的失败语句,搜索与所述失败语句有关的网页,获取网页中相关的文字作为更新语料,将更新语料添加到原语料中,并重新训练所述在线语义理解引擎。
为了更好地实现本发明,进一步的技术方案是:
根据本发明的一个实施方案,所述句中重要的词语为与所述执行设备或第三方应用执行动作有关的词语。
根据本发明的另一个实施方案,所述词向量模型内设置标签库,根据能否被第三方应用或执行设备本身所理解,将所述执行设备或第三方应用环境有关的专有词贴上对应标签并存入所述标签库。
根据本发明的另一个实施方案,所述词向量模型将不能被第三方应用或执行设备本身所理解的非标签词与所述标签库中的标签词关联,从而自动给非标签词打上标签,使其成为带标签词。
根据本发明的另一个实施方案,所述在线语义理解引擎在理解完句子之后会判断句子理解是否正确,判断的标准是分析经过词向量模型关联后输出的所有无标签词的成分,如果所述无标签词是核心词或核心宾语,则理解失败。
根据本发明的另一个实施方案,所述离线自更新系统通过爬虫程序爬取相关网页中的文字。
本发明还可以是:
一种可自我更新的语义理解的方法,包括:
理解语音识别引擎转换得到的语句,通过所述句法分析模型解析所述语句的语法成分,并理出各成分之间的关系,忽略所述语句中不重要的词语,保留所述语句中重要的词语,通过所述词向量模型将所述重要的词语转换为第三方应用或执行设备本身能识别的标准词;
读取数据库中的失败语句,搜索与所述失败语句有关的网页,获取网页中相关的文字作为更新语料,将更新语料添加到原语料中,并重新训练所述在线语义理解引擎。
根据本发明的另一个实施方案,还包括初始模型的步骤:
(a)以与第三方应用或执行设备应用环境有关的网页资料作为初始数据,并从中整理出与第三方应用或执行设备应用环境有关的专有名词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710358502.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:跷跷板
- 下一篇:水龙头(WMJ168056)