[发明专利]汉语自然语言对话的语义关联与匹配方法有效
申请号: | 201710593854.9 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107818078B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 张宝华 | 申请(专利权)人: | 张宝华 |
主分类号: | G06F40/35 | 分类号: | G06F40/35 |
代理公司: | 西安志帆知识产权代理事务所(普通合伙) 61258 | 代理人: | 侯峰 |
地址: | 710065 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 自然语言 对话 语义 关联 匹配 方法 | ||
本发明公开了一种汉语自然语言对话的语义关联与匹配方法,对一次采集的汉语对话语句进行分词和分句,将各分句分词结果以及分词对应的数据库词库中该分词的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词准确位置,通过所述构建的输入语句分词数据结构对公告信息库中语句记录进行初步匹配筛选,对通过匹配筛选获得的若干条语句记录,确定各语句记录的语义置信度,对各语句记录的语义置信度进行比较,选取语义置信度最大的语句记录作为最佳语义匹配语句并且输出结果,最后,将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种汉语自然语言对话的语义关联与匹配方法。
背景技术
现在人们对语言认知和自然语言语义理解总体上仍处于探索阶段。当前已经面向实际应用的语义关系信息检索技术基本只停留在关键词匹配的浅层方法上,且搜索结果范围相当宽泛,需要人们再次从中寻找对其有用的信息,最具典型性的例子如:互联网网页搜索引擎;另一方面,在学术研究领域,当前自然语言理解技术大多在用概率统计的模型对文字进行分析处理,在语句分词、大型语料库标注和构建、语音识别方面研究较多,在面向汉语语句语义处理方面的技术多停留在理论研究阶段,能解决现实生活中实际问题的应用较少。尤其在细分到解决汉语对话语句语义关联的具体应用问题方面,能提出面向实际应用的可通过计算机硬件部署实施的技术方案则更少。
发明内容
有鉴于此,本发明的主要目的在于提供一种汉语自然语言对话的语义关联与匹配方法。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种汉语自然语言对话的语义关联与匹配方法,该方法为:对一次采集的汉语对话语句进行分词和分句,将各分句分词结果以及分词对应的数据库词库中该分词的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词准确位置,通过所述构建的输入语句分词数据结构对公告信息库中语句记录进行初步匹配筛选,对通过匹配筛选获得的若干条语句记录,确定各语句记录的语义置信度,对各语句记录的语义置信度进行比较,选取语义置信度最大的语句记录作为最佳语义匹配语句并且输出结果,最后,将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录。
上述方案中,所述输入语句分词数据结构是每个分词构建对应子结构的集合,每个子结构由三组数据组成,第一组用于存放分词字符串、词性,第二组用于存放第一至第五强度联系词的字符串、词性、强度联系类型、强度联系值,第三组用于存放两词间第一激活联系词对应字符串变量,若该分词为分句中前中心词,则第一激活联系词位置存放后中心词字符串、两词间激活联系类型、动词中心词字符串;若该分词为分句中后中心词,则第一激活联系词位置存放前中心词字符串、两词间激活联系类型、动词中心词字符串;其他情况第一激活联系词对应位置均为空,第三组还用于存放两词间第二至第五激活联系词对应变量,具体为存放两词间激活联系词字符串、激活联系类型、激活联系词在输入语句分词数据结构中坐标位置信息。
上述方案中,所述将各分句分词结果以及分词对应的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在构建输入语句分词数据结构过程中,该方法还包括在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词在输入语句分词数据结构中的准确位置。
上述方案中,所述确定各分句的动词中心词在输入语句分词数据结构中的准确位置,具体为:若一个分句中无动词,则该分句的动词中心词标记为缺省状态;若一个分句中仅存在一个动词,则确定该动词即为动词中心词;若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张宝华,未经张宝华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710593854.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种敏感内容识别方法及装置
- 下一篇:多粒度分词标注数据自动获取方法及系统