[发明专利]一种自然语言处理方法及装置在审
申请号: | 201810164982.6 | 申请日: | 2018-02-28 |
公开(公告)号: | CN110309252A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 李生;王剑;曹元斌;温建华;郎君;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 依存关系 自然语言内容 特征数据 机器学习模型 自然语言处理 用户意图 句法结构分析 历史用户 意图识别 组件获取 描述词 申请 匹配 弱化 | ||
1.一种自然语言处理方法,其特征在于,所述方法包括:
获取用户输入的自然语言内容;
对所述自然语言内容进行句法结构分析,获取所述自然语言内容的依存关系特征数据,所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系;
利用机器学习模型组件获取所述依存关系特征数据对应的用户意图;其中,所述机器学习模型组件根据多个历史依存关系特征数据以及历史用户意图之间的对应关系训练得到。
2.根据权利要求1所述的方法,其特征在于,所述对所述自然语言内容进行句法结构分析,获取所述自然语言内容的依存关系特征数据包括:
从所述自然语言内容中提取至少一个描述词;
确定所述至少一个描述词之间的修饰关系;
根据所述修饰关系确定所述自然语言内容中的句法核心词,并将所述句法核心词作为所述自然语言内容的依存关系特征数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述修饰关系确定所述自然语言内容中的句法核心词包括:
根据所述修饰关系构建所述至少一个描述词的依存关系树;
将所述依存关系树根节点对应的描述词作为所述自然语言内容的句法核心词。
4.根据权利要求2所述的方法,其特征在于,所述依存关系特征数据还包括下述中的至少一种:
所述句法核心词的词性、所述句法核心词的依赖词、所述依赖词的词性、动态实体描述词、所述动态实体描述词的词性、所述动态实体描述词与所述句法核心词之间的距离、所述动态实体描述词的同义词集合。
5.根据权利要求1所述的方法,其特征在于,在所述获取用户输入的自然语言内容之后,所述方法还包括:
提取所述自然语言内容中的动态意图描述词;
利用与所述动态意图描述词具有相同意义的描述词对所述动态意图描述词进行同义词扩充;
利用静态通配规则对所述自然语言内容进行用户意图匹配。
6.根据权利要求1所述的方法,其特征在于,所述机器学习模型组件被设置为按照下述方式训练得到包括:
获取多个历史自然语言内容以及所述多个历史自然语言内容分别对应的历史用户意图;
分别提取所述多个历史自然语言内容的依存关系特征数据;
构建机器学习模型组件,所述机器学习模型组件中设置有训练参数;
将所述历史自然语言内容的依存关系特征数据作为所述机器学习模型组件的输入数据、所述历史用户意图作为输出数据,利用所述依存关系特征数据与所述历史用户意图之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数,直至所述机器学习模型组件达到预设要求。
7.根据权利要求6所述的方法,其特征在于,所述多个历史自然语言内容分别对应的历史用户意图包括至少一种预设类型,且所述历史用户意图中设置有通配符。
8.根据权利要求6所述的方法,其特征在于,在所述获取多个历史自然语言内容以及所述多个历史自然语言内容分别对应的历史用户意图之后,所述方法还包括:
提取所述多个历史自然语言内容中的动态实体描述词;
设置所述动态实体描述词的类别标签为统一的预设标签。
9.根据权利要求1所述的方法,其特征在于,所述自然语言内容包括用户输入的文字内容,和/或根据用户输入的语音内容转化得到的文字内容。
10.一种自然语言处理方法,其特征在于,所述方法包括:
获取用户输入的自然语言内容;
提取所述自然语言内容中的动态意图描述词;
利用与所述动态意图描述词具有相同意义的描述词对所述动态意图描述词进行同义词扩充;
利用静态通配规则对所述自然语言内容进行用户意图匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810164982.6/1.html,转载请声明来源钻瓜专利网。