[发明专利]用于用户问题语句处理的方法及装置在审
申请号: | 201811452424.6 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109871437A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 曹绍升;张赏;周俊 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 标准问题 用户问题 分词处理 相似度 方法和装置 匹配 | ||
1.一种用于用户问题语句处理的方法,包括:
基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度;以及
基于所确定出的相似度,从所述至少一个标准问题语句中确定出与所述用户问题语句匹配的标准问题语句;
其中,所述基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度包括:
针对每个标准问题语句,确定该标准问题语句中的各个词语和所述用户问题语句中的各个词语的两两相似度;
根据所确定的每对词语的相似度的大小,确定所述用户问题语句中的各个词语与该标准问题语句中的相匹配的各个词语的相似度;
基于所确定出的所述用户问题语句中的各个词语对应的相似度,确定所述用户问题语句与该标准问题语句之间的相似度。
2.如权利要求1所述的方法,其中,基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度包括:
针对每个经过分词处理后的标准问题语句,
基于该标准问题语句的各个词语的词向量和所述用户问题语句中的各个词语的词向量,确定所述用户问题语句中的各个词语与该标准问题语句中的各个词语之间的两两相似度;
对于所述用户问题语句中的各个词语,将所确定出的该标准问题语句中的各个词语与该词语之间的相似度中的最大相似度值确定为该词语的相似度值;以及
基于所确定出的所述用户问题语句中的各个词语的相似度值,确定所述用户问题语句与该标准问题语句之间的相似度。
3.如权利要求2所述的方法,其中,经过分词处理后的所述各个标准问题语句中的各个词语的词向量和经过分词处理后的所述用户问题语句中的各个词语的词向量是通过基于词向量集来对经过分词处理后的所述各个标准问题语句和经过分词处理后的所述用户问题语句进行词向量化后获得的。
4.如权利要求2所述的方法,其中,经过分词处理后的所述各个标准问题语句中的各个词语的词向量和经过分词处理后的所述用户问题语句中的各个词语的词向量是通过查询词向量集而获得的。
5.如权利要求3或4所述的方法,其中,所述词向量集是使用词向量训练模型来基于给定语料库训练出的。
6.如权利要求5所述的方法,其中,所述给定语料库包括至少一个历史用户问题语句和所述至少一个标准问题语句。
7.如权利要求1所述的方法,还包括:
对所述用户问题语句和所述至少一个标准问题语句进行分词处理。
8.如权利要求6所述的方法,其中,所述给定语料库包括经过分词处理和词语过滤处理后的至少一个历史用户问题语句以及所述经过分词处理和词语过滤处理后的至少一个标准问题语句。
9.如权利要求1所述的方法,还包括:
对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。
10.如权利要求8或9所述的方法,其中,所述词语过滤处理包括:
基于过滤词数据库来进行词语过滤处理。
11.如权利要求8或9所述的方法,其中,所述词语过滤处理包括:
基于词语的词频来进行词语过滤处理,
其中,所述词语的词频是基于给定语料库统计出的。
12.如权利要求11所述的方法,其中,所述词频是基于所述至少一个历史用户语句和所述至少一个标准语句统计出的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811452424.6/1.html,转载请声明来源钻瓜专利网。