[发明专利]一种基于自然语言处理的空间查询主题的归类方法及装置有效
申请号: | 201811116358.5 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109271502B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 呙维;赵雨慧;李铭;朱欣焰 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/9537 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 空间 查询 主题 归类 方法 装置 | ||
1.一种基于自然语言处理的空间查询主题的归类方法,其特征在于,包括:
步骤S1:基于预设隔断词将待处理的自然语言分割为词的集合;
步骤S2:将所述词的集合中的词语与预先构建的概念性词汇库进行特征匹配,获得与预设结构对应的词序列;
步骤S3:在主题训练结果集中,查找与所述待处理的自然语言最相邻的样本,其中,所述主题训练结果集由预先搜集的自然语言样例,通过所述词序列训练后获得,所述样本中包含文本和查询主题,返回所述样本中包含的查询主题,并将所述查询主题作为归类结果;
其中,所述预设结构为“主题-动词-兴趣点-动词-物品”,步骤S2具体包括:
步骤S2.1:将所述词的集合中的词语与预先构建的概念性词汇库进行特征匹配,获得特征词;
步骤S2.2:将所述特征词转换为“主题-动词-兴趣点-动词-物品”结构的词序列;
主题训练结果集由预先搜集的自然语言样例,通过所述词序列训练后获得,具体为:
获得包含主题信息的训练样本;
创建所述训练样本的ElaticSearch索引和映射,其中,所述映射包括[第一文本,主题,ID,行],其中,第一文本为所述词序列,是空格分割的部分列表,主题为训练样本的主题号,ID为训练样本的ID,行为待处理的自然语言;
遍历所有映射,将训练样本中包含的词替换为预先构建的概念性词汇库中的特征词,获得第二文本;
遍历所有映射,对每一个训练样本,构建[第一文本,第二文本,主题,ID],并插入到ElaticSearch中进行训练,获得所述主题训练结果集。
2.如权利要求1所述的方法,其特征在于,所述预设隔断词包括:行为动词、介词、主语、特征词和疑问词。
3.如权利要求1所述的方法,其特征在于,所述预先构建的概念性词汇库包括兴趣点、业务属性、业务属性评价、空间关系、行为动词、时间、人物、地点疑问、评价疑问、业务疑问。
4.如权利要求1所述的方法,其特征在于,根据预设距离编辑算法查找与所述待处理的自然语言最相邻的样本。
5.如权利要求1所述的方法,其特征在于,在将训练样本中包含的词替换为预先构建的概念性词汇库中的特征词之前,所述方法还包括:
判断训练样本中的词是否对应预先构建的概念词汇库的至少两种类别,
如果是,则对于该词不进行替换。
6.一种基于自然语言处理的空间查询主题的归类装置,其特征在于,包括:
语言分割模块,用于基于预设隔断词将待处理的自然语言分割为词的集合;
特征匹配模块,用于将所述词的集合中的词语与预先构建的概念性词汇库进行特征匹配,获得与预设结构对应的词序列;
主题归类模块,用于在主题训练结果集中,查找与所述待处理的自然语言最相邻的样本,其中,所述主题训练结果集由预先搜集的自然语言样例,通过所述词序列训练后获得,所述样本中包含文本和查询主题,返回所述样本中包含的查询主题,并将所述查询主题作为归类结果;
其中,所述预设结构为“主题-动词-兴趣点-动词-物品”,特征匹配模块具体用于:
将所述词的集合中的词语与预先构建的概念性词汇库进行特征匹配,获得特征词;
将所述特征词转换为“主题-动词-兴趣点-动词-物品”结构的词序列;
主题归类模块具体用于:
获得包含主题信息的训练样本;
创建所述训练样本的ElaticSearch索引和映射,其中,所述映射包括[第一文本,主题,ID,行],其中,第一文本为所述词序列,是空格分割的部分列表,主题为训练样本的主题号,ID为训练样本的ID,行为待处理的自然语言;
遍历所有映射,将训练样本中包含的词替换为预先构建的概念性词汇库中的特征词,获得第二文本;
遍历所有映射,对每一个训练样本,构建[第一文本,第二文本,主题,ID],并插入到ElaticSearch中进行训练,获得所述主题训练结果集。
7.如权利要求6所述的装置,其特征在于,所述预设隔断词包括:行为动词、介词、主语、特征词和疑问词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811116358.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音频数据库的管理方法及系统
- 下一篇:智能问答方法、装置、设备及存储介质