[发明专利]一种语义理解方法及装置有效
申请号: | 201610602149.6 | 申请日: | 2016-07-27 |
公开(公告)号: | CN107665188B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 梅林海;陈志刚;潘青华 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230088 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 理解 方法 装置 | ||
1.一种语义理解方法,其特征在于,所述方法包括:
获取待处理文本数据;
对所述文本数据进行知识点标注,以生成多条语义理解候选路径;
提取每条语义理解候选路径的路径特征;
根据所述路径特征对所述多条语义理解候选路径进行过滤,以得到一条或多条语义理解路径;
根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解,以得到所述文本数据的语义理解结果。
2.根据权利要求1所述的方法,其特征在于,对所述文本数据进行知识点标注,以生成多条语义理解候选路径,包括:
对所述文本数据进行分词;
根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注,其中所述知识库中存储有多个由属性及属性值组成的属性-属性值对,每个所述知识点以属性-词语-属性值的形式表示,所述分词后得到的词语为分词后得到的词或词组;
使用标注得到的知识点中的属性替换所述文本数据中相应的词语,以生成多条语义理解候选路径。
3.根据权利要求2所述的方法,其特征在于,根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注,包括:
计算当前词语与所述知识库中每个属性对应的属性值之间的距离,并将所述距离作为匹配得分;
当所述匹配得分小于第一预设阈值时,则判断为匹配成功,并生成一个知识点,其中所生成的知识点中的词语为当前词语,所生成的知识点中的属性和属性值分别为匹配成功的属性和属性值。
4.根据权利要求1所述的方法,其特征在于,所述路径特征包括以下一种或多种特征:路径中属性数、路径中属性对应属性值长度占比、每种属性出现在路径中的次数、路径中所有属性匹配得分均值、属性在候选路径中的语境概率;
所述提取每条语义理解候选路径的路径中属性数,包括:
通过统计当前候选路径中包含的所有知识点中出现的属性的总数,得到当前候选路径的路径中属性数;
所述提取每条语义理解候选路径的路径中属性对应属性值长度占比,包括:
统计当前候选路径的所有知识点中所有属性值的字数,
将当前候选路径的所有知识点中所有属性值的字数与所述文本数据的总字数的比值作为当前候选路径的路径中属性对应属性值长度占比;
所述提取每条语义理解候选路径的每种属性出现在路径中的次数,包括:
通过统计当前候选路径的所有知识点中每种属性出现的次数,得到当前候选路径的每种属性出现在路径中的次数;
所述提取每条语义理解候选路径的路径中所有属性匹配得分均值,包括:
获取所述文本数据分词后得到的词语与相应属性值匹配成功时得到的匹配得分的均值,作为当前语义理解候选路径的路径中所有属性匹配得分均值;
所述提取每条语义理解候选路径的属性在候选路径中的语境概率,包括:
获取当前候选路径中每个属性与其上下文词语搭配出现的概率作为当前语义理解候选路径的属性在候选路径中的语境概率,其中每个属性的上下文词语是当前候选路径中每个属性前后的一个或多个词语。
5.根据权利要求1所述的方法,其特征在于,根据所述路径特征对所述多条语义理解候选路径进行过滤,包括:
将当前语义理解候选路径的路径特征输入到预设的过滤模型中,其中所述过滤模型预先通过训练得到,所述过滤模型的输入为候选路径的路径特征,输出为所输入的候选路径为语义理解路径的概率;
判断所述过滤模型所输出的概率是否大于第二预设阈值,如果大于第二预设阈值,则确定当前候选路径是一条语义理解路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610602149.6/1.html,转载请声明来源钻瓜专利网。