[发明专利]基于依存句法分析和汉语语法的多轮语义分析方法有效
申请号: | 202010934684.8 | 申请日: | 2020-09-08 |
公开(公告)号: | CN111984778B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 周红;刘楚雄 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06F40/211;G06F40/295;G06F16/36;G06F16/33 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 张秀敏 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 依存 句法 分析 汉语 语法 语义 方法 | ||
1.一种基于依存句法分析和汉语语法的多轮语义分析方法,其特征在于,包括:
步骤S100:定义知识图谱实体数据,构成实体库;
步骤S200:获取每日用户日志数据,每日用户日志数据包含领域、意图、文本和出现的时刻,对文本进行分词并分别统计分词后得到的词语在不同领域、不同意图下出现的总次数,该总次数按照记忆曲线的规律变化,衰减后的总次数加上再次出现的次数作为当前该词语的词频,构成准实时词库;
步骤S300:在不同领域、不同意图下分别采用依存句法分析将准实时词库的词语形成一个个短语,并将短语出现的次数按照记忆曲线的规律变化,形成短语的频次;统计同一短语在不同领域下的频次,得到短语在不同领域下的关联程度,得到短语意图搜索库;
步骤S400:对用户输入进行多轮语义解析,得到用户意图,具体为:
步骤S410:将用户本轮输入和用户上N轮输入均利用依存句法分析方法获得词性和句法关系,将句法关系封装成句法树;
步骤S420:遍历句法树中每个节点,在实体库中查找对应的实体数据;
步骤S430:语句标准化处理;
步骤S440:语句整理,并重新拼接新的句法树,具体包括:
步骤S441:语句整理:
当用户输入缺失定语关系的主词时,优先去短语意图搜索库中根据名词或者实体标签+定语关系搜索前N轮的句法树中是否存在主词,若存在,将名词及其子树迁移到主词之下作为其左孩子;
当用户输入含有代词时,根据指代词的词性,从用户上N轮输入语句中找到跟代词相关联的主词以及与该主词关联程度最强的名词;
步骤S442:重新拼接新的句法树:
提取本轮的领域意图池,优先顺序为:上N轮的领域意图>本轮动宾关系在短语意图搜索库中的领域意图>本轮主谓关系在短语意图搜索库中的领域意图>本轮核心词在短语意图搜索库中的领域意图;
按上述顺序解析匹配每个领域意图,从上到下遍历本轮句法树的每个节点对应的关系是否在该领域意图下存在:
(1)节点为动词:从上轮输入中找出上轮领域意图下的主语和宾语,动宾关系做谓语形成主谓关系:如果存在,则继续解析下一个节点;否则,匹配下一个领域意图,并将上轮领域意图下的主语和宾语及其子树迁移至本轮的动词之下分别作为左孩子和右孩子;
(2)节点为形容词:从上轮输入中找出上轮领域意图下的主语,形容词做谓语形成主谓关系:如果存在,则继续解析下一个节点;否则,匹配下一个领域意图;
(3)节点为其它词性:从上轮输入和该节点的父节点中找出在该领域意图下关联程度最强的节点拼接成新的句法树;
步骤S450:意图判断,根据语句整理后的拼接的新的句法树,如果主谓宾关系存在,那么匹配成功并且返回当前领域意图及其每个节点的实体参数;如果不存在,判定核心词及其每个节点的关系在该领域意图下是否存在,如果存在,匹配成功,如果有任一节点不存在,匹配下一个领域意图。
2.根据权利要求1所述的基于依存句法分析和汉语语法的多轮语义分析方法,其特征在于,所述步骤S430包括将把字句、被字句转换为动宾关系并删除介词;以及将否定句、疑问句转化为肯定句并在返回结果中标识句型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010934684.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双轮铣削搅拌机
- 下一篇:两部制电价定价分析的方法