[发明专利]一种自然语言处理方法及装置有效
申请号: | 201810085253.1 | 申请日: | 2018-01-29 |
公开(公告)号: | CN108182179B | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 任宁 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 预设 关联词 关联关系 标注 自然语言处理 角色 分析 匹配 文本 挖掘 | ||
1.一种自然语言处理方法,其特征在于,包括:
获取第一分析序列,所述第一分析序列包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;
获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;
比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。
2.根据权利要求1所述的自然语言处理方法,其特征在于,所述第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;
所述标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,其中,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;
所述比较所述第一语序和所述第二语序是否匹配的步骤,具体为:
比较所述第三语序和所述第四语序是否匹配。
3.根据权利要求2所述的自然语言处理方法,其特征在于,获取第一分析序列的步骤,包括:
获取待分析文本;
提取所述待分析文本中的命名实体;
利用语言模型提取所述待分析文本中的关联词和关键词,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词;
将提取到的命名实体、关联词和关键词按照其各自在待分析文本中的语序组合,得到第一分析序列。
4.根据权利要求3所述的自然语言处理方法,其特征在于,所述语言模型还包括与所述关键词对应的至少一个同义词;
利用语言模型提取所述待分析文本中的关联词和关键词的步骤,包括:
如果所述待分析文本包括所述语言模型中的关联词,则提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分析文本匹配;
如果所述待分析文本包括任一个关键词或所述关键词对应的同义词,则提取所述关键词。
5.根据权利要求3所述的自然语言处理方法,其特征在于,提取所述待分析文本中的命名实体的步骤,包括:
识别所述待分析文本中的预识别命名实体;
如果两个预识别命名实体的位置相邻,则将两个预识别命名实体合并为一个命名实体并提取。
6.根据权利要求3所述的自然语言处理方法,其特征在于,提取所述待分析文本中的命名实体的步骤,包括:
识别所述待分析文本中的预识别命名实体;
如果一个句子中的两个预识别命名实体为并列关系,则将两个预识别命名实体和二者之间的并列连接词合并为一个命名实体。
7.根据权利要求1或2所述的自然语言处理方法,其特征在于,获取标注序列的步骤,包括:
将所述第一分析序列的关联词与预设数据库中的标注序列的预设关联词进行匹配,所述预设数据库中包括至少两个标注序列,至少两个所述标注序列的预设关联词不相同;
如果所述第一分析序列的关联词与标注序列的预设关联词相同,则获取所述标注序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810085253.1/1.html,转载请声明来源钻瓜专利网。