[发明专利]一种自然语言处理方法及装置有效
申请号: | 201810085253.1 | 申请日: | 2018-01-29 |
公开(公告)号: | CN108182179B | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 任宁 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 预设 关联词 关联关系 标注 自然语言处理 角色 分析 匹配 文本 挖掘 | ||
本发明实施例公开一种自然语言处理方法,包括:获取第一分析序列,第一分析序列包括至少一个命名实体和关联词,并且至少一个命名实体与关联词之间具有第一语序,关联词为表征命名实体之间的关联关系的字词;获取标注序列,标注序列包括至少一个预设命名实体和预设关联词,并且至少一个预设命名实体与预设关联词之间具有第二语序,每个预设命名实体对应一种关联关系的角色,预设关联词为表征预设命名实体之间的关联关系的字词;比较第一语序和第二语序是否匹配,如果是,则设置第一分析序列中命名实体的角色与标注序列中对应的预设命名实体的角色相同。采用上述方法以挖掘出文本中命名实体之间的关联关系、命名实体的角色等有价值的信息。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种自然语言处理方法及装置。
背景技术
企业的公告、研报、新闻、裁判文书等文本中有大量涉及命名实体的文字描述,例如企业与企业之间的关系、企业与个人之间的关系、企业的内部组织架构等。对企业决策者或者管理者而言,这些信息有助于了解企业/行业动态、判断企业/行业风险,以及预测企业/行业前景。在信息爆炸的今天,要从海量且篇幅冗长的企业的公告、研报等文本中挖掘出这些有价值的信息,就需要依靠自然语言处理(natural language processing,NLP)技术。
相对于英语等外语来说,汉语没有形态变化,更多地依赖语序来表现语法或者表达不同的语义。也就是说,即使句子中的字词相同或类似,但语序不同,所表达的语义就可能存在较大差异。例如,“A公司收购B公司的股权”、“B公司收购A公司的股权”,这两个句子中的字词相同但语义完全不同,相应地,句子中所包含的企业之间的关系也不相同。在前一个句子中,A公司是收购公司,B公司是被收购公司;在后一个句子中,A公司是被收购公司,B公司是收购公司。
现有的自然语言处理的方法主要通过计算文本的相似度来挖掘出文本中的信息,例如采用余弦相似度法、编辑距离算法等。但是,计算文本相似度的方法对于中文语序问题的处理能力比较弱。当面对字词相似度高但语序不同的两个汉语文本时,采用计算文本相似度的方法所计算得到两个文本的相似度很高,从而认为两个文本的语义相近,因此无法准确地挖掘出这两个文本的各自实际表达的语义,因此也无法应用于挖掘文本中命名实体之间的关系等有价值的信息上。
发明内容
为解决上述技术问题,本申请提供一种新的自然语言处理方法,以挖掘出文本中命名实体之间的关联关系、命名实体在关联关系中的角色等有价值的信息。
第一方面,提供一种自然语言处理方法,包括:
获取第一分析序列,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;
获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;
比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。
结合第一方面,在第一方面第一种可能的实现方式中,所述第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;
所述标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,其中,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;
比较所述第一语序和所述第二语序是否匹配的步骤,具体为:
比较所述第三语序和所述第四语序是否匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810085253.1/2.html,转载请声明来源钻瓜专利网。