[发明专利]名词短语的提取方法、系统、存储介质及电子设备在审
申请号: | 202011414360.8 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112560488A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 曹梦娣;苑世娇;尤旸 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F40/258 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 名词 短语 提取 方法 系统 存储 介质 电子设备 | ||
1.一种名词短语的提取方法,其特征在于,包括:
抽取步骤:通过spacy的中文模型抽取待抽取文本的依存关系获得token序列,通过实体识别服务识别出所述待抽取文本中的实体;
提取步骤:根据所述依存关系制定提取规则,根据所述提取规则从所述token序列中提取名词短语序列;
整合步骤:对所述名词短语序列进行判断后,根据判断结果将所述名词短语序列中的名词短语进行头尾整合获得规范名词短语序列;
合并步骤:将所述实体与所述规范名词短语序列规范名词短语序列进行合并获得最终名词短语序列。
2.如权利要求1所述的提取方法,其特征在于,所述抽取步骤包括:
依存关系抽取步骤:通过所述中文模型对所述待抽取文本进行依存关系解析获得具有属性值的所述token序列;
实体获取步骤:通过所述实体识别服务识别出所述待抽取文本中的实体。
3.如权利要求2所述的提取方法,其特征在于,所述提取步骤包括:
长度识别步骤:对所述token序列的长度进行识别后输出识别结果;
序列输出步骤:根据所述识别结果制定所述提取规则,根据所述提取规则从所述token序列中提取出所述名词短语序列。
4.如权利要求1所述的提取方法,其特征在于,所述整合步骤包括:将所述名词短语序列中大于一阈值的token序列进行头尾整合获得所述规范名词短语序列。
5.如权利要求1所述的提取方法,其特征在于,所述合并步骤包括:将所述规范名词短语序列和所述实体根据合并规则进行合并从而获得最终名词短语序列。
6.一种名词短语的提取系统,其特征在于,包括:
抽取单元,通过spacy的中文模型抽取待抽取文本的依存关系获得token序列,通过实体识别服务识别出所述待抽取文本中的实体;
提取单元,根据所述依存关系制定提取规则,根据所述提取规则从所述token序列中提取名词短语序列;
整合单元,对所述名词短语序列进行判断后,根据判断结果将所述名词短语序列中的名词短语进行头尾整合获得规范名词短语序列;
合并单元,将所述实体与所述规范名词短语序列进行合并获得最终名词短语序列。
7.如权利要求6所述的提取系统,其特征在于,所述抽取单元包括:
依存关系抽取模块,通过所述中文模型对所述待抽取文本进行依存关系解析获得具有属性值的所述token序列;
实体获取模块,通过所述实体识别服务识别出所述待抽取文本中的实体。
8.如权利要求7所述的提取系统,其特征在于,所述提取单元包括:
长度识别模块,对所述token序列的长度进行识别后输出识别结果;
序列输出模块,根据所述识别结果制定所述提取规则,根据所述提取规则从所述token序列中提取出所述名词短语序列。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的提取方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011414360.8/1.html,转载请声明来源钻瓜专利网。