[发明专利]名词短语的提取方法、系统、存储介质及电子设备在审
申请号: | 202011414360.8 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112560488A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 曹梦娣;苑世娇;尤旸 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F40/258 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 名词 短语 提取 方法 系统 存储 介质 电子设备 | ||
本发明公开了一种名词短语的提取方法、系统、存储介质及电子设备,提取方法包括:抽取步骤:通过spacy的中文模型抽取待抽取文本的依存关系获得token序列,通过识别服务识别出所述待抽取文本中的实体;提取步骤:根据所述依存关系制定提取规则,根据所述提取规则从所述token序列中提取名词短语序列;整合步骤:对所述名词短语序列进行判断后,根据判断结果将所述名词短语序列中的名词短语进行头尾整合获得规范名词短语序列;合并步骤:将所述实体与所述规范名词短语序列进行合并获得最终名词短语序列。本发明从专业领域角度,不仅能够提取常规意义的名词短语,而且能够提取包含特殊动词结构的名词短语。
技术领域
本发明涉及文本处理领域,具体地说,尤其涉及一种面向专业领域的 名词短语的提取方法、系统、存储介质及电子设备。
背景技术
中文分词将连续的字序列按照一定的规范重新组合成词序列,常见的 分词一般都是基于通用领域的。关键词提取是从词序列中根据某些原理提 取出能够表达文本中心的词语,它是在通用领域的分词结果上进行的,并 且只能提取出一系列单个词语,而单个词语仍然是碎片化的,并不足以表 达完整的专业领域的词语含义。比如“知识”、“图谱”,“主动”、“学 习”、“技术”,这些单个词语并不能明确表达专业领域的“知识图谱” 和“主动学习技术”。因此急需开发一种克服上述缺陷的面向专业领域的 名词短语的提取方法、系统、存储介质及电子设备。
发明内容
针对上述问题,本发明提供一种名词短语的提取方法,其中,包括:
抽取步骤:通过spacy的中文模型抽取待抽取文本的依存关系获得 token序列,通过实体识别服务识别出所述待抽取文本中的实体;
提取步骤:根据所述依存关系制定提取规则,根据所述提取规则从所 述token序列中提取名词短语序列;
整合步骤:对所述名词短语序列进行判断后,根据判断结果将所述名 词短语序列中的名词短语进行头尾整合获得规范名词短语序列;
合并步骤:将所述实体与所述规范名词短语序列进行合并获得最终名 词短语序列。
上述的提取方法,其中,所述抽取步骤包括:
依存关系抽取步骤:通过所述中文模型对所述待抽取文本进行依存关 系解析获得具有属性值的所述token序列;
实体获取步骤:通过所述实体识别服务识别出所述待抽取文本中的实 体。
上述的提取方法,其中,所述提取步骤包括:
长度识别步骤:对所述token序列的长度进行识别后输出识别结果;
序列输出步骤:根据所述识别结果制定所述提取规则,根据所述提取 规则从所述token序列中提取出所述名词短语序列。
上述的提取方法,其中,所述整合步骤包括:将所述名词短语序列中 大于一阈值的token序列进行头尾整合获得所述规范名词短语序列。
上述的提取方法,其中,所述合并步骤包括:将所述规范名词短语序 列和所述实体根据合并规则进行合并从而获得最终名词短语序列。
本发明还提供一种名词短语的提取系统,其中,包括:
抽取单元,通过spacy的中文模型抽取待抽取文本的依存关系获得 token序列,通过实体识别服务识别出所述待抽取文本中的实体;
提取单元,根据所述依存关系制定提取规则,根据所述提取规则从所 述token序列中提取名词短语序列;
整合单元,对所述名词短语序列进行判断后,根据判断结果将所述名 词短语序列中的名词短语进行头尾整合获得规范名词短语序列;
合并单元,将所述实体与所述规范名词短语序列进行合并获得最终名 词短语序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011414360.8/2.html,转载请声明来源钻瓜专利网。