[发明专利]自然语言处理方法、装置、存储介质及电子设备在审
申请号: | 201911401196.4 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111209746A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 刘振宇;王志刚;王泽皓;王亚平;刘雅婷;刘芬;邓应强 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种自然语言处理方法、装置、存储介质及电子设备,所述方法包括:接收待分析文本数据和分析指令,分析指令用于指示对待分析文本数据进行的分析模式和分析结果格式;若分析模式指示对待分析文本数据进行句法依存分析,则对待分析文本数据进行分词处理,获得分词数据;根据分词数据对待分析文本数据进行词性标注,获得分词词性数据;对分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;根据分词词性数据和实体识别数据进行句法依存分析,获得句法依存数据;根据分析结果格式确定文本数据分析结果,输出文本数据分析结果,文本数据分析结果包括分词数据、分词词性数据、实体识别数据和句法依存数据中的一者或多者。
技术领域
本公开涉及计算机技术领域,具体地,涉及一种自然语言处理方法、装置、存储介质及电子设备。
背景技术
随着计算机技术的发展,自然语言处理技术也随之兴起。如,在税务领域、医学领域等,均可以通过自然语言处理技术从而对该领域中的文本进行标准化处理,降低用户的工作量。
然而,在现有技术中,该自然语言处理的不同技术通常是被单独的在各智能平台及自然语言处理工具中提供,这样往往会导致各种重复性计算问题。如用户在使用实体识别功能时需要重新进行分词和词性标注工作,浪费了大量的运算时间。
发明内容
本公开的目的是提供一种准确地自然语言处理方法、装置、存储介质和电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种自然语言处理方法,包括:
接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者。
可选地,所述对所述待分析文本数据进行分词处理,获得分词数据,包括:
将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
针对所述初始分词数据中的各个初始词语,计算该初始词语对应的词内紧密度;
针对待分析文本数据的每句对应的分词数据,若该句对应的分词数据中的最小的词内紧密度小于预设阈值,分别确定该最小的词内紧密度对应的初始词语与初始该词语的相邻词语之间的词间紧密度;
将最大的词间紧密度对应的初始词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的初始词语和所述新的分词词语。
可选地,所述针对所述初始分词数据中的各个初始词语,通过以下公式,计算该初始词语对应的词内紧密度:
其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911401196.4/2.html,转载请声明来源钻瓜专利网。