[发明专利]自然语言处理方法、装置、存储介质及电子设备在审
申请号: | 201911401196.4 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111209746A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 刘振宇;王志刚;王泽皓;王亚平;刘雅婷;刘芬;邓应强 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 方法 装置 存储 介质 电子设备 | ||
1.一种自然语言处理方法,其特征在于,所述方法包括:
接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者。
2.根据权利要求1所述的方法,其特征在于,所述对所述待分析文本数据进行分词处理,获得分词数据,包括:
将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
针对所述初始分词数据中的各个初始词语,计算该初始词语对应的词内紧密度;
针对待分析文本数据的每句对应的分词数据,若该句对应的分词数据中的最小的词内紧密度小于预设阈值,分别确定该最小的词内紧密度对应的初始词语与初始该词语的相邻词语之间的词间紧密度;
将最大的词间紧密度对应的初始词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的初始词语和所述新的分词词语。
3.根据权利要求2所述的方法,其特征在于,所述针对所述初始分词数据中的各个初始词语,通过以下公式,计算该初始词语对应的词内紧密度:
其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。
4.根据权利要求2所述的方法,其特征在于,所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述名词词性的分词词语输入实体识别模型,获得所述实体识别数据,其中,所述实体识别模型为基于实体词典、隐马尔科夫链、和通过长短期记忆神经网络对所述新的分词词语进行训练获得的。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户上传的实体扩展词典;
所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述分词词性数据中的名词词性的分词词语与所述实体扩展词典进行匹配,以获得实体识别数据。
6.根据权利要求1所述的方法,其特征在于,所述根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,包括:
根据所述分词结果格式,从所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中确定所述分词结果格式对应的数据,作为所述文本数据分析结果;
分别输出所述文本数据分析数据结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911401196.4/1.html,转载请声明来源钻瓜专利网。