[发明专利]词性标注方法和装置、程序产品及存储介质在审
申请号: | 201711446486.1 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108170674A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 赵耕弘;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种词性标注方法以及装置,其中方法包括:对待标注文本进行分词,获取待标注文本的分词结果;将分词结果中的中文词语序列依次输入字向量模型以及分类模型,获取中文词语序列中词语属于各个词性的第一概率;字向量模型用于获取中文词语序列中每个字对应的向量;词性为各个领域中的类目词语;将中文词语序列输入隐马尔可夫模型,获取每个词语属于各个词性的第二概率;根据每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的关系对词语词性的影响,从而提高了词性标注的准确度和效率。 1 | ||
搜索关键词: | 词语 词性 中文词语 词性标注 向量模型 隐马尔可夫模型 概率 分词结果 分类模型 标注 文本 方法和装置 程序产品 存储介质 顺序关系 序列输入 准确度 输入字 分词 类目 向量 | ||
对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
2.根据权利要求1所述的方法,其特征在于,所述将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率,包括:获取所述中文词语序列中的各个字;
将所述各个字输入字向量模型,获取各个字对应的向量;
针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量;
将所述中文词语序列中各个词语对应的向量输入所述分类模型,获取所述词语属于各个词性的第一概率。
3.根据权利要求2所述的方法,其特征在于,所述针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量,包括:针对所述中文词语序列中的每个词语,将所述词语所包括的各个字对应的向量进行求和,得到所述词语对应的向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性,包括:针对所述中文词语序列中的每个词语,将所述词语属于第一词性的第一概率与所述词语属于第一词性的第二概率进行乘积运算,得到所述词语属于第一词性的第三概率;所述第一词性为所述词性中的任一词性;
根据所述词语属于各个词性的第三概率,确定所述词语对应的词性。
5.根据权利要求1所述的方法,其特征在于,所述将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率之前,还包括:获取样本数据,所述样本数据中包括:样本文本,所述样本文本对应的分词结果,以及所述分词结果的中文词语序列中各中文词语的词性;
根据所述样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
6.根据权利要求5所述的方法,其特征在于,还包括:获取所述样本数据中各个词语对应的向量;
将所述样本数据中各个词语对应的向量添加到所述样本数据中,得到修改后的样本数据;
根据所述修改后的样本数据对初始的分类模型进行训练,得到所述分类模型。
7.一种词性标注装置,其特征在于,包括:分词模块,用于对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
输入模块,用于将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
所述输入模块,还用于将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
确定模块,用于根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
8.一种词性标注装置,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑6中任一所述的词性标注方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑6中任一所述的词性标注方法。10.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种词性标注方法,所述方法包括:对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711446486.1/,转载请声明来源钻瓜专利网。