[发明专利]结合兼类词词性消歧模型和字典的越南语词性标记方法在审
申请号: | 201711056063.9 | 申请日: | 2017-11-01 |
公开(公告)号: | CN107894977A | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 郭剑毅;赵晨;余正涛;王红斌;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 兼类词 词性 模型 字典 越南语 标记 方法 | ||
技术领域
本发明涉及结合兼类词词性消歧模型和字典的越南语词性标记方法,属于自然语言处理技术领域。
背景技术
词性标注是自然语言处理中典型的序列标注任务,词性标注是为句子中每一个词赋予一个正确的词法标记;其广泛应用于自然语言处理过程的许多环节中,如组块分析、句法分析、命名实体识别、名词短语识别、语义分析以及机器翻译等,起着十分重要的作用。越南语的词性标注的研究可以有效地为后续越南语的语言信息处理研究工作提供支撑,可以应用于越南语的机器翻译、信息检索和语音识别等,同时也是语块识别器、越南语句法分析器等等不可缺少的基础。但是现有技术中的标记方法正确率低,也没有考虑兼类词的影响,因此有必要提供一种结合兼类词的越南语词性标记方法。
发明内容
本发明提供了结合兼类词词性消歧模型和字典的越南语词性标记方法,特别考虑了兼类词对词性标注的影响,有效地提高越南语的词性标注的正确率,用于解决传统的标记方法的正确率较低的问题。
本发明的技术方案是:结合兼类词词性消歧模型和字典的越南语词性标记方法,所述方法的具体步骤为:
Step1、首先人工整理得到越南语字典;
Step2、其次以人工整理的越南语字典为基础得到非兼类词字典和兼类词字典;
Step3、其次根据越南语语言特点,选取了越南语词性标注特征集,构造了兼类词词性消歧模型;
Step4、再根据所构建的兼类词词性消歧模型和非兼类词字典分别对在越南语新闻网上获取的测试语料中的兼类词和非兼类词自动进行词性标记;
Step5、最后将两种标记的结果进行自动融合得到最终标记结果。
所述步骤Step3的具体步骤为:
Step3.1、首先,通过网络爬虫程序爬取到不同类型语料,并进行语料的预处理,预处理包括数据去噪、用分词工具作分词处理;
Step3.2、其次,根据越南语字典进行匹配,编写程序自动识别出语料中的兼类词集合;
Step3.3、然后,根据越南语兼类词特性,选取兼类词的特征;再然后根据选取的这些特征将其融入到训练语料中;
Step3.4、最后,采用最大熵模型进行统计分析计算,结合Step3.3中的兼类词特征以及上下文特征,生成越南语兼类词词性消歧模型。
所述步骤Step3.1的具体步骤为:
Step3.1.1、从越南语的新闻网站上收集了包括新闻、娱乐、经济类型文章;
Step3.1.2、首先经过包括整理、去噪音操作,形成文本句子级的语料;
Step3.1.3、其次利用越南语分词工具对文本句子级的语料进行分词并由越南语言专家人工校对,形成句子级的分词语料;
Step3.1.4、然后对分词语料进行人工词性标注和组块分析;
Step3.1.5、最后通过整理越南语字典得到兼类词字典;以此字典为基础,通过编程从已构建的词性标注语料库中抽取越南语兼类词字段语料,用于兼类词词性消歧模型的构建。
所述步骤Step3.3中,兼类词词性消歧模型其特征主要选取:词以及词上下文信息特征;词性上下文信息特征;组块以及组块上下文信息特征;词在句子中句子成分特征。
所述步骤Step4的具体步骤为:
Step4.1、首先基于越南语兼类词字典,从待词性标注的测试语料中抽取出兼类词和非兼类词;
Step4.2、然后利用兼类词词性消歧模型对兼类词进行消歧,得到兼类词消歧后的标记结果;
Step4.3、最后,根据非兼类词词性字典对抽取出的非兼类词进行匹配,得到非兼类词标记结果。
所述步骤Step5中,对于得到兼类词的词性标注和非兼类词的词性标注后将两者结合起来的方法是直接替换,由于兼类词词典与非兼类词词典都是有同一本越南语字典中所得到的,所以直接替换不会造成冲突。
本发明的有益效果是:
本发明在越南语词性标注研究中,特别考虑了兼类词的影响,将语料分为兼类词和非兼类词分别进行标记,并以越南语字典为基础整理得到了非兼类词字典和兼类词字典:对于非兼类词,考虑到基于词性字典的词性标注能够实现接近100%准确率的良好实验结果,这要比基于统计的算法的实验结果好很多,并且避免了人工标记语料时可能会出现标注错误的可能性,降低了标注语料时的工作量;对于兼类词,本发明结合越南语的语言特性,构建了兼类词语料库,选取了上述兼类词特征,有效地提高越南语的词性标注的正确率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711056063.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于Bi‑LSTM的混合语料分词方法
- 下一篇:时间词的抽取方法及装置