[发明专利]一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法在审
申请号: | 201810209087.1 | 申请日: | 2018-03-14 |
公开(公告)号: | CN108491383A | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 王红斌;沈强;线岩团;余正涛;郭剑毅;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,属于自然语言处理技术领域。本发明对泰语中空格符的分类起到了很好的分类效果,对泰语句子切分和泰语句子边界识别的研究工作起到了良好的促进作用;本发明在泰语句子切分研究中取得了很好的句子切分效果,为机器翻译、命名实体识别、句子相似度计算、快速构建大型语料库技术、信息抽取和信息检索等研究工作提供强有力的支撑。 | ||
搜索关键词: | 句子 分类模型 语法规则 最大熵 校正 自然语言处理技术 句子边界识别 机器翻译 大型语料库 句子相似度 促进作用 分类效果 快速构建 命名实体 信息抽取 信息检索 中空 研究 分类 支撑 | ||
【主权项】:
1.一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,其特征在于:所述方法的具体步骤如下:Step1、对泰语句子切分语料采集和预处理,构建出泰语文本语料库;对泰语文本语料库进行泰语分词和词性标注,构建泰语句子切分研究所需的结构化泰语文本语料库;Step2、设b∈{sb,nsb}为结构化泰语文本语料库中泰语文本里空格符的标记值,sb标记泰语句末空格符,nsb标记非泰语句末空格符;然后根据结构化泰语文本语料库中泰语文本空格符周围的上下文情况,选择上下文窗口windows=t,并依据上下文窗口大小制定泰语文本中空格符上下文的抽取模板S和泰语文本空格符上下文内容的取值规范;其中,t表示窗口大小;Step3、根据泰语文本中句子边界的相关语言特点,制定代表泰语空格符约束条件的二值约束特征函数集合F=(f1(v,b),f2(v,b),…,fj(v,b),…,fk(v,b));其中,k为二值约束特征函数的总数,v是空格符的上下文向量,b是空格符的类别;Step4、根据泰语文本中空格符上下文的抽取模板S对结构化泰语文本语料库中泰语文本的空格符上下文进行抽取,获得泰语文本中空格符上下文c=(t1,t2,…,ti,…,tm),ti为泰语空格符上下文抽取模板的第i项内容,m为泰语文本空格符上下文抽取模板的长度,从而在结构化泰语文本语料库的基础上获得泰语文本空格符上下文的集合C={c1,c2,…,ci,…,cn},n为结构化泰语文本语料库中所有空格符的总数;Step5、根据制定的泰语文本空格符上下文内容的取值规范,对结构化泰语文本语料库中所有的空格符上下文c进行数字化抽象和数值规范,获得泰语文本中每一个空格符的上下文向量v={d1,d2,…,di,…,dm},从而构建结构化泰语文本语料库中关于泰语文本空格符的上下文向量空间V={v1,v2,…,vi,…,vn};Step6、按照训练集、测试集的比例,对泰语文本空格符的上下文向量空间进行随机抽样,划分出关于泰语文本空格符上下文的训练集向量空间Vtrain和测试集向量空间Vtest,Vtrain+Vtest=V;Step7、在训练集向量空间Vtrain上,使用最大熵分类算法进行最大熵分类模型训练,从而获得能对泰语文本中空格符进行分类的最大熵分类模型;Step8、使用最大熵分类模型对测试集向量空间Vtest中的所有样本进行分类,从而获得测试集向量空间中所有样本的待校正泰语标记序列;Step9、构建对待校正泰语标记序列进行校正的正则表达式规则集;Step10、使用所构建的正则表达式规则集对测试集向量空间中所有样本的待校正泰语标记序列进行规则校正,从而获得泰语文本中关于句子切分的最终标记序列集合,实现泰语句子的切分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810209087.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种半监督生物医学文本语义消歧方法
- 下一篇:一种专利申请文件的辅助撰写系统