[发明专利]一种汉语兼语结构获取方法有效

申请号：	201510846489.9	申请日：	2015-11-27
公开（公告）号：	CN106815188B	公开（公告）日：	2020-02-18
发明（设计）人：	符建辉;王卫明;曹阳	申请（专利权）人：	中科国力（镇江）智能技术有限公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	南京知识律师事务所 32207	代理人：	高娇阳
地址：	212009 江苏省镇江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种汉语兼语结构获取方法，包括对原始训练语料库Corpus进行分词，形成分词语料库TCorpus；识别分词语料库TCorpus中的每条语句Si中动词；应用兼语模式对TCorpus中的语句进行分析，对满足兼语模式的语句形成候选兼语结构，并且置入待验证的兼语结构库SOBase中；验证候选兼语结构库SOBase，并输出最终结果SOBaseResult；本发明引入了兼语模式，可在不降低获取效果的前提下极大地控制兼语形式的复杂性。针对汉语构词和语句的复杂性，为确保兼语结构的准确性，本发明从“兼语结构搭配多样性”、“兼语结构搭配常见性”双重角度，对获得的兼语结构进行严格的验证。
搜索关键词：	一种汉语结构获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种汉语兼语结构获取系统，其特征在于：包括对原始训练语料库Corpus进行分词，形成分词语料库TCorpus的模块A；识别分词语料库TCorpus中的每条语句Si中动词的模块B；应用兼语模式对TCorpus中的语句进行分析，对满足兼语模式的语句形成候选兼语结构，并且置入待验证的兼语结构库SOBase中的模块C；验证候选兼语结构库SOBase，并输出最终结果SOBaseResult的模块D；上面所述模块中，模块A采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本进行分词，并且将每篇文本按照句子的自然分割进行分拆，形成不含有句子标点符号的简单句；因此，TCorpus每个句子的形式为Si＝“W1/posl W2/pos2…Wi/posi…Wn/posn”，其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母，posi是其对应的词性；模块A产生分词后的结果将传给模块B，模块B识别分词语料库TCorpus中的每条语句Si中的动词或动词词组；模块B对TCorpus中的每条语句Si进行动词合并处理，即出现“W1/v W2/v”时，则按照“W1W2/v”进行合并处理，即将两个或两个以上的动词，合并为一个动词，称此过程为动词合并处理；在上述处理后，对修饰动词的副词进行消除处理，即将动词前的所有修饰副词全部删除；模块B完成动词识别、副词处理后，将结果传给模块C；模块C应用兼语模式对TCorpus中的语句进行分析，对满足兼语模式的语句形成候选兼语结构，并且置入待验证的兼语结构库SOBase中；模块C完成兼语模式分析后，将结果传给模块D以便验证兼语结构的正确性；模块D对候选兼语结构库SOBase中的每条记录<“Vi，1…Vi，2”，“Ni，1Vi，1Ni，2Vi，2Ni，3”>进行兼语搭配常见性验证、兼语搭配多样性验证。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科国力（镇江）智能技术有限公司，未经中科国力（镇江）智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510846489.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉语兼语结构获取方法有效

专利文献下载