[发明专利]一种汉语二分结构的句法分析方法有效
申请号: | 201810203192.4 | 申请日: | 2018-03-13 |
公开(公告)号: | CN108491381B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 谷波;王瑞波;李济洪 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 二分 结构 句法 分析 方法 | ||
1.一种汉语二分结构的句法分析方法,其特征在于,包括:
将指定句库中每一语句标注为满二叉树结构的句法树,生成汉语二分结构句法语料库;其中,每一语句的句法树的表示方式是哈夫曼编码;
选取所述汉语二分结构句法语料库中部分句法树作为训练集,将所述训练集中的每一语句的句法树的每一个子树作为训练序列标注器的一个样本,将训练集句法树语料转换成序列标注器的训练语料,使用转换后的训练集合进行训练,得到序列标注器;
其中,将训练集句法树语料转换成序列标注器的训练语料的方法步骤包括:
提取训练集中的所有句法树的所有子树,去掉只有两个词的子树;
将剩下的子树处理成,有左右两个子成分的序列,作为实际使用的序列标注训练集;
将序列标注训练集转换成边界标记形式,用以训练序列标注模型,并根据结果进行模型参数的选择以及训练好的序列标注器;其中,所述边界标记形式标记于相应句法树的子树的词上,或者标记于词的间隔上;
采用逐层分割的贪心算法,从语句的词序列开始,递归地使用序列标注器,对输入的经过分词后的语句进行分析,不断对词序列进行二分,直到划分到词,得到对应语句的满二叉树结构的句法树。
2.根据权利要求1所述的汉语二分结构的句法分析方法,其特征在于,对每一语句的句法树进行哈夫曼编码的步骤包括:
将每一句法树的根节点的编码标记为1;
对于句法树中的非根中间节点,假定其父节点的编码为h,按照如下方式确定其对应的哈夫曼的编码:
A.如果该节点是其父节点的左孩子,则其编码为父节点的哈夫曼编码乘以2,即是h*2;
B.如果该节点是其父节点的右孩子,则其编码为父节点的哈夫曼编码乘以2,然后再加1,即是h*2+1。
3.根据权利要求1所述的汉语二分结构的句法分析方法,其特征在于,边界标记采用直接对词间间隔进行标记的方法,把可作为边界的间隔标记为1,不能作为边界的间隔标记为-1;同时采用贪心策略进行二分结构的句法分析,每一次分析都是把一个成分切分成左右两个子成分,其中一个间隔被标记为1,其它的间隔位置标记为-1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810203192.4/1.html,转载请声明来源钻瓜专利网。