[发明专利]结合短语结构树的语义角色识别方法有效
申请号: | 201710877035.7 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107818082B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 周俏丽;杨凤玲 | 申请(专利权)人: | 沈阳航空航天大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06F40/295 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110136 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 短语 结构 语义 角色 识别 方法 | ||
1.一种结合短语结构树的语义角色识别方法,其特征在于包括以下步骤:
1)句子的剪枝:当系统输入一个句子时,对句子进行短语分析,将分析过后的结果通过插入语或并列结构进行剪枝,简化句子的复杂程度,缩短句子的长度;
2)子句抽取处理:结合短语结构树对剪枝后句子中的子句进行抽取,将抽取出的子句和子句抽取之后剩下的部分分别进行语义角色分析,得到整句的语义角色,将语义角色的分析结果进行还原;
3)边界修正:将还原过后的语义角色结合短语树对句子进行论元边界修正,最终输出句子的语义角色分析结果;
步骤2)中,根据不同的子句采用不同的处理方式将句子中的子句总结为以下几种:
a.NP1--NP2+(VP--VB+(S--(VP--TO+VP)));
b.VP--VB+(SBAR--IN+(S--NP+VP));
c.NP1--NP2+(SBAR--IN+(S--NP3+VP));
d.NP1--NP2+(SBAR--WHNP+(S--NP3+VP));
e.NP1--NP2+(SBAR--WHNP+(S--VP+NP3));
f.SBAR--S--NP+VP;
g.S--NP+VP,S不在SBAR中;
其中,NP表示名词短语,NP1表示在句法树的第一层,NP2表示在句法树的第二层,NP3表示在句法树的第三层,VP表示动词短语,S表示子句,VB表示词语的词性为动词,TO为动词不定式to的标识,SBAR表示从句,WHNP表示引导从句的引导词,S--NP+VP表示子句S由两部分NP与VP组成;
对于编号为a、b、f、g句子结构,当子句抽取结束之后,用子句S中的NP短语替换子句语义角色分析单元放回到原句;对于编号为c、d、e句子结构,用NP2替换子句语义角色分析单元放回到原句;当原始句子中所有的子句都用相对应的NP短语替换之后,对替换后的原句进行语义角色的分析,最后将子句分析的语义角色以及原句分析的语义角色合并在一起作为整句话的语义角色。
2.按权利要求1所述的结合短语结构树的语义角色识别方法,其特征在于步骤1)中,句子的剪枝包括插入语以及并列结构剪枝,当句子含有插入语时,则将插入语剪枝,剪枝剩下的部分合并在一起作为语义角色分析单元。
3.按权利要求2所述的结合短语结构树的语义角色识别方法,其特征在于:
若插入语中含有谓词,对插入语未剪枝之前的句子进行语义角色的分析,此时对插入语中的谓词以及相关论元进行保留。
4.按权利要求2所述的结合短语结构树的语义角色识别方法,其特征在于:结合短语结构树对并列结构进行判断分为有标记以及无标记两种识别方法;对于无标记的并列结构处理名词短语并列;对于有标记的并列结构包括名词短语并列、介词短语并列、从句并列以及子句并列。
5.按权利要求2或4所述的结合短语结构树的语义角色识别方法,其特征在于:当句子含有并列结构时,对于子句并列,将并列的各个子句分别进行语义角色分析;对于其它并列,采取剪枝的方式进行语义角色的分析。
6.按权利要求1所述的结合短语结构树的语义角色识别方法,其特征在于步骤3)中,对最容易出现问题的语义角色A0、A1、AM-MOD以及谓词的边界进行论元边界修正,即:对语义角色的施事A0、受事A1、情态动词AM-MOD以及谓词进行边界的修正;
若在短语结构树中,被识别成的A0、A1在树中是一个完整的NP或S,则论元不进行修正,若不是一个完整的NP或S,则对末尾的标点符号进行去除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710877035.7/1.html,转载请声明来源钻瓜专利网。