[发明专利]一种隐式篇章关系的分析方法及系统有效
申请号: | 201410379412.0 | 申请日: | 2014-08-04 |
公开(公告)号: | CN104090868A | 公开(公告)日: | 2014-10-08 |
发明(设计)人: | 洪宇;车婷婷;姚建民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 篇章 关系 分析 方法 系统 | ||
技术领域
本申请涉及自然语言处理技术领域,更具体地说,涉及一种隐式篇章关系的分析方法及系统。
背景技术
在篇章研究领域,篇章是论元经过语义关联和结构化组织形成的自然语言文体。篇章关系是同一篇章内部,相邻论元或跨度在一定范围内的论元间的语义关联性质,如对比关系、扩展关系等。其中,论元是篇章中具有独立语义的文字片段,是形成篇章关系的基本表现单元。篇章关系分析是解释论元间的语义关系。
根据论元间是否存在显式连接词(如“所以”等),篇章关系可以划分为显式关系和隐式关系两类。显式关系因具有连接词等指向特定篇章关系的直观线索而易于检测。但是,隐式篇章关系由于缺乏连接词,其检测难度非常大,目前还没有一种有效的方案,能够针对隐式篇章关系进行分析。
发明内容
有鉴于此,本申请提供了一种隐式篇章关系的分析方法及系统,用于解决现有技术缺乏对隐式篇章关系进行分析的有效方案。
为了实现上述目的,现提出的方案如下:
一种隐式篇章关系的分析方法,包括:
接收用户输入的包括前置论元和后置论元的待测隐式论元实例;
在语料库中筛选与所述待测隐式论元实例具有语义平行性且包含预设连接线索词的显式论元实例;
计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度;
按照第一预设规则,筛选出若干个所述显式论元实例并确定为平行显式论元实例集合;
计算每一个平行显式论元实例的篇章关系的置信度;
至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概率;
将平行概率最大的一类篇章关系确定为所述待测隐式论元实例的篇章关系。
优选地,所述在语料库中筛选出与所述待测隐式论元实例具有语义平行性且包含预设连接线索词的显式论元实例为:
分别抽取所述待测隐式论元实例的前置论元、后置论元的二元文法,得到若干个前置文法和若干个后置文法;
将每一个所述前置文法分别与各个所述后置文法进行组合,并将每一个组合确定为一个查询条件;
利用每一个所述查询条件在所述语料库中查找包含预设连接线索词的显式论元实例。
优选地,所述计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度为:
利用Jaccard算法,计算每个所述显式论元实例的前置论元与所述待测隐式论元实例的前置论元的平行度,确定为第一平行度;
利用Jaccard算法,计算每个所述显式论元实例的后置论元与所述待测隐式论元实例的后置论元的平行度,确定为第二平行度;
求取所述第一平行度与所述第二平行度的平均值,并确定为所述待测隐式论元实例的语义平行度。
优选地,所述第一预设规则为:
选取顺序排列的若干个显式论元实例中预设比例的前n个显式论元实例,确定为平行显式论元实例集合;或者,
选取满足预设语义平行度参考值的显式论元实例,确定为平行显式论元实例集合。
优选地,所述计算每一个平行显式论元实例的篇章关系的置信度为:
Gj=|gj-gnorm(j)|
其中,j代表篇章关系,gj表示篇章关系j在平行显式论元实例集合中的概率分布,gnorm(j)表示篇章关系J在所述语料库中的概率分布,Gj表示篇章关系J的分布概率差异,j∈sences,sences为篇章关系集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410379412.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用户行为数据的分析方法和装置
- 下一篇:一种固态存储设备的地址分配方法