[发明专利]基于句子关联的篇章语义自动识别方法及系统在审
申请号: | 202110980677.6 | 申请日: | 2021-08-25 |
公开(公告)号: | CN114154506A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 侯志强;谭培波;任骥;刘锋;王坚;马青 | 申请(专利权)人: | 北京智通云联科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F16/33;G06K9/62 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 秦莹 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句子 关联 篇章 语义 自动识别 方法 系统 | ||
本发明公开了一种基于句及子关联的篇章语义自动识别方法及系统,方法包括:按照篇章在标注语料中构建原始句子和篇章语义的对应关系;对原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对语义字典进行字典标注,将标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型;通过CRF模型对输入文档进行语义标签预测,通过语义字典对输入文档进行语义标签预测,以根据语义字典确定的语义标签为优先,将通过语义字典查询到的语义标签和CRF模型预测到的语义标签进行融合,得到输入文档的最终语义标签。
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于句子关联的篇章语义自动识别方法及系统。
背景技术
自然语言是人的思想的表达形式,自然语言处理研究人的思维模式,自然语言处理的粒度代表了人的思维层面。在语义技术研究方面,现在研究得比较成熟的是句子级的语义处理技术,比如框架语义、角色语义、依存语义等,句子级表明人对自然语言的研究还停留在最基本的功能层面,就跟螺丝钉一样,篇章语义相当于一台设备;篇章语义研究的滞后,导致自然语言处理技术还无法对宏大工程场景进行有效的研究,包括篇章语义的定义、标注和自动识别。对于word的docx格式文档一般可以通过解析其层次结构获得篇章语义的解析,但是对于很多doc、txt、pdf等格式的文件而言,它们没有层次结构,而要人工进行标注的话是不现实的,因此需要开发一种篇章语义的自动识别的方法。
目前,现有基于上下文无关的0型句子语义识别技术不能识别具有严格层次和逻辑关系的篇章语义,现有句子级的处理技术是把句子当作一个独立的0型语义单元处理,不考虑句子的上下文的语境,不考虑句子在文章中的位置,这对于类似分词、词性标注这种简单语义的情况是可以的。但是在篇章语义的情况下,整个篇-章-节-段-句作为一个整体组织在一起才能完整地表达场景,其中篇-章-节-段都是由多句子组成,句子之间的顺序决定了句子的意义,句子在相应的层次结构中取得语义,离开了这个结构,句子的意义是不明确的。篇-章-节-段-句在工程上对应着不同粒度的场景,比如在石化业务中对应着业务域-业务主题-研究对象-业务活动等,或者和国家-总公司-分公司-研究室这样的层次结构对应。由于在工程中句子只是最小的语义单元代表最小的活动或者功能,它不能独立于整个活动的框架而孤立地存在,这意味着句子要和它的上下文一起进行分析才能决定句子的篇章语义。
此外,现有的算法无论是统计学习还是深度学习都无法处理长句子。工程中的单句子一般都很长,而多句子连接起来就更长,比如常见的2个句子“本井由地质录井二分公司SL223录井队承担地质录井任务,按设计要求自二开至井底进行了钻时、综合录井、岩屑、井壁取心、荧光、钻井液、岩石热解地化、二维定量荧光、岩矿鉴定、罐顶气轻烃气相色谱分析、热蒸发烃色谱、核磁共振、古生物分析、荧光薄片等各项录井工作,全井工作量统计见表1,施工过程中还进行了迟到时间及泥(页)岩密度的测定,并在钻井过程中及时完成岩样汇集工作。录井过程中SL-ADVANTAGE型综合录井仪工作正常,充分发挥了综合录井仪各项采集功能,齐全准确地收集了各项地质资料、气测资料及工程参数,圆满完成了设计任务。”其中第一句包含180个字符,在专业文献中,句子一般都很长,平均在80个字以上,一句就超出了统计学习或者CRF的输入句子宽度小于50个字符的限制,更无法处理连续几句连接在一起的段落。CRF由于只能处理就近+-4个字符之间的关联,算法机理上对长程关联处理能力弱;深度学习在输入符数大于100之后,计算2阶梯度矩阵的运算量非常大,不能满足系统速度性能的要求。
发明内容
本发明的目的在于提供一种基于句子关联的篇章语义自动识别方法及系统,旨在解决现有技术中的上述问题。
本发明提供一种基于句子关联的篇章语义自动识别方法,包括:
按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110980677.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电动制动器的控制装置
- 下一篇:一种动态光学效应层及其制备方法