[发明专利]一种语义标注的方法在审
申请号: | 202110857251.1 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113901830A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 王伟 | 申请(专利权)人: | 大连语智星科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 合肥上博知识产权代理事务所(特殊普通合伙) 34188 | 代理人: | 郭堃 |
地址: | 116000 辽宁省大连市高新技术产业园*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 标注 方法 | ||
本发明揭示了一种语义标注的方法,包括如下步骤:S1,采用以组块为单位建立语义关系,不同阶段的组块可以包含不同句法单位的内容;S2,采用智能指导式的组块区域选择,避免了对无效组块进行标注的问题;S3,采用以组块为单位的语义关系标注,实现事理图谱标注;S4,对句法标注结果中的语义码序列进行过滤,提供极少数量的有效候选语义选项;S5,对标注过程中的信息进行记录,便于后期查看和追踪。本发明可方便地在句子的词、短语、子句之间的各种层级上进行全方位地各类语义关系标注,标注设备的选择灵活,可以在手机上随时随地进行标注,从而解决了标注语料在“规模上、领域上、及时性”等方面不足的问题。
技术领域
本发明涉及自然语言语义标注技术领域,尤其是涉及一种语义标注的方法。
背景技术
随着人工智能技术的飞速发展,在图像、语音、自然语言文本的处理上都取得了显著地提高。目前自然语言处理进入到语义分析阶段,也即探索让机器理解人类自然语言的阶段。若说句法分析是对自然句子进行结构层次分析的话,那么语义分析就是对自然句子的各个结构成分之间的语义关系进行分析,也即对句子内部表达的意思进行分析,是属于比句法分析更高层级的分析,它也是实现机器理解自然语言的关键环节。
目前,所有语义分析系统都是采用“先标注出用于语义分析的语料,再在标注语料上训练模型”的策略,也即人类先把语义分析的样本“教给”机器,然后再让机器“学以致用”。因此,人工地标注出语义分析用的语料库是不可或缺的一项工作。由于现今的语义标注方法的一些不合理性,造成了自然语言处理所需要的标注语料供应不足,这已经成为了制约人工智能技术发展的严重障碍,是一个必须要尽快解决的重要问题。
首先,现有的语义标注工作都是在依存句法树的基础上进行的,由于依存句法分析本身是以词为基本单位来描述词与词之间的句法关系,在此基础上的语义标注也只是描述了词与词之间的语义关系。实际上,语义关系并不只限于词与词之间,在词与短语之间、短语与短语之间、短语与子句之间、子句与子句之间都存在着语义关系,因此现有这种只在依存句法树上标注词与词之间的语义关系,是不完整的,也不能充分地刻画出句子所表达的意思。比如,例句“妈妈很生气是由于他今天没有去上学。”现有基于依存文法的语义表示结果如附图1。由图可知,现有的标注方法都只是在一个词与另一个词之间建立语义关系的描述。而对于“妈妈很生气”与“他今天没有去上学”这两个比词更大一级的句法成分(子句)之间的语义关系就很难进行描述。
其次,由于语义关系类型通常有几十种不等,不管在什么时候标注,每次都要一下子全部列出所有的语义关系类型以供选择,这很容易对标注人员产生视觉疲劳,而且很容易选错,因此,现有的语义标注方法存在着效率低,成本高,规模不容易做大的问题。比如,标注“妈妈”和“生气”之间的语义关系时,现有的标注方法,在选择“妈妈”这个语义角色时,就需要从有着几十个候选项的冗长列表中进行选择,见附图2。
再者,现有的在句子各个词之间建立弧线的语义标注方式,必须要在足够大的显示屏幕才能操作,而在手机这样的便携型设备上几乎是很难完成的,比如图1中仅10个词句子的语义依存表示,就需要占一定的屏幕空间,若是多到20个词以上的句子就需要更大的显示屏幕才行。对较长句子进行语义标注时需要大屏幕空间,这限制了语义标注操作的便利性,毕竟语义标注是需要面向各个领域、各种内容、各个时期的自然语言句子,同时又属于需要更多的人来广泛参与才能做好的工作。这种只能在大屏幕上才能进行标注的方式,严重阻碍了语义标注在领域上、规模上和及时性等方面的发展。
因此需提供一种新型的语义标注方法,以解决现有技术中语义关系的标注范围不全面,标注候选项较多,标注设备限定性高等技术问题。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种语义标注的方法,以实现更大规模、更高质量、更及时的语义标注语料库建设,提升机器的自然语言理解水平。
为实现上述目的,本发明提出如下技术方案:一种语义标注的方法,其包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连语智星科技有限公司,未经大连语智星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110857251.1/2.html,转载请声明来源钻瓜专利网。