[发明专利]一种计算机中自动生成英文论文标题缩写词的方法在审
申请号: | 201710831975.2 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107577669A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 张建兵;黄书剑;孙一欣;王晓亮;俞扬;戴新宇;陈家骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 江苏圣典律师事务所32237 | 代理人: | 胡建华,于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机 自动 生成 英文 论文 标题 缩写 方法 | ||
技术领域
本发明属于文本分析领域,尤其涉及一种计算机中自动生成英文论文标题缩写词的方法。
背景技术
使用缩写词来命名一个项目或者一个比较长的文字描述是一个很常见的语言现象。比如,缩写词IBM经常被用来代表International BusinessMachines Corporation。缩写词在学术交流中也经常扮演重要的角色。通常,一个方法或者一个系统的全名都需要用比较多的字符来总结方法或者系统的核心内容,而这样的名称增加了用户去记忆或者提及的难度。相比较而言,与单词极为相似的缩写词更方便人们去记忆和提及,并且也能比较好的提醒人们他们所代表的含义。
创造缩写词的方式有很多,比如,SVM是Support Vector Machine的缩写词,他是使用所有单词的首字母形成缩写词。而对于AdaBoost,他是Adaptive Boosting的缩写,是取第一个单词的前3个字母和第二个字母的前5个字母形成的。除此之外,还有的缩写是进过一些形变形成的,比如,Boostrap Aggregating的缩写词Bagging,这个就不是简单的前缀形成的。不过,从这些例子可以看到,不管是命名还是给出缩写都要求人们对描述内容有充分的理解,同时也要对单词及发音这些语言学知识比较熟悉。对于一个普通用户来讲,这显然不是一个简单的工作。而对于人工智能来讲,这也是一个有趣而具有挑战性的工作。现在也有一些提供缩写服务的网站,比如acronymcreator.net,naming.com,business-name-generators.com,netsubstance.com等,但是这些网站只是使用一些手写的规则来产生缩写词的候选,当然,这也要求理想的缩写词包含在手写的规则中才能有效。不过,当描述的内容变长之后,这样的方法又会引起另外的问题,那就是候选太多,这样用户很难从中挑出自己满意的缩写词。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于描述分析—候选生成—缩写排序框架的缩写词生成方法。
为了解决上述技术问题,本发明公开了一种基于描述分析—候选生成—缩写排序框架的缩写词生成方法,包括以下步骤:
步骤1,对论文标题进行分析,得出标题中词语的重要程度,即权重;
步骤2,根据对论文标题的分析结果,生成候选缩写词集合,并在生成缩写词的每一步对产生的缩写词打分排序;
步骤3,对候选缩写词打分进行调整并排序;
步骤4,对权重参数进行优化,优化过程中需要不断执行步骤1到步骤4,迭代次数达到设定最大值2000时停止。实际应用的时候不需要执行参数优化。
步骤1包含以下步骤:
步骤1-1,对标题进行句法分析,获得标题的结构信息:通过句法分析得到一棵依存句法树,这里使用工具Stanford Parser[1]得到标题的句法分析树。对依存句法树的不同层次的单词定义指示特征,指示特征具体形式如下:
其中,wk表示标题中的第k个单词;fSyn-i(wk)表示该单词wk在句法树第i层对应的特征值;下标syn表示该特征是句法相关特征,i表示句法树的第i层。;
步骤1-2,计算标题中的每个单词与该标题在语义上的关联程度:首先,在arxiv.org上收集30万的英文论文标题数据集,然后在该英文论文标题数据集上训练词向量,得到数据集中每个单词对应的向量表示,向量维度为300;
对一个长度为n的英文标题w1,w2,w3,…,wn,wn为标题中第n个单词,对于两个单词wi和wj,i和j的取值范围均为1到n,通过如下公式计算这两个单词的相似度dij:
其中,Vec(wi)表示单词wi的词向量;
通过如下公式计算标题中的第k个单词wk与标题的语义关联程度fSem(wk):
其中k∈[1,n],j(j=1,2,…,k-1,k+1,…,n)是标题中除wk之外其他单词的索引,dkj表示单词wk与wj的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710831975.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于语义的社交媒体非规范词纠正方法
- 下一篇:一种热缩套管