[发明专利]基于锚文本分析的领域术语自动生成方法无效
申请号: | 201110091312.4 | 申请日: | 2011-04-12 |
公开(公告)号: | CN102169496A | 公开(公告)日: | 2011-08-31 |
发明(设计)人: | 闫兴龙;刘奕群;马少平;张敏;金奕江;张阔;茹立云 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 分析 领域 术语 自动 生成 方法 | ||
技术领域
本发明涉及网络技术领域,特别涉及一种基于锚文本分析的领域术语自动生成方法。
背景技术
领域术语是指在一个学科领域中使用,表示该学科领域内概念或关系的词语。术语可以是词,也可以是短语,是在特定学科领域用来表示概念的称谓,或者说,是通过语音或文字来表达或限定科学概念的约定性语言符号。在我国,人们习惯称其为“名词”。术语的具体实例,在阅读科技文献、学习专业课程时随处可见,比如路由器就是计算机网络领域中的术语,DNA就是生命科学领域的术语等。在术语抽取领域,术语表示由两个或两个以上的字所组成的具有一定语法关系的有确切意义的语言单元,如“国家导弹防御系统”。
领域术语的提取在各个领域都有很重要的应用。在领域本体构建过程中,需要对领域术语进行及时地更新,因此领域术语的提取方法在领域本体的构建和维护过程中发挥着至关重要的作用。在信息检索领域,构建索引时需要引入领域术语集,领域术语提取技术地提高能够大大提高检索的准确率和检索的覆盖率,尤其在垂直搜索方面,如果得到某个领域的术语,对于该领域的搜索可以得到更为精确的信息。在浏览推荐方面,在用户的浏览行为的推荐方面,利用web资源得到的某领域的领域术语,可以帮助我们更准确地把握用户的浏览意图,通过用户的具体浏览行为推荐相关的信息给用户。另外领域术语的提取在广告投放中也有很大的作用,通过得到领域词典,对于网页的分类有很大的帮助,可以更好帮助商业公司对于不同的用户群做更为精细和准确的广告投放。
当前领域术语的抽取方法主要的三种方式:
1.基于规则的方法。规则方法主要通过预先制定规则模板,然后通过匹配模板来抽取术语。但是规则的编制主要依赖于语言学知识。而语言学的规则却难以发现。制定完备的规则集很难,而且还要考虑多个规则的兼容性。
2.基于统计的方法。统计方法很早就被用于术语抽取中,而且取得了不错的效果。有些人使用文档的相对频率进行术语抽取,并将其应用到本体的自动构建中。Frantzi提出了C-value/NC-value评价函数用于领域术语抽取,并取得很好的结果。Pantel采用互信息和对数似然比获取领域术语。Liu采用左右信息熵和对数似然比确定词语边界从而抽取候选术语。而该方法在本文中也有所利用。基于统计的算法在各个语料库中均可使用,但是对于特定类型的语料库无法得到较好的结果。
3.规则和统计相结合的方法。在实际应用中又很多统计和规则相结合的方法。ThuyVU先根据规则抽取候选集合,然后使用C-value/NC-value和T检验的方法计算,最后得到真正术语。这种方法结合上述两种方法的优缺点,得到的结果是相对较好的。
现有技术存在的缺点是,目前的领域术语的抽取方法非常复杂,并且准确率比较低,因此亟待改进。
发明内容
本发明的目的旨在解决上述技术缺陷。
为达到上述目的,本发明一方面提出一种基于锚文本分析的领域术语自动生成方法,包括以下步骤:采集用户的浏览日志;对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。
在本发明的一个实施例中,所述对浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址进一步包括:进行用户日志编码转换,并将所述浏览日志整理为字符串形式,同时去除数字、字母及标点符号。
在本发明的一个实施例中,所述根据点击结果地址对所述锚文本进行处理以获得候选多字集合进一步包括:判断所述点击结果地址是否属于预设的URL列表;将属于预设的URL列表的所述点击结果地址所对应的所述锚文本加入候选多字集合。
在本发明的一个实施例中,所述基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字进一步包括:基于左右熵算法对所述候选多字集合进行过滤;和基于耦合度算法对所述筛选后的候选多字集合进行过滤。
在本发明的一个实施例中,所述基于左右熵算法对所述候选多字集合进行过滤进一步包括:计算所述候选多字集合中每个多字的左信息熵和右信息熵;判断所述每个多字的左信息熵或右信息熵是否大于阈值;如果多字的左信息熵或右信息熵均小于所述阈值,则将所述多字去除。
在本发明的一个实施例中,其中,左信息熵为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110091312.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆用前盖的紧固结构
- 下一篇:擦拭器刮片和擦拭器刮片/擦拭器臂连接结构