[发明专利]基于锚文本分析的领域术语自动生成方法无效
申请号: | 201110091312.4 | 申请日: | 2011-04-12 |
公开(公告)号: | CN102169496A | 公开(公告)日: | 2011-08-31 |
发明(设计)人: | 闫兴龙;刘奕群;马少平;张敏;金奕江;张阔;茹立云 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 分析 领域 术语 自动 生成 方法 | ||
1.一种基于锚文本分析的领域术语自动生成方法,其特征在于,包括以下步骤:
采集用户的浏览日志;
对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;
根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;
基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和
根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。
2.如权利要求1所述的基于锚文本分析的领域术语自动生成方法,其特征在于,所述对浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址进一步包括:
进行用户日志编码转换,并将所述浏览日志整理为字符串形式,同时去除数字、字母及标点符号。
3.如权利要求1所述的基于锚文本分析的领域术语自动生成方法,其特征在于,所述根据点击结果地址对所述锚文本进行处理以获得候选多字集合进一步包括:
判断所述点击结果地址是否属于预设的URL列表;
将属于预设的URL列表的所述点击结果地址所对应的所述锚文本加入候选多字集合。
4.如权利要求1所述的基于锚文本分析的领域术语自动生成方法,其特征在于,所述基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字进一步包括:
基于左右熵算法对所述候选多字集合进行过滤;和
基于耦合度算法对所述筛选后的候选多字集合进行过滤。
5.如权利要求4所述的基于锚文本分析的领域术语自动生成方法,其特征在于,所述基于左右熵算法对所述候选多字集合进行过滤进一步包括:
计算所述候选多字集合中每个多字的左信息熵和右信息熵;
判断所述每个多字的左信息熵或右信息熵是否大于阈值;
如果多字的左信息熵或右信息熵均小于所述阈值,则将所述多字去除。
6.如权利要求5所述的基于锚文本分析的领域术语自动生成方法,其特征在于,
其中,
左信息熵为:
右信息熵为:
其中,C(w,ai)和C(w,bi)分别为对于词w而言的左单字ai和右单字bi出现的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110091312.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆用前盖的紧固结构
- 下一篇:擦拭器刮片和擦拭器刮片/擦拭器臂连接结构