[发明专利]基于字同现频率的主题抽取方法无效
申请号: | 200410016555.1 | 申请日: | 2004-02-26 |
公开(公告)号: | CN1560762A | 公开(公告)日: | 2005-01-05 |
发明(设计)人: | 李建华;李生红;杨树堂;苏贵洋;马颖华;陆松年 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海交达专利事务所 | 代理人: | 王锡麟;王桂忠 |
地址: | 200240*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于字同现频率的主题抽取方法,属于信息处理领域。本发明以字为基本处理单元,首先对输入文本统计每个字出现的次数,删除出现次数只为一次的字和常用字,然后,通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,将统计结果保存在矩阵中,进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量,并经过权重调整后,最后进行主题句或段的排序和输出,从而实现主题句或段抽取。本发明克服了背景技术的缺陷,避开文本处理过程中的分词和抽词过程,使用该方法进行主题抽取,具有相当高的正确率,尤其是散文、诗歌等富含高级修辞手法的文体,第一主题句的正确率都达到半数以上。 | ||
搜索关键词: | 基于 同现 频率 主题 抽取 方法 | ||
【主权项】:
1、一种基于字同现频率进行主题抽取的方法,其特征在于,以字为基本处理单元,首先对输入文本统计每个字出现的次数,删除出现次数只为一次的字和常用字,然后,通过统计全文中字的同现频率,并得到字与字之间同现所具有的信息量,将统计结果保存在矩阵中,进而计算每一句或段中字同现关系使得每一句或段所蕴涵的信息量,并经过权重调整后,最后进行主题句或段的排序和输出,从而实现主题句或段抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410016555.1/,转载请声明来源钻瓜专利网。
- 上一篇:永磁开关
- 下一篇:动态情况下异步多传感器信息融合方法