[发明专利]一种文本文档主题词义的自动提取方法有效
申请号: | 201010210106.6 | 申请日: | 2010-06-24 |
公开(公告)号: | CN101887415A | 公开(公告)日: | 2010-11-17 |
发明(设计)人: | 方俊;郭雷;常威威 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种文本文档主题词义的自动提取方法,包括:首先对训练文本文档集和测试文本文档集进行文本文档预处理,得到训练文本文档集和测试文本文档集中每一篇文本文档的候选主题词义集合;然后,分别计算每一个候选主题词义的特征属性值;最后,利用贝叶斯模型抽取测试文本文档集中每一篇文本文档的最终的主题词义。本发明的整个过程采用词义代替词进行主题意思的提取,避免了一词多义性带来的不准确性,应用本发明可以提高主题意思提取的精度。 | ||
搜索关键词: | 一种 文本 文档 主题 词义 自动 提取 方法 | ||
【主权项】:
1.一种文本文档主题词义的自动提取方法,其特征在于步骤如下:(1)分别对训练文本文档集和测试文本文档集中的每篇文本文档进行预处理,得到每篇文本文档的候选主题词义集合;所述的预处理包括以下步骤:步骤a:提取文本文档的候选主题词集合:首先,去除文本文档中的数字和标点符号,将文本文档切分成现有词的集合;然后,去除集合中不满足条件的词;最后,将剩余词中的大写字母转换为小写字母,并去掉词的前缀和后缀,得到文本文档的候选主题词集合;所述的条件为:组成词的字母个数小于预设值,或至少有一个小写字母,或非停用词;所述的非停用词是指停用词以外的所有词,所述的停用词是虚词;所述的预设值为15个字母;步骤b:采用消岐算法获取文本文档的候选主题词义集合:首先,在候选主题词集合中选择距离每个候选主题词W范围内的词作为该候选主题词的上下文;所述的W的取值范围为[6,10];然后,按语义相关度计算公式
计算每个候选主题词的第k个可能词义sk和该候选主题词的第i个上下文ci的语义相关度rel(sk,ci),并按
计算候选主题词的第k个可能词义sk与该候选主题词的所有上下文的总的语义相关度SenseScore(sk);其中,k=1,2,…,K,K为候选主题词的可能词义的个数;i=1,2,…,I,I为候选主题词的上下文的个数;wordNumInGlossOfsk表示sk的WordNet释义包含的单词个数,wordNumInGlossOfci表示ci的WordNet释义包含的单词个数,NumOfOverlaps_skci表示sk的WordNet释义和ci的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为定义在词法数据库WordNet中的词义;最后,选择总的语义相关度SenseScore值最大的可能词义作为候选主题词的候选主题词义,得到文本文档的候选主题词义集合;步骤c:合并候选主题词义:按语义相关度计算公式
计算候选主题词义集合中任意两个候选主题词义
和
的语义相关度,并去除语义相关度值大于给定阈值λ的两个候选主题词义中的任意一个;所述的阈值λ的取值范围为[0.5,0.8];其中,![]()
p≠q,
为候选主题词义集合中候选主题词义的个数;
表示
的WordNet释义包含的单词个数,
表示
的WordNet释义包含的单词个数,
表示
的WordNet释义和
的WordNet释义所包含的单词中相同单词的个数;(2)计算候选主题词义集合中每个候选主题词义在文本文档中的特征属性值;所述的特征属性包括:侯选主题词义在文本文档中出现的频率tf×idf、侯选主题词义在文本文档中第一次出现的平均位置fo、侯选主题词义包含的字母个数len和候选主题词义之间的内聚性coh;所述的侯选主题词义在文本文档中出现的频率tf×idf的计算公式为:tf × idf ( cs j ) = f ( cs j ) × log | D | | D ( cs j ) | ]]> 其中,csj为文本文档的候选主题词义集合中的第j个候选主题词义,j=1,2,…,J,J为文本文档的候选主题词义集合中候选主题词义的个数;f(csj)为csj在文本文档中出现的次数,D表示文本文档集,|D|为D中的文本文档篇数,|D(csj)|为在D中包含候选主题词义csj的文本文档篇数;所述的侯选主题词义在文本文档中第一次出现的平均位置fo的计算公式为:fo(csj)=Ofirst/J其中,Ofirst为候选主题词义csj在文本文档中第一次出现的位置;所述的候选主题词义之间的内聚性coh的计算公式为:coh ( cs j ) = Σ l = 1 , l ≠ j J rel ( cs j , cs l ) J - 1 ]]> 其中,rel(csj,csl)为按语义相关度计算公式
计算得到的文本文档的候选主题词义集合中候选主题词义csj和候选主题词义csl的语义相关度;wordNumInGlossOfcsj表示csj的WordNet释义包含的单词个数,wordNumInGlossOfcsl表示csl的WordNet释义包含的单词个数,NumOfOverlaps_csjcsl表示csj的WordNet释义和csl的WordNet释义所包含的单词中相同单词的个数;(3)利用贝叶斯模型抽取测试文本文档集中每篇文本文档的最终的主题词义集合:首先,按Pr=Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes]计算测试文本文档集中每篇文本文档的每个候选主题词义为主题词义的概率Pr;其中,Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示候选主题词义在具备当前tf×idf、fo、len、coh特征属性值的条件下为主题词义的概率,Pr[yes]表示训练文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选主题词义不为主题词义的文本文档的数目的比例;然后,将该篇文本文档的所有候选主题词义按概率Pr值由大到小进行排序;最后,选择排序在前的用户设定数目的候选主题词义构成该篇文本文档的最终的主题词义集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010210106.6/,转载请声明来源钻瓜专利网。
- 上一篇:二氧化碳重复呼吸器
- 下一篇:带瞬间打火保护的电源锁电路