[发明专利]面向综合集成研讨环境的信息推荐方法有效
申请号: | 200910243731.8 | 申请日: | 2009-12-23 |
公开(公告)号: | CN101782920A | 公开(公告)日: | 2010-07-21 |
发明(设计)人: | 倪娜;刘凯;李耀东;戴汝为 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 综合 集成 研讨 环境 信息 推荐 方法 | ||
1.一种基于综合集成研讨环境的主动信息获取方法,其特征在于, 该方法的步骤如下:
步骤A:研讨话题的实时提取,在研讨开始前利用多个用户给定的 相关背景资料生成此次研讨领域词汇表,用于分析发言;在研讨进行过 程中,从研讨环境中接收文本形式的发言,送入话题提取器,话题提取 器快速从发言文本中提取当前研讨话题;具体过程为:
步骤A1:对从研讨环境中得到的文本形式的发言采用向量空间模型 进行表示,t时刻的特征空间FeatureSpacet表示方法如下:
FeatureSpacet={term1,term2,...termn} (公式1)
其中n为特征空间的维数,termi为第i个特征项,特征项是向量空 间模型中的最小语言单元,这里是经过分词软件切分后的词或词组;
每当有新的发言文本到来时,新发言文本都会引入一些原有特征空 间中没有的特征,此时需要将这些特征加入原有特征空间,生成新的特 征空间;特征空间按公式2进行更新,即t时刻所有文本的特征空间由 t时刻读入的新发言文本的特征集合FeatureNew及t-1时刻的特征空间 FeatureSpacet-1的并集组成:
FeatureSpacet=FeatureSpacet-1∪FeatureNew (公式2)
FeatureSpacet-1={a,b,c,d,e,f},FeatureNew={a,b,c,x,y},那么:
FeatureSpacet={a,b,c,d,e,f,x,y}
其中:a、b、c、d、e、f、x、y为公式1中的termi,即发言文本中 经过分词软件切分后的词或词组;
当特征空间更新完毕后,将所有发言文本表示成当前特征空间 FeatureSpacet上的向量;即t时刻读入的发言文本dt表示为:
dt→{weight(d,term1),weight(d,term2),...,weight(d,termn)} (公式3)
weight(d,termi)表示文本dt中特征项termi的权重,其计算采用词频逆 文档频率TF-IDF公式进行计算即:
weight(d,termi)=TF-IDF(d,termi) (公式4);
步骤A2:对于文本向量所有特征项首先计算其词频逆文档频率值, 使用研讨领域的领域词汇表,对包含在领域词表中的特征项的词频文档 频率值乘以一个加权系数,以增强领域知识对研讨的作用,即采用公式 5取代公式4计算特征项的权重为:
weight(d,termi)=TF-IDF(d,termi)(1+β) (公式5)
其中β领域词汇加权系数,β越大,说明给予领域知识的权重越大, β的具体取值需要通过实验得到;
步骤A3:从文本向量中抽取权重较高的若干词作为当前研讨话题; 对于向量化的发言文本,对其所有元素依据相应的权重进行排序,取前 十个权重较高的项作为话题词,则当前研讨的话题topic用话题词及其权 重表示如下:
topic={(topicwordk,weightk)},k=1,...,10 (公式6)
即topicwordk为发言文本向量中权重第k高的项;
步骤B:研讨话题的跟踪:由话题判别器判断提取出的当前研讨话 题是否发生变化,如果当前研讨话题发生变化,则根据研讨话题提取元 素生成检索词,送入搜索引擎进行检索,再将搜索结果呈现给用户,如 果当前研讨话题没有发生变化,则回到步骤A继续读取发言文本;
对t时刻的发言文本dt,由公式7采用余弦距离来计算其和此前所 有发言文本dj的相似度sim(dt,dj):
其中j=1,2,...,t-1,wk和分别表示dt及dj第k个特征项的权重,n 为特征空间的维数;
此时,如果公式8中的条件满足,则认为有新话题产生,创建一个 包含t时刻的发言文本的话题类别,并从其话题topic中提取权重较高的 前5个话题词作为检索词,送入搜索引擎进行检索;
其中topicThreshold为预先设定的阈值;
否则没有新话题产生,将dt加入和其相似度最大的发言文本所属话 题类别中;
步骤C:协作过滤:协作过滤器将接收到的搜索结果发送给用户, 进行与用户的第一次交互,并根据本轮的交互情况,筛选出其中的关键 信息,推荐给用户;
步骤C1:对推荐系统发送的链接信息,用户选择其中感兴趣的信息 点击进行阅读,并对阅读过的链接信息进行打分;
步骤C2:将搜索引擎返回的搜索结果的链接发送给每位用户,用户 对链接阅读并打分,然后根据公式9所示的方法计算各个链接的权重xi, 对链接重新进行排序,得到如公式10表示的重要链接列表l1,l2,...,lm,再 将每位用户未阅读过的重要链接再次推荐给该用户,最终以可视化的方 式在综合集成研讨厅中展现对用户的推荐结果;
第i个链接的权重为:
其中L为总链接数目,K为参与研讨的用户数目,ej代表第j个用 户对第i个链接的打分,αj代表第j个用户的权威度;
第i个重要链接为:
步骤C3:查看此时是否还有新的发言产生,如果没有则本次研讨结 束,退出推荐系统,否则返回步骤A继续读取发言文本并分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910243731.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高炉送风管用高硅质耐火浇注料
- 下一篇:一种去除废水中低价无机磷的方法