[发明专利]一种基于规则的信息相关性判定方法有效
申请号: | 201610258136.1 | 申请日: | 2016-04-22 |
公开(公告)号: | CN105930468B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 姜剑;仲兆满;陈宗华 | 申请(专利权)人: | 江苏金鸽网络科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 连云港润知专利代理事务所 32255 | 代理人: | 刘喜莲 |
地址: | 222000 江苏省连云港市海*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于规则的信息相关性判定方法,首先判断规则与信息的标题的相关性。当规则与标题相关,规则与信息相关,判断结束;否则继续判断规则与信息正文的相关性。根据规则的核心词、规则类型及正文类型,划分正文句子,获取最短距离句子集,判断规则与最短距离句子集的相关性,得到规则与正文的相关性。再根据规则与正文的相关性,获得规则与信息的相关性。本发明通过判定信息的类型,规则中的关键词,规则的类型,并基于条件的最短距离句子,进行相关性判定,得到判定结果。通过对规则及信息的分析,可以提高规则在信息中的匹配准确度,提高了信息相关性判定能力,具有很强的实用性。 | ||
搜索关键词: | 一种 基于 规则 信息 相关性 判定 方法 | ||
【主权项】:
1.一种基于规则的信息相关性判定方法,其特征在于:其步骤如下:A、判断标题Title与规则Rule的相关性RT;RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤B;B、判断正文Content与规则Rule的相关性RC;步骤B的具体操作步骤如下:B1、判断正文类型TC;当正文Content的字符数小于字符阈值,设定正文为短文本类型ShortText;否则正文为长文本类型LongText;B2、确定规则类型TR;判定规则Rule中规则词的全部个数,得到TR值;当规则词个数为1,设定规则为单规则OneRule;规则词个数为2,设定规则为短规则ShortRule;规则词个数大于3,设定规则为长规则LongRule;B3、确定规则核心词KW;当规则Rule中规则词个数为1,则将规则词w1作为核心词KW;否则提取标题Title中出现的规则词,将Title中首个出现的规则词作为核心词KW;当标题中没有出现规则词,则规则词中第一个词w1作为核心词KW;B4、根据核心词Kw、规则类型TR及正文类型TC,获取最短距离句子集S={S1,S2,S3,…Sm};B5、判断最短距离句子集S与规则Rule的相关性RS;当RS为真,则规则Rule与正文Content相关,RC为真;否则为不相关,RC为假;当规则Rule与正文Content相关性RS为真,则规则Rule与信息Info相关;否则为不相关;所步骤B4的具体操作步骤如下:正文类型TC及规则类型TR,最短距离的范围阈值ValidLen各不相同:
B41、单规则词处理:当规则Rule中只有1个规则词,则最短距离句子为整个正文Content,最短距离句子集S提取结束;否则执行步骤B42;B42、正文Content分段:利用段落分段标识符,将正文Content分为若干段落P={P1,P2,P3…,Pn};B43、提取段落最短距离句子集S={S1,S2,S3…,Sm};依次提取段落Pi(1<=i<=n)内最短句子集Sj,直到正文Content提取结束;所述步骤B43中所述的提取段落最短距离句子集S,其操作步骤如下:B431、按照规则核心词KW对文本段落Pi(1<=i<=n)中查找包含该规则核心词KW的中心句;其中,句子以中文标点“。!?;”,英文标点“!?;”为标识符分割;B432、依次查找中心句相临近的ValidLen个句子内的字符串,组成最短句子集Sj;B433、当前中心句提取完毕后,依次获取当前段Pi的下一个包含该规则核心词KW的句子更新为当前中心句进行提取,直到段落P提取结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏金鸽网络科技有限公司,未经江苏金鸽网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610258136.1/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置