[发明专利]文本可理解性的度量方法无效
申请号: | 200910048310.X | 申请日: | 2009-03-26 |
公开(公告)号: | CN101520774A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 骆祥峰;方宁;徐炜民;刘方方 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 可理解 度量 方法 | ||
技术领域:
本发明涉及一种文本的可理解性的度量方法,更具体地说,涉及一种计算文本中句子之间的关联关系来度量文本的可理解性的方法。
背景技术:
文本的理解过程离不开对文本句子之间关联关系的提取和计算,句子之间的关联关系越多,文本越容易被理解。本发明涉及一种文本的可理解性的度量方法,其核心是依据句子之间逻辑结构来计算文本中句子之间的关联关系权重,从而度量文本的可理解性。
传统的文本分析仅仅停留在语法分析和简单的语义分析的基础之上,很少有基于文本句子之间的逻辑结构来计算句子之间的关联关系,从而度量文本的可理解性。本发明从认知科学的关联原理出发对文本的可理解性进行度量,从而为基于机器的文本理解提供技术支持。
本发明可以为网络上的搜索引擎、广告推送、电子商务和知识问答系统提供技术解决方案。
发明内容:
本发明的目的在于针对目前机器分析文本的局限性,提供了一种文本可理解性的度量方法。为实现上述目的,本发明的构思是:把一篇文本中的关键词,即具有重要意义的名词和动词,提取出来;统计每一个句子中出现和不出现的关键词,计算每两个句子之间的关联关系权重;在判断了多个相连句子之间的逻辑结构之后,计算多个相连句子之间的关联关系权重;最后,累加不同数目的相连句子之间的所有关联关系权重作为该文本的可理解性度量。根据上述的发明构思,本发明采用下述技术方案:
一种文本可理解性的度量方法,其特征在于如下操作步骤:
统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;根据所述关键词是否在相应的句子上出现计算每两个句子之间的关联关系权重,即用两个句子共同出现的关键词数目除以这两个句子所有关键词的数目,这两个句子可能不相连。
根据多个相连句子之间的逻辑结构,定义了相连句子之间的三种逻辑结构:先总后分、先分后总、和一个连一个,来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性,其特征在于操作如下步骤:
1.分别计算三种逻辑结构上的关联关系权重。此时,用最小的两个句子(可能不相连)的关联关系权重作为该结构上多个相连句子之间的关联关系权重;
2.取有最大权值的逻辑结构作为最可能的逻辑结构,它的权重就是该多个相连句子之间的关联关系权重;
3.依据原有的句子排列,把从最小的2个相连句子到所有数目的相连句子之间的所有关联关系权重相加得到该文本的可理解性度量。
具体实施方式:
本发明的一个优选实施例如下。本文本可理解性的度量方法的具体步骤如下:
(1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;
(2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重;
(3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。
一个实例,一篇文本包括两个关键词Tom(用C1表示)和cup(用C2表示),以及如下三句话,分别用S1、S2和S3表示,则三种逻辑结构的举例如下:
1.先总后分:
(S1)Tom breaks a cup.(S2)The cup is new.(S3)Tom is careless.
2.先分后总:
(S1)Tom is careless.(S2)The cup is new.(S3)Tom breaks a cup.
3.一个连一个:
(S1)The cup is new.(S2)Tom breaks a cup.(S3)Tom is careless.
现在一篇文本有如下的三个链接的句子:(S1)Tombreaks a cup.(S2)The cup is new.(S3)Tom is careless.我们将通过本发明的计算步骤先判断它的逻辑结构,再计算它的关联关系权重,从而度量该文本的可理解性。
1.提取关键词Tom(用C1表示)和cup(用C2表示)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910048310.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息检索方法和系统
- 下一篇:一种用于多种软件形态的质量评估方法及系统