[发明专利]一种领域术语抽取的方法有效

专利信息
申请号: 201410831590.2 申请日: 2014-12-26
公开(公告)号: CN104598530B 公开(公告)日: 2018-06-05
发明(设计)人: 江潮;张芃 申请(专利权)人: 语联网(武汉)信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京康盛知识产权代理有限公司 11331 代理人: 张宇峰
地址: 430070 湖北省武汉市东湖开发区光谷软件*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种领域术语抽取的方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数;利用确定的所述多个特征参数,计算出该候选术语的领域术语度;抽取所述领域术语度高于阈值的候选术语作为新的领域术语。本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行充分的分析,保证提取的术语可靠性和准确性较高。
搜索关键词: 领域术语 词频 抽取 特征参数 互信息 语素 独立性 原始语料 维度 分析 保证
【主权项】:
一种领域术语抽取的方法,其特征在于,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数;利用确定的所述多个特征参数,计算出该候选术语的领域术语度;抽取所述领域术语度高于阈值的候选术语作为新的领域术语;其中,按照如下公式计算出每个候选术语的领域术语度Termhood:Termhood=K1·P+K2·MI+K3·LRH+K4·IPW+K5·IPC+K6·PC其中,P为候选术语在所述原始语料中的出现概率;MI为候选术语的两部分的互信息的最小值,其中候选术语被分割为任意长度的两部分;LRH为候选术语的左右熵;IPW为候选术语具有的每个语素在历史语料库中独立成词的概率;IPC为候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率;PC为候选术语中的领域概率;K1、K2、K3、K4、K5和K6为通过给定样本利用最小二乘法计算出的领域术语度调节系数,所述领域术语度调节系数为多元线性回归系数;其中,按照如下公式计算候选术语C独立成词的概率IPW(C):IPW(C)=IPW(c1c2…c1)=IPW(c1)·IPW(c2)·…·IPW(cl);其中,c1、c2、…、cl分别为候选术语C中相应位置的语素,IPW(c1)、IPW(c2)、…、IPW(cl)为每个语素独立成词的概率;其中,按照如下公式计算候选术语中的每个语素x独立成词的概率IPW(x):<mrow><mi>I</mi><mi>P</mi><mi>W</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>w</mi><mi>o</mi><mi>r</mi><mi>d</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow><mrow><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac></mrow>其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;其中,对于待计算的l元字符串C=c1c2…cl,根据内部词概率表,计算IPC的方法为:<mrow><mi>I</mi><mi>P</mi><mi>C</mi><mo>=</mo><mroot><mrow><mi>I</mi><mi>P</mi><mi>C</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>1</mn></msub><mo>,</mo><mn>0</mn><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>I</mi><mi>P</mi><mi>C</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>l</mi></msub><mo>,</mo><mn>2</mn><mo>)</mo></mrow><mo>&CenterDot;</mo><mfrac><mn>1</mn><mrow><mi>l</mi><mo>-</mo><mn>2</mn></mrow></mfrac><msubsup><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>2</mn></mrow><mrow><mi>l</mi><mo>-</mo><mn>1</mn></mrow></msubsup><mi>I</mi><mi>P</mi><mi>C</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mn>1</mn><mo>)</mo></mrow></mrow><mn>3</mn></mroot></mrow>其中,IPC(x,pos)表示语素x出现在位置pos的概率;pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾;其中,计算语素x出现在术语的词头、词中、词尾的概率,从而得到包含所有语素的内部词概率表的方式如下:<mrow><mi>I</mi><mi>P</mi><mi>C</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mi>x</mi><mo>*</mo><mo>)</mo></mrow></mrow><mrow><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mi>x</mi><mo>*</mo><mo>)</mo></mrow><mo>+</mo><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mo>*</mo><mi>x</mi><mo>*</mo><mo>)</mo></mrow><mo>+</mo><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mo>*</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac></mrow><mrow><mi>I</mi><mi>P</mi><mi>C</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mo>*</mo><mi>x</mi><mo>*</mo><mo>)</mo></mrow></mrow><mrow><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mi>x</mi><mo>*</mo><mo>)</mo></mrow><mo>+</mo><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mo>*</mo><msub><mi>c</mi><mi>i</mi></msub><mo>*</mo><mo>)</mo></mrow><mo>+</mo><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>s</mi><mrow><mo>(</mo><mo>*</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac></mrow><mrow><mi>I</mi><mi>P</mi><mi>C</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mn>2</mn><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>t</</div> </div> <div class="b20"></div> <div class="down-box" id="down-box"> <div class="msg" style="display: block;"> <span>下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。</span> </div> <div class="btns"> <span class="btn paydown">免登录下载</span><a href="/login.html?p=8684656C99F5006F926FF1A986872B49BDBDE5C2D208B588" class="btn green" target="_blank">普通用户下载</a><a href="http://yh.vipzhuanli.com/member/service/pay-vip.html?p=v1" target="_blank" class="btn red">升级VIP会员,免费下载</a> </div> </div> <div class="warning"> <p>该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【<a href="https://wpa1.qq.com/l11yQAzu?_type=wpa&qidian=true">客服</a>】</p> <p>本文链接:http://www.vipzhuanli.com/patent/201410831590.2/,转载请声明来源钻瓜专利网。</p> </div> <ul class="clear_div other_o"><li class="prev">上一篇:<a href="/patent/201510027664.1/" title="TFPR1蛋白及其编码基因与其在免疫调节中的应用">TFPR1蛋白及其编码基因与其在免疫调节中的应用</a></li><li class="next">下一篇:<a href="/patent/201410855001.4/" title="一种数据统计方法及装置">一种数据统计方法及装置</a></li></ul> <div class="oth-box"> <dl class="d_th"><dd><span>同类专利</span></dd><dt class="th_a"></dt></dl> <dl class="d_th" style="padding-top:15px;"><dd><span>专利分类</span></dd></dl> <div class="ps_c"> <div><a href="/ipc/G/" target="_blank" title="物理">G 物理</a></div><a class="ml1" href="/ipc/G06/" target="_blank" title="计算;推算;计数">G06 计算;推算;计数</a><br/><a class="ml2" href="/ipc/G06F/" target="_blank" title="电数字数据处理">G06F 电数字数据处理</a><br/><a class="ml3" href="/pat/ipc/G06F17/00/" target="_blank" title="特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法">G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法</a><br/><a class="ml3" href="/pat/ipc/G06F17/10/" target="_blank" title=".复杂数学运算的">G06F17-10 .复杂数学运算的</a><br/><a class="ml3" href="/pat/ipc/G06F17/20/" target="_blank" title=".处理自然语言数据的">G06F17-20 .处理自然语言数据的</a><br/><a class="ml3" href="/pat/ipc/G06F17/30/" target="_blank" title=".信息检索;及其数据库结构">G06F17-30 .信息检索;及其数据库结构</a><br/><a class="ml3" href="/pat/ipc/G06F17/40/" target="_blank" title=".数据的获取和记录">G06F17-40 .数据的获取和记录</a><br/><a class="ml3" href="/pat/ipc/G06F17/50/" target="_blank" title=".计算机辅助设计">G06F17-50 .计算机辅助设计</a><br/> </div> </div> </div> <div class="content-r"> <div class="btns content-list" id="downdd"> <div class="header"> <div class="header-title"><a >专利文件下载</a></div> <hr /> </div> <span class="btn paydown">免登录下载</span><a href="/login.html?p=8684656C99F5006F926FF1A986872B49BDBDE5C2D208B588" class="btn green" target="_blank">普通用户下载</a><a href="http://yh.vipzhuanli.com/member/service/pay-vip.html?p=v1" target="_blank" class="btn red">升级VIP会员,免费下载</a> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e9%a2%86%e5%9f%9f%e6%9c%af%e8%af%ad ">领域术语 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/200810119708.3/">中文术语自动提取系统及方法</a></li> <li><a href="/patent/200910243990.0/">一种构建领域本体的方法</a></li> <li><a href="/patent/201410047277.X/">一种领域术语抽取方法</a></li> <li><a href="/patent/201410831590.2/">一种领域术语抽取的方法</a></li> <li><a href="/patent/201611145330.5/">融合语境信息的领域术语识别方法</a></li> <li><a href="/patent/201810132551.1/">一种用于电力95598工单的领域术语识别系统及方法</a></li> <li><a href="/patent/201811205969.7/">一种医学标准术语本体管理系统及方法、设备和存储介质</a></li> <li><a href="/patent/201910091177.X/">关键术语抽取方法、装置、设备及计算机可读存储介质</a></li> <li><a href="/patent/201910837746.0/">一种领域概念语义漂移探究方法</a></li> <li><a href="/patent/201911212955.2/">一种构建制造领域术语库的方法及系统</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e8%af%8d%e9%a2%91 ">词频 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/200610086577.4/">基于互联网信息的输入法词频库的生成方法和系统</a></li> <li><a href="/patent/200710170716.6/">基于用户特性的词频库的生成方法</a></li> <li><a href="/patent/200810091300.X/">词典生成装置以及信息检索装置</a></li> <li><a href="/patent/201510645332.X/">一种数字出版物词汇抽取、显示方法和系统</a></li> <li><a href="/patent/201510932328.1/">一种基于互联网词频的城市认知地图生成方法</a></li> <li><a href="/patent/201710680829.4/">热词词组提取方法和系统</a></li> <li><a href="/patent/201910600981.6/">文本相似度确定方法、装置、设备和存储介质</a></li> <li><a href="/patent/201910864611.3/">基于词频的文本特征加权及短文本相似性计算方法、系统和介质</a></li> <li><a href="/patent/201910969468.4/">一种输入的方法及相关装置</a></li> <li><a href="/patent/202011467635.4/">自动回复生成方法、装置及智能设备</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e6%8a%bd%e5%8f%96 ">抽取 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/200880025389.8/">图像抽取装置、图像抽取程序以及图像抽取方法</a></li> <li><a href="/patent/201410750223.X/">数据抽取装置和方法</a></li> <li><a href="/patent/201611129430.9/">一种抽取信息的方法及装置</a></li> <li><a href="/patent/201611130760.X/">一种直播中抽取信息的方法及装置</a></li> <li><a href="/patent/201611131158.8/">一种信息抽取方法及装置</a></li> <li><a href="/patent/201611177572.2/">抽取装置及抽取槽</a></li> <li><a href="/patent/201621399514.X/">抽取装置及抽取槽</a></li> <li><a href="/patent/202010786436.3/">一种结合RPA和AI的信息抽取方法、装置、设备及介质</a></li> <li><a href="/patent/202020191580.8/">抽取装置及抽取系统</a></li> <li><a href="/patent/202110511056.3/">一种毒性药材加压脱毒工艺毒性物质抽取组件</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e7%89%b9%e5%be%81%e5%8f%82%e6%95%b0 ">特征参数 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/201310104919.0/">一种视频数据快速特征检索的方法及系统</a></li> <li><a href="/patent/201610369527.0/">用于评估对象的整体特征状态的方法和装置</a></li> <li><a href="/patent/201610830335.5/">一种特征参数的调整方法、装置和电子设备</a></li> <li><a href="/patent/201611073761.5/">广告投放方法和系统</a></li> <li><a href="/patent/201710369849.X/">一种信息提示的方法及装置</a></li> <li><a href="/patent/201711087242.9/">点读对象处理方法、装置、存储介质及电子设备</a></li> <li><a href="/patent/201711283447.4/">一种用于对发票变票虚开行为进行监控的方法及系统</a></li> <li><a href="/patent/201711386363.3/">一种将语音转换为文字的方法、装置及系统</a></li> <li><a href="/patent/201910160256.1/">检测数据处理方法</a></li> <li><a href="/patent/202010439120.7/">面向家居多特征参数融合的声纹识别方法</a></li> </ul> </div> </div> </div> </div> <input type="hidden" id="hid_id" /> <script type="text/javascript"> /* <![CDATA[ */ var pat_ajax_url = "/down/check.html"; var wppay_ajax_url = "/pay/down"; var pnum = "201410831590.2"; var openNo = "CN104598530B"; var op = "20180605"; var y = "2018"; /* */
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

tel code back_top