`
- 浏览:
71221 次
- 性别:
- 来自:
大连
-
<p>
[*]话题识别与跟踪TDT(Topic Detection and Tracking)旨在研究自然语言信息流中基于事件的信息组织问题。 [*]处理对象是随时间动态变化的语言信息流——时效性 几个概念: [list] [*]话题(Topic)——一个核心事件或活动以及所有与之直接相关的事件和活动 [*]报道(Story)——指一个与话题紧密相关的、 包含两个或多个独立陈述某个事件的子句的新闻片断 [*]主题(Subject)——涵盖多个类似的具体事件或者根本不涉及任何具体事件。
5个子任务
[*]对新闻报道的切分(Story Segmentation)——预处理,研究意义不大。主要技术:最大熵和决策树混合模型、贝叶斯分类器、变化的能量级别(?)等; [*]新事件的识别(New event detection, Formerly First Story Detection)——即在新闻报道信息流中识别出对一个新话题的首次报道,有挑战。典型方法:向量或概率分布模型; [*]报道关系识别(Story link detection)——核心,相似度计算。主要技术:余弦相似度、停用词、词干分析、二元术语向量、增量修订tf*idf 的取值,以及基于时间罚分策略 [*]话题识别(Topic detection)——本质是无指导的增量聚类研究。常用算法:增量k-means聚类、agglomerative聚类、单遍聚类等。IBM开发的系统 [*]话题跟踪(Topic tracking)——识别出关于某个已知话题的新闻报道。训练正例非常非常少, 并且与某个话题相关的报道常常集中出现在特定的时间段内。影响因素:训练用报道数量、语言、文字记录质量。研究水平已达到应用级。方法:k最近邻方法或多种方法组合,Rocciho分类方法、决策树方法、基于HMM的语言模型等。
TDT系列评测
[*]背景——应用驱动:模拟真实环境、强调集成测试 [*]评测语料库:from语言数据联盟(LDC)
评价指标
[/list]</p>
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
一共有10212个文档数据,fea表示特征,gnd为标签,其中2Class.rar这样的压缩...TDT2_all.mat为全部数据, 可以到这里下载:http://www.cad.zju.edu.cn/home/dengcai/Data/TextData.html(这积分也太坑了,还改不了)
三调符号库全TDT1055-2019版
TDT 1001-2012 地籍调查规程.zip
tdt1026-2010乡镇土地利用总体规划数据库标准
Sigrity 2017 TDR TDT仿真详解,附带教程实例。PDF为软件自带教程。实例为SPD文件内存条,可直接用Speed 2000 Generator打开。
TDT10142007.style!
土地整治项目规划设计规范TDT1012-2016 土地整治项目规划设计规范TDT1012-2016 土地整治项目规划设计规范TDT1012 土地整治项目规划设计规范
TDT 1014-2007 第二次全国土地调查技术规程.zip
TDT 1055-2019 第三次全国国土调查技术规程.pdf
TDT 1019-2009 基本农田数据库标准TDT 1019-2009 基本农田数据库标准TDT 1019-2009 基本农田数据库标准TDT 1019-2009 基本农田数据库标准TDT 1019-2009 基本农田数据库标准TDT 1019-2009 基本农田数据库标准
适用于OGG+TDT部署,详细的部署步骤
《地籍调查规程》TDT 1001—2012(最终稿).pdf
TDT1041~2013土地整治工程质量检验和评定规范流程.doc
三调符号样式
本标准规定了第三次全国国土调查的总则与要求、土地权属调查、农村土地利用现状调查、城镇村庄内部土地利用现状调查、专项调查、数据库建库、成果核查、数据库质量检查、统一时点更新及成果等
本规程规定了基本农田划定(补划)的任务、原则、实施主体、技术方法、技术要求、流程、成果规范等。