`

TDT

 
阅读更多

<p>

    [*]话题识别与跟踪TDT(Topic Detection and Tracking)旨在研究自然语言信息流中基于事件的信息组织问题。 [*]处理对象是随时间动态变化的语言信息流&mdash;&mdash;时效性 几个概念: [list] [*]话题(Topic)&mdash;&mdash;一个核心事件或活动以及所有与之直接相关的事件和活动 [*]报道(Story)&mdash;&mdash;指一个与话题紧密相关的、 包含两个或多个独立陈述某个事件的子句的新闻片断 [*]主题(Subject)&mdash;&mdash;涵盖多个类似的具体事件或者根本不涉及任何具体事件。

5个子任务

    [*]对新闻报道的切分(Story Segmentation)&mdash;&mdash;预处理,研究意义不大。主要技术:最大熵和决策树混合模型、贝叶斯分类器、变化的能量级别(?)等; [*]新事件的识别(New event detection, Formerly First Story Detection)&mdash;&mdash;即在新闻报道信息流中识别出对一个新话题的首次报道,有挑战。典型方法:向量或概率分布模型; [*]报道关系识别(Story link detection)&mdash;&mdash;核心,相似度计算。主要技术:余弦相似度、停用词、词干分析、二元术语向量、增量修订tf*idf 的取值,以及基于时间罚分策略 [*]话题识别(Topic detection)&mdash;&mdash;本质是无指导的增量聚类研究。常用算法:增量k-means聚类、agglomerative聚类、单遍聚类等。IBM开发的系统 [*]话题跟踪(Topic tracking)&mdash;&mdash;识别出关于某个已知话题的新闻报道。训练正例非常非常少, 并且与某个话题相关的报道常常集中出现在特定的时间段内。影响因素:训练用报道数量、语言、文字记录质量。研究水平已达到应用级。方法:k最近邻方法或多种方法组合,Rocciho分类方法、决策树方法、基于HMM的语言模型等。

TDT系列评测

    [*]背景&mdash;&mdash;应用驱动:模拟真实环境、强调集成测试 [*]评测语料库:from语言数据联盟(LDC)

评价指标

    [*]归一化识别代价
     

[/list]</p>

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics