概述:
自动文摘技术的目标是致力于将信息全面、简洁的文档直接呈现给用户。他的定义为:把一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别 。
文摘的分类:
依据文摘的功能(用途):
指示性文摘 报道性文摘 评论性文摘
按文摘面向的用户划分:
通用文摘 偏重文摘
文摘的制作方法分类:
摘录型文摘(Summarization Based on Extraction,SBE)基于理解的文摘(Summarization Based On Understanding,SBU)模板型文摘(Summarization Based On Template,SBT)基于结构的文摘(Summarization Based On Discourse Structure,SBS)
自动文摘的方法:
基于统计的自动文摘基于理解的自动文摘基于信息抽取的自动文摘基于结构的自动文摘
基于统计的自动文摘:
基于统计的自动文摘将文本视为句子的线性 序列,将句子视为词的线性序列步骤:4步进行计算词的权值;计算句子的权值;对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句;将所有文摘句按照它们在原文中的出现顺序输出。
基于理解的自动文摘:
步骤:4步进行语法分析:借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构树语义分析:运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示 语用分析和信息提取:根据知识库中预先存放的领域知识在上下文中进行推理,并将提取出来的关键内容存入一张信息表 文本生成:将信息表中的内容转换为一段完整连贯的文字输出
基于信息抽取的自动文摘方法:
基于信息抽取(Information Extraction)的自动文摘方法只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高.在选择阶段,利用特征词从文本中抽取相关的短语或句子填充文摘框架 在生成阶段,利用文摘模板将文摘框架中的内容转换为文摘输出。文摘模板是带有空白部分的现成的套话,其空白部分与文摘框架中的空槽相对应
基于结构的自动文摘:
关联网络 修辞结构 语用功能
自动文摘的评测 :
内部评价方法,它通过直接分析摘要的质量来评价文摘系统(将系统产生的“机器摘要”与“理想摘要”进行比较,根据两者的差距进行评价)外部评价方法,它是一种间接的评价方法,将自动文摘应用于某一个特殊的任务中,如自动问答、阅读理解等,根据摘要功能提高这项任务的效果来评价自动文摘系统的性能
总结:
1.基于统计的自动文摘技术成熟;2.制定框架模板然后利用信息抽取进行填充也是一种不错的方式;3.在自动文摘中,计算词权、句权、选择文摘句的依据是文本的6种形式特征:词频、标题、位置、句法结构、线索词和指示性短语;
详情参见附件