在内容安全领域,基于文本信息的内容安全产品都必须对文本进行语义理解和不良(例如,色情、反动等)信息过滤。这类产品(包括垃圾邮件过滤系统、内容网关系统、BBS监管系统等等)都面临着一个统一的问题,即从各式各样的文档中提取出用于理解和过滤的纯文本信息。由于现实世界中的文档具有格式复杂且多样等特性,大多数系统都回避了这个难点问题,所以,对于附件或协议所携带文档,现有系统仅仅过滤了文档的标题、后缀和大小信息。由于获取多格式文档的内容一直是一个难点,所以对这些文档的内容过滤一直是一个空白。该课题的目标是实现一个可以获取多种常见格式文档内容的开放式引擎,从多种多样的文档格式中获取纯文本内容及其所代表的语义,并提供给其它高层系统使用。为此,本课题提出了开放式文档层次模型的概念,介绍了获取格式全信息将要采用的关键技术。多格式文档的同构化可以使其他应用系统摆脱文档分析这个难点,而只专注于系统本身的专有技术。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
面向云工作流安全的任务调度方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
群的自同构和自同构群的研究
群组查询引擎
基于词义的文档表示模型及多语亚文档主题分析研究
GIS信息映射引擎的研究