基于N-gram的多语言共存文本复制取证研究

基本信息
批准号:61173142
项目类别:面上项目
资助金额:60.00
负责人:杨林聪
学科分类:
依托单位:南京信息工程大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:陈志杰,孙德才,付章杰,张伟,向凌云,杨滨,许仁昌,周丹,张茜
关键词:
数字取证指纹自然语言处理文本Ngram
结项摘要

文本复制取证是为判断一个文本的内容是否抄袭、剽窃或复制于另外一个或多个文本提供证据,是打击抄袭、剽窃、盗版等侵权行为的有效手段,是数字取证的一个重要分支,是近年才发展起来的一个新兴的重要研究领域。基于内容的文本复制取证是文本复制取证的发展方向。本课题拟对多语言共存文本的复制取证中涉及到的文本指纹提取、文本指纹索引与压缩、复制取证策略等关键内容进行深入研究,力图减少多语言共存文本复制取证的存储开销、加快取证的速度、提高取证的精度。课题的主要研究内容包括:基于N-gram的文本指纹提取方法、N-gram项的指纹权重计算方法、基于N-gram的指纹索引与压缩方法、文本复制取证优化策略和文本复制取证原型系统的建立等。通过课题的研究,将在基于N-gram的文本指纹提取、适用于多语言共存文本的文本复制取证等方面完善自然语言文本复制取证的基本理论和方法,为推动自然语言文本取证的发展提供技术支撑。

项目摘要

文本复制取证是为判断一个文本的内容是否抄袭、剽窃或复制于另外一个或多个文本提供证据,是打击抄袭、剽窃、盗版等侵权行为的有效手段,是数字取证的一个重要分支,是近年才发展起来的一个新兴的重要研究领域。基于内容的文本复制取证是文本复制取证的发展方向。本课题对多语言共存文本的复制取证中涉及到的文本指纹提取、文本指纹索引与压缩、复制取证策略等关键内容进行了深入的研究。通过课题的研究,课题组成员提出了多种文本复制取证的方法与关键技术,发表了学术论文17篇,其中被SCI收录7篇、EI收录15篇,培养博士生5名,硕士生3名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

面向人机交互的数字孪生系统工业安全控制体系与关键技术

面向人机交互的数字孪生系统工业安全控制体系与关键技术

DOI:10.13196/j.cims.2021.02.006
发表时间:2021
2

Design, synthesis and antimycobacterial activity of new benzothiazinones inspired by rifampicin/rifapentine

Design, synthesis and antimycobacterial activity of new benzothiazinones inspired by rifampicin/rifapentine

DOI:10.1016/j.bioorg.2020.104135
发表时间:2020
3

Effects of sediment burial disturbance on macro and microelement dynamics in decomposing litter of Phragmites australis in the coastal marsh of the Yellow River estuary, China

Effects of sediment burial disturbance on macro and microelement dynamics in decomposing litter of Phragmites australis in the coastal marsh of the Yellow River estuary, China

DOI:10.1007/s11356-015-5756-0
发表时间:2016
4

融合字符串特征的维吾尔语形态切分

融合字符串特征的维吾尔语形态切分

DOI:
发表时间:2022
5

Ketjen black carbon supported CoO@Co-N-C nanochains as an efficient electrocatalyst for oxygen evolution

Ketjen black carbon supported CoO@Co-N-C nanochains as an efficient electrocatalyst for oxygen evolution

DOI:10.1016/j.ijhydene.2018.10.142
发表时间:2018

杨林聪的其他基金

相似国自然基金

1

基于可比语料的多语言文本聚类研究

批准号:70903032
批准年份:2009
负责人:章成志
学科分类:G0414
资助金额:19.00
项目类别:青年科学基金项目
2

多语言智能文本处理中基于主题语义空间的文本表示研究

批准号:60372016
批准年份:2003
负责人:赵军
学科分类:F0113
资助金额:22.00
项目类别:面上项目
3

基于云计算的文本复制检测研究

批准号:61073069
批准年份:2010
负责人:黄萱菁
学科分类:F0211
资助金额:30.00
项目类别:面上项目
4

基于多语言微博文本的新疆热点事件检测关键技术研究

批准号:61561047
批准年份:2015
负责人:赵晖
学科分类:F0113
资助金额:34.00
项目类别:地区科学基金项目