Software plagiarism has become a serious threat to the healthy development of the software ecosystem. Yet, the unavailability of source code, the burst of mature automated code obfuscation techniques and tools, and the information asymmetry between the plagiarism and detection processes, are a few reasons making plagiarism detection a daunting task. Existing software plagiarism detection methods expose from different aspects limitations, such as require access to the source code, not resilient against code obfuscations, can not handle partial plagiarisms, and provide little evidence of plagiarism. On the basis of the popular software birthmark based plagiarism detection framework, we attempt to extend it to a four-phase detection and evidence generation framework, by optimizing the existing birthmark construction, comparison and plagiarism detection phases, as well as introducing a new phase-evidence generation. Novel object code oriented and obfuscation resilient software birthmarking methods that support partial plagiarism detection as well as evidence generation of plagiarism shall be proposed, by studying 1) behavior and semantics aware function-level birthmark construction and matched birthmark similarity comparison methods; 2) enhanced detection methods utilizing the complementary advantages of different birthmarks; 3) plagiarism evidence generation methods based on the construction of evidence graphs and the inference of possible plagiarism means. Through the implementation of the project, further improved theoretical system of software birthmarking and more practical plagiarism detection techniques and tools can be expected, which help promote the researches on software intellectual property protection and relevant fields.
软件抄袭已成为软件生态环境健康发展的威胁之一。而通常情况下源码的缺失、大量自动化混淆技术和工具的出现、抄袭与检测过程的信息不对称等,使得软件抄袭检测成为一项非常有挑战性的任务。针对现有方法暴露的源码依赖、抗混淆能力弱、难以应对部分抄袭、证据缺失等问题,项目拟结合当下主流的基于软件胎记的抄袭检测技术框架,通过优化已有的胎记构建-比较-检测阶段,引入新的抄袭证据生成阶段,形成四段式的抄袭检测及证据生成方案。具体需研究:1)行为和语义感知的函数级胎记构建和相似性比较方法;2)基于多胎记优势互补的抄袭检测方法;3)基于证据图和抄袭手段推断的抄袭证据生成方法;从而提出面向目标代码的、混淆对抗、支持部分抄袭检测、具备证据生成能力的软件胎记新技术。项目的实施将进一步完善现有软件胎记技术的理论方法体系,贡献更具现实应用价值的抄袭检测技术和工具,推进软件知识产权保护及其相关领域的研究进展。
随着开源软件的蓬勃发展,软件抄袭亦成为软件生态环境健康发展的威胁之一。针对现有抄袭检测方法暴露的源码依赖、抗混淆能力弱、难以应对部分抄袭、证据缺失等问题,本研究结合软件胎记技术的基本框架,以程序的目标代码为分析对象,通过语义感知的动静态程序行为分析和代码表示学习,实现混淆对抗和交织对抗的软件胎记构建;通过多种胎记的有机融合,进一步增强检测方法对抗复杂代码混淆的能力;通过实施可疑函数对装配和抄袭手段逆向推断,突破抄袭证据的生成问题。基于上述思路,在胎记构建和相似性比较阶段,提出了两种行为和语义感知的动态软件胎记,分别利用抽象序列比对和频繁模式挖掘,从程序多次执行对应的执行轨迹集中挖掘可有效对抗线程交织干扰的行为模式,构建了motifs胎记和FPBirth胎记;为支持局部抄袭的检测,在函数控制流图的基础上进行路径提取、约减及抽象,构建了函数级胎记RSPB。对于胎记优势互补机制的研究,提出了一种基于孪生神经网络的代码表示学习方法,实现多种胎记技术的有机融合,提升对抗代码混淆的能力及抄袭检测性能。在抄袭证据生成方面,提出基于调用依赖关系引导进行可疑函数匹配并装配成证据图的证据生成方法;同时,提出了一种编译器识别方法NeuralCI,其利用深度神经网络逆向推断出用于生成程序目标代码的编译器家族、编译选项、编译器版本等,具备极高的检测精度。项目共发表论文13篇,申请国家发明专利2项。项目的实施完善了现有软件胎记技术的理论方法体系,提出的检测方法和研制的原型系统,可为软件知识产权保护领域提供直接的技术支撑,且有望推广应用到代码搜索、软件漏洞挖掘、恶意软件识别和分类等安全相关领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于全模式全聚焦方法的裂纹超声成像定量检测
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于图卷积网络的归纳式微博谣言检测新方法
人工智能技术在矿工不安全行为识别中的融合应用
面向代码提交的开源软件演化微过程研究
代码融合的软件信息隐藏方法研究
面向安全关键系统的时间可预测多核代码生成方法研究
面向移动应用的恶意代码自动化检测方法研究