极大似然minwise哈希估计子研究

基本信息
批准号:61402165
项目类别:青年科学基金项目
资助金额:27.00
负责人:袁鑫攀
学科分类:
依托单位:湖南工业大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:张祖平,李祖德,万烂军,王鲁达,盛鑫海,张琼林,姚贝
关键词:
Minwise哈希极大似然估计子文档相似性检测局部敏感哈希相似性度量
结项摘要

The data of document similarity detection is massive and diversity, Minwise hash can effectively solve the problem of high time complexity and space complexity for searching similarity of the huge amount of data, is cutting-edge research in the field of information retrieval, has potential and value. To break through the current low bottleneck problem of efficiency and precision in similarity estimation, based on the work of document similarity detection, we deeply study most core Minwise hash estimation theory, and strive to resolve two key scientific and technological issues: 1) Break through the limit of random permutation, research fingerprint generation of without random permutation to improve the efficiency of the hash process; 2 ) Establish high-precision maximum likelihood estimation of minwise hash, test, validate and evaluate the estimator to achieve high availability and high accuracy of similarity detection mechanism. The research achievements of this project will provide new estimators and new tools, greatly improve the efficiency and accuracy of document similarity detection.

文档相似性检测的数据具有海量性和多样性的特点,Minwise哈希能有效解决海量数据相似性求解的时间、空间复杂度高的问题,是信息检索的前沿研究领域,具有研究潜力和应用价值。为突破目前相似性检测中指纹生成效率和估计精度较低的瓶颈难题,本项目在已有文档相似性检测的研究基础上,研究最为核心的Minwise哈希估计理论,着力解决两个关键科学问题:1)突破随机排列的限制,研究无需随机排列的指纹生成方法,提高哈希过程的效率;2)建立高精度极大似然minwise哈希估计子以及对所构建的估计子模型进行测试、验证和评价,实现高有效性与高准确性的相似度检测机制。本项目研究成果将为文档相似性检测提供新的估计方法和工具,较大提高文档相似性检测的效率和精度。

项目摘要

文档相似性检测的数据具有海量性和多样性的特点,Minwise哈希能有效解决海量数据相似性求解的时间、空间复杂度高的问题,是信息检索的前沿研究领域,具有研究潜力和应用价值。为突破目前相似性检测中指纹生成效率和估计精度较低的瓶颈难题,本项目在已有文档相似性检测的研究基础上,研究最为核心的Minwise哈希估计理论,着力解决两个关键科学问题:1)突破随机排列的限制,研究无需随机排列的指纹生成方法,提高哈希过程的效率;2)建立高精度极大似然minwise哈希估计子以及对所构建的估计子模型进行测试、验证和评价,实现高有效性与高准确性的相似度检测机制。.本项目的主要结果体现在1)提高相似性估计精度方面,提出极大似然的估计子,准确率和召回率都高于Minwise估计。2)提高相似性估计效率方面,提出连接位三者估计子;提出Minwise Hash动态双重阈值过滤器,大幅减少比对次数;在阈值过滤器的基础上,发展了一种连接位极大似然动态过滤算法;提出无需随机排列的指纹生成方法,解决特征指纹提取的低效问题。3)在相似性检索方面,提出FGBC-iDistance: 细粒度位码过滤的高维索引,减少检索过程中距离计算次数;提出了一种聚类分离的分布式索引方法,提高分布式相似性检索算法的性能。本项目研究成果也为文档相似性检测提供新的估计方法和工具,较大提高文档相似性检测的效率和精度。以本项目成果为核心的《项目相似性检查系统》在国家自然科学基金委和湖南省科技厅等部门单位应用示范。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
2

掘进工作面局部通风风筒悬挂位置的数值模拟

掘进工作面局部通风风筒悬挂位置的数值模拟

DOI:
发表时间:2018
3

敏感性水利工程社会稳定风险演化SD模型

敏感性水利工程社会稳定风险演化SD模型

DOI:10.16265/j.cnki.issn1003-3033.2021.04.003
发表时间:2021
4

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022
5

人工智能技术在矿工不安全行为识别中的融合应用

人工智能技术在矿工不安全行为识别中的融合应用

DOI:10.16265/j.cnki.issn1003-3033.2019.01.002
发表时间:2019

袁鑫攀的其他基金

相似国自然基金

1

离散观测扩散过程参数极大似然估计的高效算法研究

批准号:11401591
批准年份:2014
负责人:谷伟
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
2

基于极大Lq似然估计的P范分布混合模型的估计理论研究

批准号:41374017
批准年份:2013
负责人:潘雄
学科分类:D0401
资助金额:75.00
项目类别:面上项目
3

基于极大似然q估计的小样本观测数据异常的统计诊断理论及应用研究

批准号:41874009
批准年份:2018
负责人:潘雄
学科分类:D0401
资助金额:63.00
项目类别:面上项目
4

变量带误差动态系统的广义极大似然辨识方法

批准号:61873244
批准年份:2018
负责人:张二亮
学科分类:F0303
资助金额:51.00
项目类别:面上项目