Mathematical formulae are the essences of human knowledge. As the amount of digital resources containing mathematical formulae on the Web is being grown explosively and due to the complex structures of mathematical formulae, mathematics retrieval has become a new and important research topic in many areas, e.g., search engine, knowledge management. However, the existing mathematics retrieval techniques are mainly proposed towards structuralized mathematics resources on the Web and fail to process the unstructured mathematical contents in PDF, which is the most widely used document format containing abundant mathematical formulae. This proposal aims at researching on mathematics retrieval techniques towards PDF documents, including the following four key problems: identification and extraction of mathematical contents; query input interface; tokenization and indexing; matching and ranking. Concretely, this proposal targets at proposing a formula identification and semantic interpretation algorithm towards PDF documents; an indexing techniques considering hierarchical generalization of structures; a ranking approach based on multilevel matching, contexts, learning-to-rank and re-ranking strategies. In addition, a complete mathematics retrieval workflow will be implemented, with a crawler to discover and structuralize mathematical formulae automatically from PDF documents and a novel and convenient formula input interface, which facilitates users to "copy&paste" from PDF documents and solves the most challenging problem of obtaining structuralized formats of math formula queries from PDF document. Furthermore, the proposed semi-semantic tree construction and similarity calculation algorithms will effectively improve the recall and precision of mathematics retrieval, promote the development of mathematics retrieval techniques, and facilitate the excavation and usage of mathematics resources.
数学公式凝聚着人类知识的精华,当前Web上公式资源日益丰富,加之公式自身结构复杂,公式搜索成为搜索引擎、知识管理等领域的一个研究热点;另一方面现有公式搜索技术主要面向Web资源(如MathML、LaTeX等),对于包含大量公式的主流文献格式-PDF文档,尚难以处理。为此本课题拟研究面向PDF文档的公式搜索技术,围绕公式的识别抽取、查询输入、分词索引、匹配排序等关键问题,研究公式定位与结构分析、基于层次泛化的分词索引、基于多级匹配的相似度评价、上下文匹配、排序学习与重排序等算法。本课题将实现一个完整的公式搜索流程,包括PDF文档中公式的自动发现与结构化、一种新颖便捷的公式输入(即从PDF文档中直接"拷贝")等方法,解决现有公式搜索系统难以处理PDF文档公式的难题;所提出的半语义结构树构建、相似度计算等方法将有效提高公式搜索的查全率与查准率,推动公式搜索的技术进步,促进公式资源的挖掘利用。
公式具有层次、嵌套等复杂的结构,使得公式搜索成为信息检索领域的一个研究难点;现有公式搜索技术主要面向Web资源(如MathML、LaTeX等),对于包含大量公式的主流文献PDF文档,尚难以处理。为此,本课题研究面向PDF文档的公式搜索技术,研究了公式的识别抽取、查询输入、分词索引、匹配排序等关键科学问题。提出了基于树结构匹配的公式相似性度量方法、基于公式关系图的搜索方法、基于公式演化的学习资源推荐方法、基于深度学习的公式识别方法。实现了一个完整的公式搜索流程,尤其是实现了一种新颖便捷的公式输入方法(即从PDF文档中直接“拷贝”),解决了现有公式搜索系统难以处理PDF文档中公式的难题,推动了公式搜索这一专业搜索领域的技术进展。本研究团队也成长为国际上主要的公式搜索研究团队之一。以上述研究成果为基础,研发的公式搜索技术获得数学信息搜索(即公式搜索)国际竞赛(2016年NTCIR12-MathIR)第一名的成绩,并在模式识别领域的重要会议ICDAR 2017上举办了公式识别国际竞赛。发表论文20篇,申请发明专利3项,获软件著作权1项,已经实际应用于一个电子书和一个题库系统之中,在题库构建、在线教育学习、数学知识学习资源推荐方面,表现出很好的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
面向查询的多文档自动文摘技术研究
面向查询的多文档自动文摘技术研究
面向话题演化的时序多文档文摘内容选择技术研究
数学公式的全景式检索技术研究