本项目以Internet信息资源的组织与利用为研究目的,将数学方法(格)与现有的机器学习技术、文本自动分类技术融合在一起,提出了一种基于类格的多层网页分类方法。该方法首先建立了一个基于类格的多层网页分类的概念模型,把领域专家对网页提供的分类知识用"类格"来表示,作为训练数据集。在分类知识的学习过程中,通过学习训练数据集,在类格中产生类的分类知识(类索引),并对分类知识进行优化处理,获得提炼的分类知识。在分类过程中,网络Robot自动从Internet上采集网页,经过预处理,从采集的网页中提取项,并进行降维处理,多层网页分类器将采集的网页归属于某一类或多个类。最后,对建立的基于类格的多层网页分类方法进行实验评价。.通过本项目的研究,为充分利用多层网页分类方法进行海量Web信息检索和挖掘的应用提供理论和技术支持,努力实现并提高Web信息处理技术的社会效益和经济效益。
{{i.achievement_title}}
数据更新时间:2023-05-31
格雷类药物治疗冠心病疗效的网状Meta分析
中外学术论文与期刊的宏观差距分析及改进建议
多源数据驱动CNN-GRU模型的公交客流量分类预测
环境信息披露会影响分析师盈余预测吗?
基于相似日理论和CSO-WGPR的短期光伏发电功率预测
基于多样性的自适应粒子群算法的研究及在网页分类中的应用
格路的计数与分类
链格孢菌新分类方法及中国链格孢属系统分类研究
基于集成学习的网页链接作弊检测