在本项目的藏文Web信息提取中,建立DOM树算法的基础上,通过网页脚本的语义分析和藏文网页中藏文语义和语法的特征分析,对DOM树进行语义修剪算法研究,并通过修剪的DOM树,结合小型的语料库,进行主题信息块的路径识别和模式发现,然后提取到的信息转存到数据库中。 .在研究过程中通过藏文网页的采集,转化成XML格式的文件,建立藏文网页文档库,为算法的测试提供基础。其次在文档库中选择藏文样本网页进行训练,并建立规则库。根据规则从藏文网页文档库中提取藏文文本,建立藏文网络信息数据库。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
Web 多媒体语义分析与算法研究
基于依存关系的藏文语义角色标注研究
语义Web的无尺度网络模型及高性能语义搜索算法研究
藏文Web信息的社会网络动态演化机理研究