With further development of DNA sequencing technology, the cost of whole genome sequencing will continue to decrease. Use of target region sequencing technology to capture and sequence only selected regions of interest in the genome will lower costs even more. It is foreseeable that individuals in increasing numbers will take advantage of target region sequencing, and even whole genome sequencing technology to guide life style choices and personalize medical treatment. However, most average users do not have the skill to analyze and integrate various kinds of sequencing data, and will therefore require the aid of software and applications specifically designed for this purpose. In this study, we will evaluate storage and cloud application mechanisms for target region sequencing data taking practical application into consideration. We will approach this analysis by first collecting publicly available target region sequencing data and whole exome sequencing data, and standardizing these data. We will then use these data to carry out a variety of experiments on various kinds of cloud storage and cloud application mechanisms. Finally, in accordance with our results in application testing, we will undertake to further improve mechanisms of storage and corresponding applications. This study aims to promote cloud computing services and support the concept of personalized medical services, thus allowing the general public to benefit from scientific research capable of enhancing quality of life, and improving the level of health care.
随着测序技术的发展,高通量的基因组测序成本将会进一步显著下降。目标区域测序仅特异的捕获并测序基因组上某些区域的信息,因此成本更低。可以预见,越来越多的个人会选择目标区域测序甚至全基因组测序,并以此来指导自己的日常生活方式和个性化医疗方案。但是,普通用户并不具备整合和分析各种测序数据的能力,需要借助特定的软件和应用来进行相应的分析。本研究从实际应用的角度出发,研究目标区域测序数据的云存储与云应用机制。研究过程中我们将首先从公开发布的高通量测序数据中筛选出目标区域测序数据特别是全外显子组数据,并进行标准化处理。在测序数据的基础上,进行各种云存储机制的实验和云应用的开发。后期根据软件与云应用的测试结果对存储方式和相应应用进行进一步的改进并公开发布。这项研究旨在促进云计算服务与个性化医疗的大众普及,使得普通大众可以进一步分享科学研究带来的生活及医疗水平的提升。
本项目的预期计划和内容被很好的执行完毕。我们从公共数据库下载了大量的目标区域测序数据,同时从合作者那里也收集了一部分。这些数据被标准化和压缩以后,存储在我们专门建设的私有数据云上。同时我们也对一些付费的公有云存储服务进行了测试。在这些数据的基础上,我们开发并发表了三个主要的应用程序或网站。这三个应用分别为cisPath软件包、SoftPanel网站、UltraPse软件包。.(1)R软件包cisPath通过Bioconductor项目公开发表。这个软件包主要用来可视化的操作和共享蛋白与蛋白相互作用网络。这个软件包以及相应的数据可以被部署在云服务器端也可以部署在本地台式机上。输出的结果以HTML格式进行显示,用户通过浏览器就可以方便的查询和查看这些输出。每一个通路都是通过一个名为D3的JavaScript库中的力导向图进行显示的。输出结果遵循HTML 4.01 Strict以及CSS version 3标准,以达到输出结果在大部分浏览器中显示时的一致性。用户可以通过Bioconductor项目的网站下载cisPath软件包及其测试数据。.(2)网站SoftPanel主要是为医疗工作者和科研人员提供服务。用户可以通过这个网站生成与某类疾病相关的基因列表,以在科学研究或者个性化医疗的过程中进行使用。通过这个网站,用户可以对具有相同表型的一组疾病进行分析,用以找出与这类疾病相关的已知的致病基因进而预测潜在的未知基因。这个功能是集合了多个疾病与表型数据库以及蛋白与蛋白作用网络而实现的。网站访问地址: http://www.isb.pku.edu.cn/SoftPanel/。.(3)软件包UltraPse可以为用户提供各种序列信息表示模型,进而节省序列分析相关的设计与软件编程工作。通过这个软件,用户可以定义自己的序列表示模型、序列的物理化学特性、生物序列的类型等。程序源码和可执行文件可以从GitHub上下载。.基于如上几个工作,共有3篇论文发表。分别发表在BMC Systems Biology (IF=2.303), BMC Bioinformatics (IF=2.448), 以及International Journal of Molecular Sciences (IF=3.226)这几个杂志上。申请人为以上成果的第一作者或者通讯作者。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
一种改进的多目标正余弦优化算法
可信云存储数据服务理论与方法研究
多重云存储中数据安全审计方法研究
云计算与云存储若干关键安全问题研究
云数据中心并行应用多目标优化调度算法研究