Adverse drug event (ADE) is an important public health issue. The public health big data has opened up new opportunities for ADE identification. In the context of Web 2.0 and Health 2.0, we will develop the framework for extracting ADEs from social media by utilizing the text regarding public health on social media and adopting a variety of methodologies and methods, such as design science, text mining and information extraction methods. An ADE related-text recognition model is constructed based on probabilistic topic model and ensemble learning, alleviating the feature space’s high-dimensionality and class imbalance problem. An ADE entity recognition model is constructed based on BI-LSTM-CRF that is developed by combining BI-LSTM and CRF. The model has enhanced adaptability to the non-standard data on social media. A semantic-aware ADE relation extraction model is constructed based on the lexical semantic similarity. The model has enhanced adaptability to the diversity of natural language expression. The social media-based ADE extraction framework will be implemented successfully via the constructions of above-mentioned models. The findings of this project will enrich and supplement the research of imbalanced text classification and information extraction. In practice, it is constructive to provide additional drug safety information, provide the relevant department with decision supports, and achieve data-driven medical security management.
药品不良反应是重要的公共卫生问题,公众健康大数据为药品不良反应识别开辟了新机遇。本课题在Web 2.0和Health 2.0的背景下,利用社会媒体上公众文本健康数据,基于设计科学、文本挖掘和信息抽取等理论和方法,构建社会媒体药品不良反应抽取框架。运用概率主题模型和集成学习方法,构建药品不良反应相关文本分类模型,缓解特征向量高维性和类别非均衡性问题;运用BI-LSTM和CRF,构建基于BI-LSTM-CRF的药品不良反应实体识别模型,提高模型对社会媒体上不规范数据的适应能力;基于词汇语义相似度,构建具有语义感知能力的药品不良反应关系抽取模型,提高模型对自然语言表达多样性的适应能力。通过三个模型的构建,完成社会媒体药品不良反应抽取框架的实施。本课题在理论上将丰富和补充非均衡文本分类和信息抽取研究,在实践上有助于完善药品的安全性信息,为相关部门提供决策支持,实现数据驱动的医疗安全管理。
药品不良反应是重要的公共卫生问题,社会媒体上公众健康大数据为及时的药品不良反应知识发现开辟了新机遇。然而,用户生成的文本数据中大部分并不包含药品不良反应信息;公众通常不会使用规范的术语描述药品不良反应,相反,他们经常使用创造性或症状描述型的语言且语言规范性较差;同时提到药品和症状/疾病实体的数据不一定描述药品不良反应关系,还经常表述药品适应症等其他关系;本应用的领域专业性也导致标注数据耗时耗力且需要专家经验。以上特点使得利用社交媒体平台上用户生成的文本数据识别潜在不良反应有很大的挑战。因此,本项目在Web 2.0和Health 2.0的背景下,基于设计科学、文本挖掘、信息抽取和机器学习等理论和方法,搭建了社会媒体中药品不良反应知识发现框架,主要研究工作包括:基于主动学习和多种文档表征学习,构建了识别包含药品不良反应信息的相关文本的分类模型,有效地降低了标注数据的成本并提升了文本分类的性能;运用Bi-LSTM和CRF,构建了药品不良反应实体识别模型,提升了模型对社交媒体上不规范数据的适应能力;实现了特征向量的提取和多种核方法,并基于集成学习和半监督学习,构建了一系列药品不良反应关系抽取模型,识别了药品实体和症状/疾病实体间的关系类别,缓解了社会媒体上数据高维特征的影响及模型对标注数据的依赖,提升了关系抽取模型的性能。通过本项目的研究,在理论上丰富和补充了文本挖掘、集成学习和半监督学习的理论研究体系;在实践上有助于完善药品的安全性信息,为相关部门提供决策支持,实现了数据驱动的药物警戒,是面向人民生命健康进行科技创新的重要实践。
{{i.achievement_title}}
数据更新时间:2023-05-31
黄河流域水资源利用时空演变特征及驱动要素
拥堵路网交通流均衡分配模型
低轨卫星通信信道分配策略
敏感性水利工程社会稳定风险演化SD模型
多源数据驱动CNN-GRU模型的公交客流量分类预测
HBx蛋白通过GnT-III调控TrkB N-糖基化修饰促进乙型肝炎病毒相关性肝癌转移复发机制的研究
融合多模态文本关联分析与挖掘的跨媒体社会图像检索方法研究
WEB文本挖掘中知识模式的抽取和评价机制
基于社会媒体信息挖掘的图像标注技术研究
基于社会媒体异质关系挖掘的用户兴趣建模方法研究