项目简介

  大数据知识工程(BigKE: Knowledge Engineering with Big Data)是我国学者提出、引领大数据分析走向大知识研究和应用的一个国际前沿研究方向。2014年1月,吴信东教授等提出了大数据在异构、自治、复杂、演化环境下的HACE原理。2015年9月,吴信东与郑南宁院士、陆汝钤院士等基于HACE原理提出了BigKE的顶层设计与研究纲要。不同于依靠领域专家的传统知识工程,BigKE除权威知识源以外,知识主要来源于用户生成内容(UGC:User-Generated Contents),具有海量异质的特点,知识库需要自完善与增殖能力,问题求解过程根据用户交互进行学习。
  依据BigKE的顶层设计与研究纲要,本项目旨在建立大数据知识工程基础理论,形成利用海量、低质、无序的碎片化知识构建新型知识服务平台的方法学体系。本研究有望突破以专家知识为核心的传统知识工程中的“知识获取”和“知识再工程”两个瓶颈问题,并在医疗、教育、商业等各领域都具有巨大需求。
  科学问题:本项目以构建具有群智、增殖、适配特征的大数据知识工程的基础理论为目标,以解决大数据知识工程中的碎片化知识表示、质量、适配问题为切入点,提炼并突破三个关键科学问题:(1)探索碎片化知识发现、表示与演化规律。提出适应碎片化知识分面、多维度、即时动态等特征的表示模型与在线挖掘方法,揭示碎片化知识的时空特性和演化机理,构建知识演化模型。(2)揭示碎片化知识拓扑融合机理。依据“拓扑影响机理”这一普适原理,分析碎片化知识间语义关联的拓扑与涌现特性,研究动态挖掘与拓扑融合机理,实现知识量质转换与增殖。(3)构建个性化知识导航的交互模型。针对碎片化知识的无序性与用户需求的动态多样性,设计多粒度情景感知与知识寻径模型,建立逐步求精的知识适配模型。
  预期目标:围绕三个科学问题,探索海量碎片化知识“在线学习-拓扑融合-知识导航”三阶段“量-质-序”转化机理,建立大数据知识工程的理论与方法学体系,研制碎片化知识融合与导航服务系统,并开展示范应用。(1)争取在大数据知识工程基础理论与关键技术方面取得突破性成果,形成自主知识产权,促使我国在大数据知识工程领域的研究走在国际领先行列。在国际一流学术刊物与会议上发表大数据工程基础理论、算法和应用方面的论文100篇以上,申请国家发明专利(包括国际专利)与软件著作权30项以上。(2)形成一支高水平的研究队伍,培养和凝聚一批年轻学术带头人和优秀学术骨干。培养国家杰青、优青获得者、长江学者3~5人,具有国际一流水平的博士20名以上。(3)开发碎片化知识处理形成高附加值的工具,并且在普适医疗、远程教育和“互联网+服务”重大应用方面形成特色,搭建基于大数据知识工程的新型知识服务平台和应用系统,促进知识服务新业态的形成;研制面向领域碎片化知识整合与处理的基础工具软件;融合10个以上领域包括旅游、问答、普医里的三种疾病、远程教育的五个领域(数学、物理、化学、计算机、能动)的碎片化知识,建立PB级的数据与知识服务中心,用户规模超过600万人‎。
    本项目设置以下五个课题:
(1) 碎片化知识建模与在线学习;
(2) 基于溯源和评估理论的知识演化规律研究;
(3) 碎片化知识拓扑融合;
(4) 基于情景感知的知识导航;
(5) 知识导航中的交互机理。
   本项目研究由合肥工业大学、西安交通大学、华东师范大学、中国科学技术大学、中国科学院数学与系统科学研究院联合承担,有中科院计算所、宁波中国中科院信息技术应用研究院、北京理工大学、广西师范大学、重庆邮电大学、百度、丁香园、南京财经大学、北京中科院软件中心有限公司和安徽省立医院等单位参加。
   项目负责人:吴信东教授,国家特聘专家、海外杰青、长江学者、IEEE Fellow、AAAS Fellow、顶级国际期刊TKDE的前任主编、顶级国际会议IEEE ICDM的创办人和现任指导委员会主席、著名国际期刊KAIS的现任主编、IEEE计算机学会技术进步奖得主、ICDM 10年最有影响力论文奖获得者、中国计算机学会优秀博士学位论文导师。