海量数据处理与服务
数据的采集、维护和使用已成为科学研究的主要方面,对许多学科而言,海量数据意味着更严峻的挑战,更好地组织和使用这些数据会有助我们将巨大机遇变为现实。海量数据处理将成为新型信息服务和科学研究的基石。
海量数据通常具有以下特征:(1)海量;(2)多源性;(3)异构性;(4)多模态;(5)不确定性;(6)动态性;(7)复杂内联。这些特性对海量数据处理与服务提出了巨大挑战。
海量数据处理与服务涉及到研究领域包括:数据挖掘、机器学习、人工智能、数据库、统计学、可视化、高性能计算、服务计算等。
1. 海量数据集成管理
研究结构化、半结构化、非结构化海量数据的采集、存储、集成管理机制与方法,海量数据清洗方法,以及需求驱动的全文检索机制与方法,突破相关核心技术,通过数据API提供海量数据服务,使数据松耦合于其它应用平台,实现海量异构数据的互操作和数据共享。
2. 多源异构海量数据动态聚合
从信息源、信息体、用户需求等多个视角,分析多源海量信息的可用性特征,建立满足信息演化应用的可用性评估推理模型,并在统一特征空间内进行多源海量异构信息的语义建模、相似性度量和语义归一化,探索多源海量信息的统计规律、概念漂移与非线性的突变机理,进而研究跨域跨平台的多源海量信息语义搜索、混搭及语义融合理论。
3. 多源动态数据挖掘与分析
面向多源信息的知识发现是数据分析与处理的固有难题,从多源异构、复杂内联和动态演化的角度构建新的知识发现策略与方法。基于海量信息获得的知识通常具有不确定性、不完整性、不协调性和不恒常性等特点,对海量知识进行提炼、排疑、融合、重组等处理,结合信息的动态变化规律定性和定量地分析知识的演化规律,为提高知识的决策支持价值提供关键理论和技术支撑。
4. 海量信息服务与应用
建立一种需求驱动的实时动态信息服务系统,研究信息服务系统中的用户需求、用户行为和用户兴趣建模问题,以及云计算环境下信息服务系统的核心理论和关键技术,建立需求驱动的实时动态信息服务系统和数据云统一服务发布与运行平台,提供可用、有效而且具备进化能力的实时服务。面向农业、工商、税务、通信等行业和领域,开展大规模示范应用。
[1] 国家“863”计划课题“多源异构数据集成与挖掘的关键技术研究”(2012AA011005),2012.1-2014.12,415万元;
[2] 国家发改委Chinagrid二期校园网格建设项目,2012.1-2016.12,40万元;
[3] 国家自然科学基金“基于特征发现的数据流概念漂移问题研究”(60975034),2010-2012,32万元。
[4] 上海市科委“盘石云海日志服务系统”,2012.1-2013.12,100万元;
[5] [美国]国家科学基金(NSF)“CIF: Medium: Collaborative Research: Integrating and Mining Bio-Data from Multiple Sources in Biological Networks”(CCF-0905337,CCF-0905291),2009.10-2012.9,$530,000。
吴信东、胡学钢、吴共庆、胡东辉、叶明全、李培培、俞奎、张静、张靖、张玉红、李慧宗
海量数据通常具有以下特征:(1)海量;(2)多源性;(3)异构性;(4)多模态;(5)不确定性;(6)动态性;(7)复杂内联。这些特性对海量数据处理与服务提出了巨大挑战。
海量数据处理与服务涉及到研究领域包括:数据挖掘、机器学习、人工智能、数据库、统计学、可视化、高性能计算、服务计算等。
研究子方向
1. 海量数据集成管理
研究结构化、半结构化、非结构化海量数据的采集、存储、集成管理机制与方法,海量数据清洗方法,以及需求驱动的全文检索机制与方法,突破相关核心技术,通过数据API提供海量数据服务,使数据松耦合于其它应用平台,实现海量异构数据的互操作和数据共享。
2. 多源异构海量数据动态聚合
从信息源、信息体、用户需求等多个视角,分析多源海量信息的可用性特征,建立满足信息演化应用的可用性评估推理模型,并在统一特征空间内进行多源海量异构信息的语义建模、相似性度量和语义归一化,探索多源海量信息的统计规律、概念漂移与非线性的突变机理,进而研究跨域跨平台的多源海量信息语义搜索、混搭及语义融合理论。
3. 多源动态数据挖掘与分析
面向多源信息的知识发现是数据分析与处理的固有难题,从多源异构、复杂内联和动态演化的角度构建新的知识发现策略与方法。基于海量信息获得的知识通常具有不确定性、不完整性、不协调性和不恒常性等特点,对海量知识进行提炼、排疑、融合、重组等处理,结合信息的动态变化规律定性和定量地分析知识的演化规律,为提高知识的决策支持价值提供关键理论和技术支撑。
4. 海量信息服务与应用
建立一种需求驱动的实时动态信息服务系统,研究信息服务系统中的用户需求、用户行为和用户兴趣建模问题,以及云计算环境下信息服务系统的核心理论和关键技术,建立需求驱动的实时动态信息服务系统和数据云统一服务发布与运行平台,提供可用、有效而且具备进化能力的实时服务。面向农业、工商、税务、通信等行业和领域,开展大规模示范应用。
支撑课题
[1] 国家“863”计划课题“多源异构数据集成与挖掘的关键技术研究”(2012AA011005),2012.1-2014.12,415万元;
[2] 国家发改委Chinagrid二期校园网格建设项目,2012.1-2016.12,40万元;
[3] 国家自然科学基金“基于特征发现的数据流概念漂移问题研究”(60975034),2010-2012,32万元。
[4] 上海市科委“盘石云海日志服务系统”,2012.1-2013.12,100万元;
[5] [美国]国家科学基金(NSF)“CIF: Medium: Collaborative Research: Integrating and Mining Bio-Data from Multiple Sources in Biological Networks”(CCF-0905337,CCF-0905291),2009.10-2012.9,$530,000。
研究成员
吴信东、胡学钢、吴共庆、胡东辉、叶明全、李培培、俞奎、张静、张靖、张玉红、李慧宗
下一篇:普适与个性化计算