科研成果 - idke.ruc.edu.cnidke.ruc.edu.cn/reports/report2016/researchachievements.pdf ·...

12
- 35 - 科研成果

Upload: others

Post on 16-Nov-2019

21 views

Category:

Documents


0 download

TRANSCRIPT

- 35 -

科研成果

- 36 -

- 37 -

1. 论文列表

云数据管理(Cloud Data Management)

X. Ci, F. Wang, Y. Gan, X. Meng. Efficient Skew Handling in Online Aggregation in the Cloud[C].International Conference on Data Engineering Workshops, IEEE. 2016:5-11.

C. Wang, X. Meng, Q. Guo, Z. Weng, C. Yang. OrientStream: A Framework for DynamicResource Allocation in Distributed Data Stream Management Systems[C]. InternationalConference on Information and Knowledge Management, ACM. 2016:2281-2286.

移动 Web 数据管理(Mobile Web Data Management)

Y. Li, X. Meng, Q. Zhang, J. Zhang, C. Wang. Common Patterns of Online Collective AttentionFlow[J]. SCIENCE CHINA Information Sciences, 2017, 60(5), 059102:1–059102:3.

Y. Ma, X. Meng, S. Wang. Parallel Similarity Joins on Massive High-Dimensional Data UsingMapReduce[J]. Concurrency and Computation: Practice and Experience, 2016,28(1):166-183.

马如霞, 孟小峰, 王璐, 史英杰. MTruths: Web 信息多真值发现方法[J]. 计算机研究与发

展, 2016, 53(12):2858-2866.

隐私保护(Privacy Protection)

王璐 , 孟小峰 , 郭胜娜 . 时空数据发布中的隐式隐私保护 [J]. 软件学报 , 2016,27(8):1922-1933.

张啸剑, 邵超, 孟小峰. 差分隐私下一种精确直方图发布方法[J]. 计算机研究与发展,2016, 53(5):1106-1117.

张啸剑 , 孟小峰 . 基于差分隐私的流式直方图发布方法 [J]. 软件学报 , 2016,27(2):381-393.

研究综述(Survey Report) 王春凯, 孟小峰. 分布式数据流关系查询技术研究[J]. 计算机学报, 2016(1):80-96. 孟小峰 , 杜治娟 . 大数据融合研究 :问题与挑战 [J]. 计算机研究与发展 , 2016,

53(2):231-246.

- 38 -

2. 学术专题 (Special Issues)

专题:数据融合与知识融合

特邀编委:孟小峰,王建勇,董欣

期刊/出版社:计算机研究与发展

出版时间:53 (2): 231-246 Feb, 2016

专题:数据开放与隐私管理

特邀编委:孟小峰,林东岱

期刊/出版社:软件学报

出版时间:27 (8): 1922-1933 Aug, 2016

3. 学位论文

李勇,在线用户行为演化研究(Evolutionary Dynamics of Online UserBehaviors),中国人民大学,博士学位论文,2016.5.11在读时间:2012 年 9 月-2016 年 5 月

答辩时间:2016 年 5 月 12 日

答辩地点:信息学院 网络与移动数据管理实验室

- 39 -

王璐,LBS 查询强隐私保护技术研究(Research on Strong QueryPrivacy-Preserving Techniques in Location-Based Services),中国人民

大学,博士学位论文,2016.5.12在读时间:2012 年 9 月-2016 年 5 月

答辩时间:2016 年 5 月 12 日

答辩地点:信息学院 网络与移动数据管理实验室

李和瀚,面向领域知识库的关键词查询方法研究(Research onKeyword Search Processing Over Domain Specific Knowledge Base),

中国人民大学,硕士学位论文,2016.4.24在读时间:2013 年 9 月-2016 年 5 月

答辩时间:2016 年 5 月 13 日

答辩地点:信息学院 网络与移动数据管理实验室

汪凤鸣,云环境下在线聚集的极值查询研究(Research on ExtremeValue Query of Online Aggregation in the Cloud),中国人民大学,硕

士学位论文,2016.5.20在读时间:2013 年 9 月-2016 年 5 月

答辩时间:2016 年 5 月 13 日

答辩地点:信息学院 网络与移动数据管理实验室

赵可君,短文本上的实体消歧技术研究(Entity Disambiguation onShort Text),中国人民大学,硕士学位论文,2016.5.6在读时间:2013 年 9 月-2016 年 5 月

答辩时间:2016 年 5 月 13 日

答辩地点:信息学院 网络与移动数据管理实验室

- 40 -

符彦军,云环境下统一资源管理与调度系统研究(Research onUniform Resource Management and Scheduling System in the Cloud),

中国人民大学,专业硕士学位,2016.5.12在读时间:2014 年 9 月-2016 年 5 月

答辩时间:2016 年 5 月 13 日

4. 承担课题

项目类型:国家重点研发计划“云计算和大数据”专项

项目名称:科学大数据管理系统(面向特定领域的大数据管理系统)

项目简介:

大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,

使得全球科技创新进入科学大数据时代。科学大数据的管理与分析水平,是能否在未来分秒

必争的重大科学发现中胜出的关键。但科学大数据管理面临一系列问题和挑战,主要表现在:

(1)超大规模关系数据管理,如天文领域多个数据中心千亿乃至万亿行天文星表数据的管

理;(2)多源数据关联和知识发现,如全球开放生物资源、文献、序列和疾病等万种数据

源 100 亿级关联数据的知识发现,需六步以上关联挖掘;(3)科学计算的高效数据处理。

如引力波科学发现中,16MHz 采样频率 10000 信道数据需要近似零延迟数据处理。本项目

拟针对上述问题和需求,进行相应研究。

课题名称:超大规模关系型数据管理关键技术及系统

课题负责人:都志辉,孟小峰

课题起止年限:2016 年 07 月-2019 年 06 月

课题简介:

本课题针对项目中的第一个问题,即超大规模关系数据管理,基于天文领域进行研究。

课题基于时空域的千亿行级数据分片策略和索引机制,实现关系数据表的有效分割和动态伸

缩。设计并实现跨数据中心分布式查询的数据副本放置和调度方法。设计并实现从大规模非

结构化原始文件中瞬时提取具有科学价值的数据对象的流水线处理方法。

- 41 -

课题名称:图数据管理关键技术及系统

课题负责人:邹磊,王秋月

课题起止年限:2016 年 07 月-2019 年 06 月

课题简介:

本课题围绕图数据管理的核心问题,以生物大数据为应用背景,研究海量图数据的索引

方法和查询优化策略,实现基于结构感知的高通量、并行化图模式查询;研究基于数据划分

的分布式系统设计及联邦查询方法,实现跨地域多节点的分布式 RDF 图数据管理;研究并

实现图数据的交互式检索和分析。通过本课题的研究,拟实现一个高效的基于图的大规模科

学知识图谱数据管理系统,用以支持在生命科学领域中对关于生物资源、文献序列和疾病等

内容的 100 亿级关联数据上进行知识发现和“六步”以上的挖掘;以及支持对分布在全球各

个科研机构的跨地域、多中心 RDF 知识图谱网络进行统一的检索与查询。以中科院微生物

所牵头的国际中心数据平台为应用背景,推动我国在生物领域的数据融合、共享和服务方面

的国际影响力,有效支撑我国在生命科学领域开展的重大研究工作。

课题类型:国家自然科学基金重大研究计划“大数据驱动的管理与决策研究”重点项目

课题名称:大数据开放与治理中的隐私保护关键技术研究

课题负责人:孟小峰

课题起止年限:2017 年 01 月-2020 年 12 月

课题简介:

近年来,隐私保护已成为大数据管理决策研究与应用的核心问题,传统的隐私保护理论

和技术已经无法涵盖大数据隐私的内涵,有必要对其进行重新思考与定位。基于此,本项目

以大数据集成与融合、查询与分析、发布与共享带来的隐私问题为切入点,提出了大数据隐

私保护框架,具体包括隐私风险监测与评估技术、隐私主动保护技术、查询隐私保护技术、

基于数据溯源的问责技术等。研究成果将用于搭建大数据管理与决策下的隐私保护原型系

统,并以移动通信领域为应用示范,以验证所提出保护机制与模型在真实数据上的有效性与

高效性。通过本项目研究可以为大数据隐私保护技术进一步深入研究与应用提供理论方法、

技术支撑与新的思路。

- 42 -

5. 系统成果

差分隐私原理展示系统 OrientDP随着信息技术应用的不断普及和深入,各种信息

系统存储并积累了丰富的数据,例如医疗机构建立的

患者诊断数据集,电子商务企业收集的客户在线交易

数据集等。对这些数据集进行分析可以使人们获得更

多关于真实世界的知识。

然而,数据集里通常包含着许多个人的隐私信息,

如医疗诊断结果、个人消费习惯以及其它能够体现个

人特征的数据,这些信息会随着数据集的发布和共享

而被泄露。

系统结构

OrientDP系统能够简单、直观、易懂的展示差分隐私保护的效果,系统结构图如下:

系统原理

差分隐私是一种新的隐私定义。在此定义下,对数据集

的计算处理结果对于具体某个记录的变化是不敏感的,单个

记录在数据集中或者不在数据集中,对计算结果的影响微乎

其微。

在差分隐私领域,拉普拉斯噪声是一种最常见的噪

声添加方式,该分布的概率密度函数如图:

该分布的图像为尖沙堆形状:

- 43 -

系统展示

OrientDP 系统通过 参数控制加入噪音的大小区间,Budget 控制总的隐私预算,

Frequency 控制演算次数。系统运行效果图如下:

最终系统计算结果显示良好,从实际层面证明了差分隐私保护的可用性与严密性。

- 44 -

基于天文大数据的 GWAC模拟系统随着科学技术的进步,天文观测手段也越来越强大。通过科学观测数据的抽取,将会产

生千亿级别的科学对象(事例、星系天体、事件等),关系型数据管理系统作为科学对象信

息描述的重要载体必将面临重要挑战。该模拟系统通过模

拟 GWAC 相机阵获取天文数据的过程,研究基于时空域的千

亿行级数据分片策略和索引机制,实现关系数据表的有效

分割和动态伸缩。设计并实现跨数据中心分布式查询的数

据副本放置与调度方法。设计并实现从大规模原始文件中

快速提取具有科学价值数据对象的流水线处理方法。该系

统的研究成果,将针对超大型关系型科学大数据的公开访

问,建立可靠、可扩展的关系型数据管理系统,不仅可以

有效支持对不同粒度查询的交互与批处理访问,而且可以

满足科学数据处理流水线对数据访问与存储在性能方面的

要求,同时可以达到数据分析在精度方面的要求。

系统结构及原理

系统整体设计为四层,其中的两层为缓存。

第一层为点源提取,将 GWAC 拍摄的原始图像处理

成原始星表。第二层中,通过对原始星表进行交

叉证认后,将处理后的星表按单颗星进行划分并

向第三层缓存。第三层使用基于内存的分布式文

件系统 redis。在第三层中将存放一天的观测数

据并在其上完成快速的在线分析。因为第三层为

内存数据库。当观测周期结束后,将第三层的数

据持久化到磁盘,也就是整体系统的第四层。对

于第四层而言,通过使用 HDFS 来对持久化数据进

行离线分析和 long term storage。

系统展示

系统目前已经按照真实情况产生实时数据并完成持久化工作。

- 45 -

面向学术空间的交互式分析系统 ScholarExplorerScholarExplorer 是一个展示学者信息的交互式分析网页工具,它在 ScholarSpace

(http://www.c-dblp.cn,原名 C-DBLP)构建的有关国内学者的 Knowledge Graph 基础上,

由 WAMDM 实验室 Web 小组开发完成,直观地展示出学者与学者、单位的合作关系,期刊发表

关系,发文量变化,研究领域、研究兴趣变化,以及师生关系。

相比于传统的以列表返回搜索结果的方式,ScholarExplorer 通过多种形式的图像和交

互式的响应,为您提供有关学者更全面更生动的知识,是了解学者及其学术关系的新工具。

挖掘有关学者的知识

每天每月每年都有大量论文发表在期刊上,我们将

不同数据源中的论文数据集成起来,并抽取出每篇论文

中的作者、作者单位、发表期刊、发表时间、关键词等

信息。

如果把其中的作者、单位、期刊当作实体,一个学者可以通

过不同关系与其他实体关联起来:通过论文合作关系与不同学者

实体关联,通过所属关系或合作关系与不同单位实体关联,通过

论文发表关系与不同期刊实体关联。我们就是这样从论文数据

中,抽取出有用的信息,最终得到有关学者的知识。

展示有关学者的知识

当输入一个学者,以该学者为中心,我们首先从集成的数据中找到

其发表的全部论文。再找到每一篇论文对应的其他作者、单位、单位。

这张关系图不仅反映了学者的学术关系,还能体现出学者与不同实体间

关联的紧密程度。以学者实体为例,中心学者与某位学者合作发表过一

篇论文,与另一位合作发表过三篇论文,可以认为后者与他的学术关系,

比前者更紧密。

系统展示

ScholarExplorer 的界面被分为六个部分,最上面是搜索栏,当输入学者姓名时,会有

下拉菜单提示可能想查找的学者,考虑到重名问题,我们通过单位区分不同学者。

中间最大的区域就是上面介绍的学者学术关系,分别用 、 、 和 表示论文、学

- 46 -

者、单位和期刊。与中心学者关系越紧密的实体,越靠近中心。鼠标触碰到某个节点时,有

悬浮框提示您该节点的具体信息,同时与该节点有关的边高亮显示。

右边上方区域罗列了中心学者的基本信息。右边下方区域是由该学者全部论文关键词构

成的字符云,字体越大表示该关键词在学者发表论文中出现的次数越多,学者对这个研究问

题越感兴趣。

下方区域是中心学者每年的论文发表数量,与普通的柱状图不同,关系图中的每个论文

节点在这里都对应一个小矩形,某一年堆积的小矩形越高,说明该年发表的论文越多。

左边区域是中心学者的师生关系,即其学生、老师、学生的学生、老师的老师……鼠标

触碰到某个节点时,也有悬浮框提示毕业年份、毕业学位等信息。

ScholarExplorer 最棒的一点,在于下图区域 1、3、4 能与用户交互。比如,当您点击

区域 1中某个论文节点,区域 3 该论文的所有关键词会高亮显示;区域 4 中相应的小矩形也

会高亮,以显示该论文在学者学术生涯所处的时间段。

当点击区域 3 中某个关键词,区域 1中包含该关键词的论文节点会高亮显示,字体越大

的关键词,高亮的论文节点越多;这些论文节点在区域 4 中对应的小矩形也会高亮,反映出

学者感兴趣的研究领域或研究问题随时间的变化。