中国科学院机构知识库现状与发展
祝忠明
国家科学图书馆兰州分馆信息系统部
2012.09.24. 兰州
第9次中文文献资源共建共享合作会议
中国科学院机构知识库建设现状
3
中国科学院机构知识库网格——CAS IR Grid
Hub-and-Spoke框架
IR Grid的节点系统
研究所层面推广建设IR
IR Grid集成服务平台
全院层面知识库系统
研究所IR数据自动采集
相关数据的备份保存与分发
4
CAS IR Grid推进策略:分层分步递进推进
研究所IR试点示范建设
研究所IR规模化推广应用 I
研究所IR规模化推广应用 II
CAS IR Grid集成服务平台
CAS IR Grid集成服务
体系
CAS IR Grid集成服务平台
制度及政策示范框架
IR示范基础服务平台
制度及政策框架模板
IR平台基础服务优化/增值服务拓展
形成规模应用
制度及政策应用推动服务
IR平台非常规类型内容管理及知识服务支持能
力拓展
全院推广覆盖/推动基于IR知识服务
政策及平台应用示范
元数据收割
跨仓储检索发现服务
中转/备份对象仓储
高级数据挖掘分析服务...
5
研究所IR试点与示范建设
主要成果
研究所IR建设政策框架示范
研究所IR建设基本流程
研究所IR建设平台-CAS OpenIR基础版
2007.9~2008.12
中科院力学所IR
中科院国科图IR
研究所IR规模化推广建设Ⅰ期
2009.9~2011.9 预期:50家 实际:61(10家试用)
研究所IR规模化推广建设Ⅱ期
2011.10~ 2013.10 预期:
再覆盖50家研究所
迄今:
完成40家
1/7/20138
院所协同推进:建立和形成了国科图与研究所共同推进研究所IR建设的协同工作机制
研究所(图书馆)
政策支持团队
技术支持团队
学科馆员团队
研究所IR推介引导
联络咨询
政策咨询阐释
规划运营
1/7/20139
系列制度规范作保障1:国科图研究所IR推广工作指南
2:研究所IR建设推广专项工作实施办法与工作细则
3:国科图研究所IR推广项目协议或试用申请
4:研究所IR申请建设的工作流程
5:中国科学院研究生学位论文的知识产权共同保护工作备忘录
6:学科馆员在IR专项工作中的职责
7:研究所IR技术支持与服务规范
8:研究所IR建设需求登记表
9:研究所IR实施需求调查表
10:研究所IR实施简明指南
11:研究所IR安装通知单
12:研究所IR安装简档
13:研究所IR技术支持与服务登记表
14:研究所IR验收评估办法
1/7/201310
为研究所提供IR建设政策框架模板
[研究所]机构知识库运行管理办法
关于[研究所]成员在学术期刊正式发表的研究论文在[研究所]机构知识库存缴与发布的补充协议
关于[研究所]主办学术会议作品电子版本在[研究所]机构知识库存缴发布的授权协议
关于[研究所]主办期刊的电子版本在[研究所]机构知识库存缴发布的补充协议
公共教育科研单位机构知识库内容存缴与传播的权益管理政策指南
1/7/201311
IR建设咨询及技术支持综合服务体系
协同需求调研分析
面向研究所、面向学科馆员的IR技术与服务培训
全院研究IR建设QQ群
IR技术支持服务网站(http://service.llas.ac.cn)
开办京区IR主题沙龙
到所现场技术支持服务
CAS IR Grid服务体系基本成型
CAS IR Grid集成服务门户 覆盖72家(注:全院已/在建IR93家)
作品记录数33.53万+
可检索全文记录量26.38万+
访问量2410+万次
下载量359万+篇次
扩展全院IR建设统计报告服务 研究所IR建设概况
研究所IR访问利用汇总
下载论文排行
院外下载排行
国外下载排行
...
CAS IR Grid-内容类型分布
69.42%
11.22%
10.19%
5.39%1.12%
0.97%
0.81%
0.35% 0.19%0.13%
0.09%
0.04% 0.04%0.01%0.01%
期刊论文
学位论文
会议论文
专利
成果
预印本
专著
其他
演示报告
研究报告
专著章节/文集论文
科普文章
多媒体
软件著作权
年报
CAS IR Grid-研究所IR规模Top 20
CAS IR Grid-访问利用增长变化
0
1000000
2000000
3000000
4000000
5000000
6000000
2009 2010 2011
浏览量
下载量
1/7/201316
CAS IR Grid技术平台
2010.3:
CAS OpenIR 1.0(基础服务版)
CAS IR Grid 1.0(基础服务版)
2011.5:
CAS OpenIR 2.0(改进版)
CAS IR Grid 2.0(改进版)
基于DSpace 1.4深度扩展
CAS IR Grid总体技术框架
CAS OpenIR 服务体系-知识专题构建服务
自助存缴
表单/SWORD(多形式)
中介提交 批量导入 XML、EXCEL Endnote、SCI格式数据
学位论文系统数据 ARP系统产出物数据 WOS数据自动采集 SWORD远程自动存缴
OAI收割
CAS OpenIR服务体系-浏览检索服务
传统浏览检索
分面浏览检索
自动提示/完成
关联服务集成 推荐 推荐引用格式 利用统计 关联检索 社会书签 收藏 导出(EndNote/Word
/CSV)
...
CAS OpenIR服务体系-利用统计服务
不同内容对象层次
Site/community/collection/item 不同时间频度
Year/month/day/custom time period 不同访问类型
robot access/intranet access/repeated clicks
不同访问来源
Countries/Regions
CAS OpenIR服务体系-知识统(审)计服务
所有统计条件动态定义配置
每次统计过程按需定制
统计结果展现形式可定制
统计结果可导出为Excel文件
CAS OpenIR服务体系-个人知识履历服务
基本信息
教育学术背景
研究项目
知识产出[自动]
别名管理
个人主页
CAS OpenIR服务体系-作品认领标识服务
基于作者别名管理
根据作者姓名/别名自动推荐相关作品供认领
辅助建立作者与作品唯一关联关系
建立作者与作品贡献排序关系
保证通过作者途径可靠聚集相关作品
CAS OpenIR服务体系-基础服务
动态元数据模式扩展框架
元数据模式非编程动态扩展
内容类型组织模板动态定义
非编程动态定义内容类型提交/组织模板
模板字段选择、输入方式、默认值、显示排序、统计适用性、引用格式...
全文/分面索引、OpenKOS自动标引/聚类
传播管理服务
作品发布时限控制、基于IP地址控制、用户/用户组控制
恶意下载自动监测和屏蔽
开放接口/集成服务 OAI-DP:自定义元数据开放映射、全文收割预留、日志数据开放
SRU、SWORD
页面集成嵌入
CAS OpenIR服务体系-基础服务
中国科学院机构知识库的持续发展
开放关联知识环境
开放期刊论文-open publication 预计在2017~2021,50%的学术论文是OA论文, 保守地估计到2025年将达到90%(David W. Lewis,2012)
开放科研数据-open science/research data
开源科学软件(Open Source Scientific softare)
开放实验记录科学(Open-Notebook Science)
开源科学(Open-Source Science/citizen Science)
发展环境快速扫描
其他多种形式研究对象的开放共享
可视化科学实验过程的正式开放发表
JoVE(Journal of Visualized Experiments) 引入同行评审机制
科学工作流开放共享-MyExperiment 科研讲稿的开放共享-Slideshare 各类型研究产出的共享发布-FigShare
其他多种形式研究对象开放共享
发展环境快速扫描——开放关联知识环境
Open Science-走向科学开放的极致 科学研究的过程及其结果必须作为公共资源发布和最大限度地支持开放获取
开放科研的目的及其实践过程,在于创造和形成一种开放科研的文化,使得开放科研运动的推动下最终达到科学开放的极致(Michael Nielsen, 2008)
开放更多类型的内容,而不仅仅是科学论文;
通过更开放的许可协议和科学社群规范允许对已有的工作进行创造性的重用和修改;
使所有信息不仅能为人类阅读还能供机器阅读;
提供开放API,便于提供基于科学文献的附加服务甚至多层级更强大的服务
发展环境快速扫描——开放关联知识环境
Open Apps--开放应用
基于Mendeley开放数据的开放研究Apps已达 240 个 这些apps每月对Mendeley的API及开放数据产生1亿次调用
http://thenextweb.com/insider/2012/08/22/mendeley-hits-100-million-api-calls-per-month-open-science/
http://techcrunch.com/2012/08/22/mendeleys-open-api-approach-is-on-course-to-disrupt-academic-publishing/
发展环境快速扫描-开放关联知识环境
从开放数据走向关联开放数据(Open Data-->Linked Open Data)
五星级开放数据-LOD 语义Web/LOD 数据<--语义 -->"智能"数据 ->机器可读 -->智能应用
关联开放数据云
http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
发展环境快速扫描-开放关联知识环境
科学数据与科学文献关联
DataCite 数据集注册、发现、引用,不提供存储
Dryad 论文发表相关数据的发布服务 "小科学"数据
Pangea 地学与环境科学领域数据发布服务
数据与文章双向关联
Dataverse 数据发布/规范引用关联
支持基于项目的数据存储
......
发展环境快速扫描——开放关联知识环境
论文知识结构/单元的语义关联
Nanopublication Executive paper W3C:ORB Ontology of Rhetorical Blocks
提供科学篇章知识片段(knowledge items)结构规范化描述的本体
支持相关知识片段的发现/关联/聚合
发展环境快速扫描——开放关联知识环境
第3代研究环境(e-laboratory)
3-代: 跨任何学科领域工具、方法及数据的全球重用
通彻的共享
研究环境支持性作用日益明显:数据驱动科研、科研过程的自动化和决策支持
源流信息支持设计和数据管理日益社交化和自动化
研究环境根本上应视为“社会-技术”系统
与用户共同发展演化
与Web 2.0设计模式保持协调一致
发展环境快速扫描——开放关联知识环境
CAS OpenIR的一些功能很有用,比如个人知识履历、知识资产统计等,但还达不到吸引和“绑定”科研人员至IR的层次
科研人员并不关心研究所的“IR”
科研人员更关心从课题组或个人层面的“方便环境”,达到外部知识资源及自身产出的综合管理、共享
非常关注自身不同类型产出的合理共享,特别是数据管理
IR用户应用的基本反馈及需求
发展环境快速扫描
中科原机构知识库的发展方向—CAS IR Grid 3.0
总体目标
构建机构知识管理服务场景
形成贴近用户需求的增值服务体系
实现从"仓储"系统向开放“服务”系统或研究平台转型
CAS IR Grid 3.0 面向用户/社群(user/community-oriented) 基于使用(use based) 语义驱动(semantic powered)
重点任务
用户知识管理过程和场景深度需求分析建模及增值服务设计
面向研究过程多类型科研知识产出语义关联组织框架
形成支持研究对象(RO)管理应用的研究平台、灵活可扩展的用户/机构知识管理开放平台
延伸融入科研过程“用户-项目/群组-研究所”一体化知识管理与服务环境
用户导向(user-oriented),基于使用(use-based)语义驱动(semantic powered)
综合资源登记系统
个性化知识环境生成引擎
Web
研究所I
R/VR
E
群组I
R/VRE
个人I
R/VRE
Semantic Scientific Social Knowlege Community
Cloud-based Platform
NSL
推进策略
并行策略
基于现有系统,先行扩展部分增值服务
现行系统架构及服务重构,或全新设计实现新型系统-CAS IR Grid 3.0
两个层次
面向科研管理用户的服务构建
面向科研用户的服务构建
现行服务体系的优化扩展 (1) 基础服务优化完善
权益政策管理支持 存交过程政策嵌入
ROMEO/JULIET、其他相关政策
传播管理优化
用户自主开放共享范围指定:个人、群组、所、公共
开放共享形式指定:格式转换及保护、在线浏览、下载...
别名管理-> 名称规范服务 人名(作者名称)规范服务
机构名称规范服务
来源名称规范服务
作品标识
作品自助认领
自动标识
数据质量分析控制工具
开放关联集成服务
SCI/CSCD引用数据关联、REST API
现行服务体系的优化扩展(2)
面向科研管理用户的知识资产分析统计优化
面向科研评价的分析统计形式
知识地图构建
面向科研用户的个人知识履历增强公开的个人知识履历、私密的个人知识履历
丰富、关联、嵌入、生动 个人论文下载统计及排行
SCI/CSCD引用数据动态关联
个人知识产出图谱
个人知识履历--->个人网站
CAS OpenIR 3.0
核心基础服务增强
语义关联组织框架
内部知识对象语义关联、实体化
外部关联数据集成关联
多类型非常规类型内容管理
权益政策、方式/过程
esp. 科学数据关联管理
自动知识产出发现采集、关联集成
esp. 相关工具服务的合作集成
开放集成接口
REST widget API、SPARQL
重点介入数据管理
无1、2层时介入
小科学数据
无处存缴/孤立数据的最终存缴地
数据元数据目录/大数据登记
机构数据资产统一发现服务
(Royal Society, 2012)
CAS OpenIR 3.0
内容存缴服务-SWORD it!
SWORD (Simple Web-service Offering Repository Deposit)-简单对象存缴协议
IR
出版商
SWORD
机构信息系统
学术会议系统
实验设备
SWORD
知识仓储
SWORD桌面工具
OfficeSword
SWORD Deposit Widget
Facebook SWORD
Client App
批量自动存缴
嵌入用户环境
学术论文的自动发现采集及关联开放
IR
出版商API
领域仓储
API
科研管理系统
API
名称服务(人/机构/来源)
CAS OpenIR 3.0 个人知识履历服务增强->知识过程管理
个人知识工作台(Scholarly Workbench) 融入科研过程、个人对知识组品的“控制”
支持社交网络构建应用及关联集成 与e划通、群组环境等平滑集成,融入“科学知识社群”
关联集成Facebook、Twitter等应用
语义关联服务
基于内外部知识语义关系的关联发现利用
知识图表(Knowledge Graph)服务
面向科研用户的增值服务
CAS OpenIR 3.0 知识资产/能力分析服务—Knowledge Profiling
个人、群组、研究所、全院等不同层次知识能力分析
“群组”知识履历-->群组知识环境
基于知识语义关系的可视化知识关联地图、知识足迹(knowledge timeline)
虚拟专题/主题知识库
影响评价计量及研究评价服务
开放计量、IR式影响引子
面向科研管理用户的增值服务
技术策略
相对稳定核心基础服务/基础架构(Core Service/Core Infrastructure) 支持RO应用的关联数据模型
基于LOD的向内向外关联
细粒度开放 API及支持Open Apps应用
促进IR数据及服务重用、融入用户社群及关联开放世界
可接插式外围服务
多系统“拼装”集成、扩展
全院机构知识管理云平台?
49
任务推进保障策略
加强推进研究所IR建设制度和政策框架
推动研究所IR开放获取
非常规性类型知识内容管理
科学数据管理
知识管理综合服务应用示范
机构知识资产分析
知识能力与竞争力分析
知识交流传播与利用能力分析
Grid规模扩展,努力覆盖全院
CASOAR—中国科学院OA论文知识库
中国科学院科研人员发表的OA论文知识库
集中组织和发布支持OA的出版商所提供的我院科研人员发表的科研论文
基于SWORD协议“中转仓储”接收自动存交[已完成],支持自动分发至相应研究所IR[进行中]
目前已开始接收BMC的自动存交
其他方面发展
http://casoar.irgrid.ac.cn
中国IR联盟支持门户[进行中]
中国IR建设动态
中国IR集成检索服务
国际IR及开放获取动态
出版商政策查询工具
IR建设政策实践指南
IR最佳实践案例
中文开源IR软件CSpace社群
......
其他方面发展
CSpace开源IR软件发布[进行中]
CAS OpenIR的开源版本
功能及服务筛选组合
技术文档准备
发布利用机制
其他方面发簪
53
致谢
感谢参与中科院IR建设的国科图及研究所同仁的辛勤劳动和贡献!
特别是全院IR建设的学科馆员团队、政策团队和技术团队!
54