the role of libraries in data curation
DESCRIPTION
The Role of Libraries in Data Curation. Rapeepong Yamsuwan. What I want to talk about. The importance of data Infrastructure of data curation Skills needs Dataverse ‘s project. The importance of data. It’s the data, stupid. - PowerPoint PPT PresentationTRANSCRIPT
THE ROLE OF LIBRARIES IN DATA CURATION
Rapeepong Yamsuwan
What I want to talk about
• The importance of data• Infrastructure of data curation• Skills needs• Dataverse ‘s project
The importance of data
It’s the data, stupid
• ‘astronomers are just as likely to point a software query tool at a digital sky survey as to point a telescope at the stars’ (The Economist, Feb 2010)
• ‘“It's like the invention of the telescope," Franco Moretti, a Stanford professor of English and comparative literature, says of Google Books. "All of a sudden, an enormous amount of matter becomes visible.” (The Chronicle, ‘The humanities go Google’, May 28 2010)
Gary King, 2007
“Data sometimes exist on individual researchers’ Web sites, without professional backups, off-site replication, plans for format conversion and migration, or professional cataloging.”
Pious hopes (Carole Palmer)
• 60% ‘archive’ generated or collected data (no offsite backup)
• 61% expect to keep more than 10 years
Data lost, and data never born (U Wisconsin Summary Report of the Research Data Management Study Group (2009))
‘In some cases, inadequate storage capacity is leading to loss of data: forcing some researchers to discard data from past experiments in order to make room for current ones or to avoid certain types of experiments and research altogether’
1. What is the story of your data?2. What form and format are the data in?3. What is the expected lifespan of your data?4. How could your data be used, reused, and repurposed?5. How large is your dataset, and what is its rate of growth?6. Who are potential audiences for your data?7. Who owns the data?8. Does the dataset include any sensitive information?9. What publications or discoveries have resulted from the data?10. How should the data be made accessible?
Ten Questions to Begin a Conversation With Your Faculty About Data Curation (Witt & Carlson)
Qualified gravitational pull (Green and Gutmann)
‘Most institutional repositories do not and cannot offer support for managing dataset formats over time … Policies for long-term stewardship vary among institutions, but many have developed a sliding scale of preservation promises’
Monash approach (institutional) (Treloar)
U Wisconsin proposal
‘Solutions comprised solely of expensive technology will fail, because of the underlying need to establish long-lasting cultural stability within and between the research, library, and IT communities on campus.’
Is this possible (Gabridge)?
‘libraries can develop existing liaisons with interest, passion, and strong analytical skills; or they can recruit domain experts, and teach them about excellent information science practices.’
Infrastructure of data curation
โครงสร�างพื้นฐานเพื้�อการแบ่�งปั�นและการอน�ร�กษ์�ข้�อมู�ล โครงสร�างพื้นฐานส าหร�บวงการส��งพื้�มพื้�และบทความท��
ม�ค�ณภาพื้ โครงสร�างพื้นฐานทางด้�านเทคโนโลยี�น�น จำ าเป็$นต้�องง'ายีต้'อการใช้�งาน เทคโนโลยี�ท��จำ าเป็$นในการ
ด้*งสารสนเทศจำากเคร�องมอน�เป็$นเสมอนด้วงต้าของค�ณท��ช้'วยีในการค�นหาและไม'ต้�องใช้�กระบวนพื้�เศษในการค�นหาหน�งสอหรอบทความ
โครงสร�างพื้นฐานเพื้�อการแบ่�งปั�นและการอน�ร�กษ์�ข้�อมู�ล ในทางต้รงก�นข�าม ข�อม/ลไม'ได้�ถู/กจำ�ด้ระบบให�ม�ความ
ป็ลอด้ภ�ยีมากน�ก ข�อม/ลเช้�งว�ช้าการส'วนใหญ่'ไม'ได้�ป็รากฏในแหล'งข�อม/ล
สาธารณะ ไม'ม�การส ารองข�อม/ลท��ม�ค�ณภาพื้ ข�อม/ลส'วนใหญ่'จำะป็รากฏอยี/'ไม'นานน�ก ข�อม/ลท��สร�าง
ข*นนานกว'า 5 – 10 ป็4ไม'สามารถูเข�าถู*งได้�
ส��งที่!�จำ#าเปั$นส#าหร�บ่โครงสร�างพื้นฐานในการอน�ร�กษ์�ข้�อมู�ล พื้วกเราได้�ร'างส��งจำ าเป็$นไว� 8 ข�อ หากได้�ผล ก6จำะ
สามารถูป็ร�บป็ร�งโครงสร�างพื้นฐานการอน�ร�กษ�ข�อม/ลได้�อยี'างมากและเพื้��มป็ระส�ทธ�ภาพื้ของการส�อสารในวงการด้�านว�ช้าการ(scholarly community)
การยีอมร�บ บทบาทหล�กของวารสารเช้�งว�ช้าการ(scholarly journal)ช้'วยีผ/�
แต้'ง(author)ในการสร�างข�อม/ลให�ส�มพื้�นธ�ก�บบทความท��ต้�พื้�มพื้�แล�ว ให�ใช้�ได้� และผ/�แต้'ง(author)ต้�องเข�ยีนข�อม/ลให�เป็$นท��ยีอมร�บอยี'าง
เป็7ด้เผยีในทางท��ช้�ด้เจำนมากกว'าป็8จำจำ�บ�นม� ความเช้�อถูอของการอ�างอ�ง(citation credit)ควรจำะแบ'งสรรให�ท�งบทความต้�นฉบ�บ
และข�อม/ล วารสาร(journals)จำะต้�องไม'คล�มเครอและท าต้ราให�ก�บ หน'วยีงานท��สร�าง แม�ว'าในขณะท��ใช้�บร�การข�อม/ลส'วนใหญ่'และแหล'ง
อ�น ผ/�แต้'ง(author) ควรม�การเก6บต้�นฉบ�บ ของต้นเองและเร�องท��ต้� พื้�มพื้�บนหน�าเว6บไซต้�ของต้นเอง
การเผยีแพื้ร'สาธารณะ ผ/�ใช้�ไม'ต้�องได้�ร�บค ายี�นยีอมจำากผ/�ป็ระพื้�นธ�แต้'ผ/�
ป็ระพื้�นธ�ต้�องยีอมร�บข�อต้กลงมาก'อนท��จำะม�การเผยีแพื้ร'บทความ
การอน�ญ่าต้ บ�คคลท��เข�าถู*งข�อม/ลต้�องได้�ร�บการอน�ญ่าต้จำากผ/�ถูอครองกรรมส�ทธ�;
โด้ยีต้รง จำ าเป็$นต้�องม�ส�ทธ�;, ในการเผยีแพื้ร'และเก6บข�อม/ล ท�งน�รวมไป็ถู*ง การลงลายีมอช้�อในข�อต้กลงเพื้�ออน�ญ่าต้ ( เช้'น การต้กลงเร�องการให�
หล�กป็ระก�นก�บผ/�ท��ม�ส'วนร'วมในงานว�จำ�ยี), ลงลายีมอช้�อสม�ด้เยี��ยีมอยี'างเสมอภาค, เป็$นสมาช้�กของสถูาบ�นเพื้�อการเก6บข�อม/ล (คล�ายีก�บสมาคมส าหร�บงานว�จำ�ยีและส�งคมระหว'างมหาว�ทยีาล�ยี: Interuniversity Consortium for Political and Social Research [ICPSR]
หรอ Roper Center) หรอแม�แต้'การจำ'ายีค'าธรรมเน�ยีม ท�งน�ความจำ าเป็$นท��แต้กต้'างก�นอาจำน ามาใช้�ก�บช้�ด้ข�อม/ลในป็ร�มาณท��ต้'างก�น
การต้รวจำสอบ วารสาร(journal)และน�กว�จำ�ยีต้�องแน'ใจำว'าข�อม/ลส�มพื้�นธ�ก�บบทความท��
เผยีแพื้ร'แต้'ละบทความต้�องเหมอนเด้�มและไม'สามารถูเป็ล��ยีนแป็ลง โด้ยีป็ราศจำากการค�นหา น�กว�จำ�ยีในอนาคต้ต้�องสามารถูต้รวจำสอบ
ข�อม/ลท��ได้�มาว'าเป็$นความจำร�ง ซ*�งผ/�แต้'ง(author)ได้�อน�ญ่าต้ด้�วยี เหต้�ผลบางป็ระการ ต้�องแน'ใจำว'าวารสารเป็$นอ านาจำเด้6ด้ขาด้ในอนาคต้
แม�ว'าข�อม/ลบางจำ�ด้ถู/กเป็ล��ยีนไป็เป็$นร/ป็แบบใหม' ด้�งน�น พื้วกเราต้�องได้� ข�อม/ลจำร�งในการต้รวจำสอบด้�วยีโป็รแกรม SPSS เพื้�อว�เคราะห�ท��ข�อม/ล
ทางสถู�ต้�และใช้�เคร�อง Pc mac หรอ Linux เทป็แม'เหล6กหรอแผ'น DVD ในการท างานจำร�งเหมอนผ/�ป็ระพื้�นธ�
ความต้'อเน�อง น�กว�จำ�ยีต้�องม�ความสามารถูในการค�นหาข�อม/ล เข�าถู*งท าให�ช้�ด้ข�อม/ล
ใช้�ได้�และส�มพื้�นธ�ก�บบทความท��ยี�งอภ�ป็รายีอยี/'และต้รวจำสอบว'าช้�ด้ ข�อม/ลเป็$นช้�ด้เด้�ยีวก�นก�บท��ผ/�แต้'ง (author) ใช้�
วารสาร(journals) และช้�มช้นด้�านว�ทยีาศาสต้ร� (scientific community)จำ าเป็$นต้�องต้�ด้ต้ามบางข�นต้อนซ*�งสร�างความม��นใจำให�
ก�บพื้วกเราว'า ความจำร�งเหล'าน�จำะยี�งคงอยี/'ไม'ม�ว�นส�นส�ด้ ไม'ว'าม�การเป็ล��ยีนแป็ลงใด้เก�ด้ข*นในข�นต้อนของการกระจำายีข�อม/ลและการเข�าถู*งเครอข'ายี, ร/ป็แบบการเก6บข�อม/ล, โป็รแกรมข�อม/ลพื้นฐานและสถู�ต้�,
ระบบป็ฏ�บ�ต้�การ และอ�ป็กรณ�คอมพื้�วเต้อร�(computer hardware)
ความง'ายีต้'อการใช้�งาน ระบบง'ายีต้'อการใช้�งานท�ง ผ/�เร�ยีบเร�ยีง ผ/�ต้รวจำสอบ
แก�ไข ผ/�แต้'ง รวมท�งการจำ�ด้การซอฟแวร�และฮาร�ด้แวร�ต้ามมาต้รฐานการจำ�ด้เก6บ
การค��มครองทางกฎหมายี จำ านวนวารสารม�มากมายีในการจำ�ด้เก6บและทางท��จำะเผยีแพื้ร'ข�อม/ลบทความส'วนใหญ่'
อยี/'บนเว6บของผ/�แต้'งไม'ม�การต้รวจำสอบจำากคณะท างานการพื้�จำารณาใหม'ไม'ได้�ลง นามจำากผ/�แต้'ง ซ*�งผ�ด้กฎหมายีในการเผยีแพื้ร' ส าน�กพื้�มพื้�ม�ว�ธ�การในการต้�ด้ต้'อขอ
ล�ขส�ทธ�;และขอต้�พื้�มพื้� แต้'ร/ป็แบบการโอนล�ขส�ทธ�;ม�มาต้รฐานไม'ครอบคล�มถู*งส�ทธ�;ส��ง ต้�พื้�มพื้� เพื้ราะหากข�อม/ลไม'ได้�ถู/กต้รวจำสอบให�ถู/กต้�องอาจำม�กรรมส�ทธ�;, ท าลายีช้�อ
เส�ยีง, ข�อม/ลไม'เพื้�ยีงพื้อหยีาบคายีหรอเผยีแพื้ร'อยี'างผ�ด้กฎหมายี แน'นอนว'าวารสาร(journal)ไม'ควรคาด้หว�งท��จำะว'าจำ�างน�กกฎหมายีหรอต้�ด้ต้'อก�บคณะ
กรรมการพื้�จำารณาภายีใน ด้�งน�นป็8ญ่หาน�จำ าเป็$นต้�องหาทางแก�ไข ซ*�งไม'ท าให� มหาว�ทยีาล�ยี ส าน�กพื้�มพื้� หรอองค�กรท��เก��ยีวข�องก�บวารสารม�ความเส��ยีงต้'อ
กฎหมายี อ�กอยี'างหน*�ง คอ ข�อม/ลท��จำ�ด้ท าข*นมาด้�อยี/'แล�วด้�งน�นวารสารก6รวบรวมมาน�สามารถูใช้�ป็ระโยีช้น�ในการท างานได้�
Skill Needs
six areas of knowledge and skills:
1.Understanding software,2.Project planning and management,3.Collection definition,4.Metadata guidance,5.Submission review,6.Author training.
Competencies Required for Digital Curation: An Analysis of JobAdvertisements, (2013), Kim
Knowledge, Skills and Abilities Based on the requirements for the positions,
Knowledge, Skills, and Abilities (KSAs)
Count Percentage
Working in an Information TechnologyIntensive Environment
87 50%
Standards and Specifications 87 50%
Tools and Applications 77 45%
Project Management 72 42%
Functional Skills for Curation 70 40%
Personal and Interpersonal Skills
69
Knowledge, Skills, and Abilities (KSAs)
Count Percentage
Research and Trends 55 32%
Working Knowledge for Curation
50 29%
Liaison and Support 42 24%
Library/Archives Skills 34 20%
Professional Development 22 13%
Other Domain Knowledge 7 4%
Dataverse ‘s project
Problem?
What Is the Dataverse Network?
• The Dataverse Network allows researchers,journals and archives to share, cite, and preserve research data
• The Dataverse Network is the successor of the VDC (Virtual Data Center), also developed at Harvard
5 Key Features
1. Exchange Data Share Across Dataverse Networks and Other Archives Search, Browse, Analyze World Data Complex Object Relationships
Share Across Dataverse Networks and Other Archives
• A DVN may “harvest” metadata from other installed DVNs (or any OAI server Archive) to allow searching locally for their studies; Data is then retrieved remotely
Dataverse-DSpace Interoperability
Dataverse
Agent
(Via OAI)
Study URL
DSpace
DDI Record/ Content
SIP
Person sends URL
Ingest packager
Study URL
Example: Item in Dataverse
Example: Item in DSpace
Search, Browse, Analyze World Data
Complex Object Relationships
2. Security
5 Key Features
UNF calculated from the content not the file
(i.e. UNF:3:6:ZNQRI14053UZq389x0Bffg?==)
i.e. hdl:10527/abc
3. Validation & Verification
UNF
Handle ID
Share, Cite, Preserve
• Create a new standard for citing quantitative dat sets
5 Key Features5. Virtual Host
http://uc.utcc.ac.th/dvn.html
Case Studies: UC-UTCC Research Center
http://department.utcc.ac.th/research/dbresearch/dataverse.html
Case Studies: Research Support Office
http://utcc2.utcc.ac.th/sealac/research.html
Case Studies: SEA-LAC Trade Center
Who use Dataverse?