「105年度政府開放資料研究案」資料結構化專家會議簡報 v1.2 20160617

31
政府機關網站資料結構化專家會議: 2016.6 1

Upload: chia-chun-yeh

Post on 21-Feb-2017

327 views

Category:

Data & Analytics


0 download

TRANSCRIPT

政府機關網站資料結構化專家會議:2016.6月 1

壹、緒論

貳、文獻探討

參、研究方法

肆、研究結果

伍、結論與建議

簡報大綱

2

壹、緒論─研究動機

3

• 鼓勵機關分享所用的資訊,以銜接現有個別機關片斷化的服務。

--第四階段電子化政府計畫(101年至105年)

• 大量資料未來必須從紀錄的源頭開始,進行資料結構的設計與資料連結性的預先處理。

• 政府機關應領頭釋出數位化與可結構化的後設資料集,這些資料在釋出之後,能接續被使用者依其應用目的進行結構化的重整,進而建立共通標準與公定格式。

--李治安、林誠夏、莊庭瑞(2014)

壹、緒論─研究目的

4

1. 檢視目前政府機關網站(政府資料開放平臺、勞動部、中央氣象局、行政院原子能委員會)上之內容分類及屬性,並蒐集、彙整國內外相關研究,選擇通用類別的網站內容定義結構化處理的標的。

2. 擇定3個網站中的最新消息/新聞稿(擇一)的內容頁依據所訂定之網站資料格式化處理標的進行實作並驗證。

3. 自實作之結構化網頁中轉為資料集並進行SEO搜尋優化成果。

貳、文獻探討-1

5

資料來源:Spivack, N. (2007). Web 3.0 – The Best Official Definition Imaginable. Available from: http://www.novaspivack.com/technology/web-3-0-the-best-official-definition-imaginable. Last access 2016/4/7.

貳、文獻探討-2

6

Web 1.0

• Closed

• Individual Publishing

• One-Way Communication

• Passive Involvement

• Read-Only Content

• Personal Websites

Web 2.0

• Collaborative

• Group Participation

• Two-Way Communication

• Active Involvement

• User-Generated Content

• Blogging

Web 3.0

• Semantic Web

• Sites where computers will be generated raw data on their own

• Devices will be able to exchange data between each other and even generate new information.

資料來源:Matusky, R. (2015). Web 2.0 vs. Web 3.0 – What Really is the Difference. Available from: http://randymatusky.com/2015/04/03/web-2-0-vs-web-3-0-what-really-is-the-difference/. Last access 2016/4/7.

Markup

Vocabulary

貳、文獻探討-3

7

資料來源:W3C (2015). Vocabularies. Available from: https://www.w3.org/standards/semanticweb/ontology. Last access 2016/4/7.Schema.org (2016). About Schema.org. Available from: https://schema.org/docs/faq.html#0. Last access 2016/4/7.

• What is a Vocabulary?

- Define the concepts and relationships.

- Classify the terms that can be used in a particular application.

- Characterize possible relationships.

- Define possible constraints on using those terms.

- The basic building blocks for inference techniques on the Semantic Web.

• What are Vocabularies Used For?

- Help data integration.

- Organize knowledge.

Shared markup

vocabulary

Easier to find relevant

information

Enable new tools and

applications

Semantic Web

貳、文獻探討-4

8

資料來源:Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.

• Markup Vocabulary

Before 1997:

- XML

- MCF

1997~2004

- RDF

- RDFS

- OWL

- RSS

- vCard/hCard

- IETF

- FOAF

After 2011

- Schema.org

貳、文獻探討-5

9

資料來源:schema.org. (2016). About Schema.org. Available from: https://schema.org/docs/faq.html#0. Last access: 2016/4/7.

Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.

• Why schema.org?

- 2011 created by all the major search engines: Google, Bing, Yandex, Yahoo!

- Inspired by earlier work like Microformats, FOAF, OpenCyc, etc.

- Came through collaborations

- Applications:

22%

31.30%

0%

5%

10%

15%

20%

25%

30%

35%

2014 2015

schema.org markup

Sample: 10 billion pages from a combination of the Google index and Web Data Commons

Source: https://www.data.gov/developers/blog/support-schemaorg-datagov. Last access: 2016/4/7

貳、文獻探討-6

10

• GSA(2013)之開放與結構內容模式計畫(Open and Structured Content Models Project)指出,政府機關網站通常會使用「文章(articles)」與「活動(events)」兩種內容型式:

文章內容模式:

內容欄位 必填(R)/選填(O) 數量 內容欄位 必填(R)/選填(O) 數量

標題 Required 1 語言 Optional 1

短標 Optioinal 1 讀者 Optional 多個

完整標題 Required 1 參考資料 Optional 多個

描述 Required 1 主題 Required 多個

短描述 Optional 1 文章主體 Required 1

詳細描述 Required 1 文章段落 Required 多個

URL Optional 1 -段落標題 Required 1

文章類型 Optional 1 -段落主體 Required 1

日期 Optional 1 相關多媒體 Optional 1

上架日期 Required 1 影片 Optional 多個

第一次發布日期 Optional 1 音訊 Optional 多個

最後修正日期 Optional 1 影像 Optional 多個

釋出日期 Optional 1 評分 Optional 1

資料來源單位 Required 1 資料來源URL Optional 多個

提供者 Optional 1 相關URL Optional 多個

作者 Optional 多個

貳、文獻探討-7

11

活動內容模式:

內容欄位 必填(R)/選填(O) 數量 內容欄位 必填(R)/選填(O) 數量

標題 Required 1 URL Optional 1

短標 Optioinal 1 電話會議號碼 Optional 1

描述 Required 1 視訊會議資訊 Optional 1

詳細描述 Optional 1 -實體位址 Optional 1

活動類型 Required 1 國家 Optional 1

開始時間 Required 1 地址位置 Required 1

結束時間 Required 1 地區 Required 1

參與型態 Required 1 郵遞區號 Required 1

活動聯絡方式 Required 1 街名 Required 1

活動URL Optional 1 地理座標 Optional 1

聯絡email Optional 1 註冊資訊 Optional 1

贊助單位 Optional 多個 註冊型態 Required 1

講者 Required 多個 註冊費用 Required 1

姓名 Required 1 註冊URL Optional 1

主題 Required 1 注意事項 Optional 1

所屬單位 Optional 1 活動資料 Optional 多個

自傳 Optional 1 活動資料型態 Required 1

講者型態 Required 1 活動資料取得來源 Required 1

活動型式 Optional 1 主題 Optional 1

場地資訊 Optional 多個 活動回饋 Optional 1

場地型態 Required 1 評比 Optional 1

地點 Required 多個 建議 Optional 1

-虛擬位址 Optional 1 語言 Optional 多個

貳、文獻探討-8

12

• 政府網站版型與內容管理規範─網站架構與單元名稱建議表

第一層 第二層

公告資訊

最新消息

新聞稿

活動訊息

*RSS訂閱

機關介紹

組織架構

業務職掌

歷史沿革

重要人事

重要事件

下屬機關介紹

第一層 第二層

機關業務資訊

施政方針

法規資訊

統計資料

出版品

*雙語詞彙

*常見問答

機關聯絡資訊

機關基本聯絡資訊

各單位聯絡資訊

機關服務時間

相關連結

上層機關或下屬機關網站

屬性相近之服務連結

業務相關之單位網站

貳、文獻探討-9

13

資料來源:國家發展委員會(2015)。政府網站版型與內容管理規範。取自:http://www.webguide.nat.gov.tw/index.php/ch/speci/。Last access 2016/4/7.

• 政府網站版型與內容管理規範─網站架構與單元名稱建議表

第一層 第二層

民意交流

*意見信箱

*留言版/討論區/論壇

民意調查/問卷調查

*便民服務線上申辦

申辦項目/下載表格

*影音專區課程演講錄音

宣導短片

*會員專區

個人帳號維護

加入會員

電子報訂閱

第一層 第二層

*網站安全政策

*隱私權保護政策

*政府網站資料開放宣告

註:以*標示者表示在政府網站之中重要的內容單元,建議可列為網頁的重要元素,放置在更清楚的位置。然而,若要歸類在內容主架構中,則建議放在如上表的分類之下。

貳、文獻探討-8

14資料來源:本研究整理

• 政府網站架構與schema.org對應表

政府網站架構 Schema.org

公告資訊>最新消息/新聞稿 Thing > CreativeWork > Article > NewsArticle

公告資訊>活動訊息 Thing > Event

機關介紹>重要人事 Thing > Person

機關業務資訊>*常見問答 Thing > CreativeWork > WebPage > QAPage

機關聯絡資訊Thing > Organization > LocalBusiness >

GovernmentOffice

相關連結Thing > Organization > LocalBusiness >

GovernmentOffice

*便民服務>申辦項目/下載表格Thing > CreativeWork > MediaObject >

DataDownload

民意交流>*意見信箱 Thing > CreativeWork > EmailMessage

15

參、研究方法-1

Observation

觀察

Induction

歸納

Deduction

演繹

Testing

測試

Evaluation

評估

1

2

34

5

1.以六何法分析問題(情境/需求)2.研析國內外相關文獻3.瞭解現況:政府機關網站共通性內容

4.預設需求假設及構想5.召開專家座談會

1.綜整議題及需求2.分析變更衝擊3.產出規範草案

1.檢視規範草案是否符合議題與需求:平臺上公評

2.調整規範草案3.提交規範草案4.實作以展示規範草案1.公開規範草案及實作展示

2.通知試辦機關及邀請社群閱覽3.蒐集試辦機關、社群及民眾回饋意見

1.分析回饋意見2.驗證確認規範3.產出規範

參、研究方法-2

16

• 政府機關網站資料Markup Vocabularies建立流程圖

參、研究方法-實作檢測方式-1

17

1. Google Structured Data Testing Tool

(1) 檢測標的

- 網頁內容結構化程度(支援microdata / JSON-LD語法)

- 找出有標記問題的語法

(2) 檢測方法

a. 貼上網頁URL或是HTML source code

b. 驗證後查看結果

c. 根據錯誤報告修改錯誤標記

參、研究方法-實作檢測方式-2

18

2. SEO SiteCheckup

(1) 檢測標的

- 檢測結構化網業是否能表現在搜尋引擎優化上(SEO)

- 找出有標記問題的語法,提供錯誤報告

(2) 檢測方法

a. 貼上網頁URL

b. 測試後查看報告

網站SEO總體表現

網站是否包含非通用類型meta tag

參、研究方法-實作檢測方式-3

19

2. Import.io

(1) 檢測標的

- 結構化網頁是否利於機器直接抓取

(2) 檢測方法

a. 輸入網址

b. 查看機器讀取結果,判斷結構化程度

原始網頁呈現 機器抓取結果

肆、研究結果-政府機關網站盤點結果-1

20

• 共通性架構:網站

架構政府資料開放平臺

(data.gov.tw)

勞動部(www.mol.gov.tw)

原子能委員會(www.aec.gov.tw)

中央氣象局(www.cwb.gov.tw)

公告資訊

最新消息 關於平臺>最新消息 新聞公告>公布欄 訊息公告>最新消息關於氣象局>最新消息

新聞稿 -- 新聞公告>新聞稿 訊息公告>新聞稿

活動訊息 -- 新聞公告>活動訊息 -- --

*RSS訂閱 -- 首頁>RSS 首頁>RSS 首頁>RSS服務

機關介紹

組織架構 --本部簡介>職掌及組織

關於本會>組織架構 關於氣象局>組織架構

業務職掌 --關於本會>任務與沿革

關於氣象局>重要業務

歷史沿革 -- 關於氣象局>組織簡介

重要人事 --本部簡介>正副首長介紹

關於本會>首長介紹 --

重要事件 關於平臺>關於我們本部簡介>勞動大事記

-- --

下屬機關介紹

-- -- 關於本會>組織架構 --

肆、研究結果-政府機關網站盤點結果-2

21

• 共通性架構:網站

架構政府資料開放平臺

(data.gov.tw)

勞動部(www.mol.gov.tw)

原子能委員會(www.aec.gov.tw)

中央氣象局(www.cwb.gov.tw)

機關業務資訊

施政方針 --重大政策>施政主軸

施政與法規>施政績效

關於氣象局>施政目標

法規資訊 -- 業務專區施政與法規>原子能法規

便民服務>政府資訊

統計資料關於平臺>網站使用統計/資料分類統計

勞動統計專網 資訊公開 氣候>氣候統計

出版品便民服務>政府資訊公開

便民專區>出版品索取

便民服務>出版品

*雙語詞彙 --便民服務>雙語詞彙

便民專區>雙語詞彙

常識>雙語詞彙

*常見問答 關於平臺>常見問答便民服務>常見問答

便民專區>FAQ 常識>常見問答

機關聯絡資訊

機關聯絡基本資訊 首頁便民服務>政府資訊公開 關於本會>組織

架構

關於氣象局>組織簡介

各單位聯絡資訊 -- -- --

機關服務時間 -- -- -- --

肆、研究結果-政府機關網站盤點結果-3

22

• 共通性架構:網站

架構政府資料開放平臺

(data.gov.tw)

勞動部(www.mol.gov.tw)

原子能委員會(www.aec.gov.tw)

中央氣象局(www.cwb.gov.tw)

相關連結

上層機關或下屬機關網站

--本部簡介>職掌及組織

關於本會>組織架構 --

屬性相近之服務連結

互動專區>交流討論 首頁>外部連結便民專區>核能相關網站

便民服務>好站介紹

業務相關之單位網站

--首頁>勞動部所屬機關

首頁 首頁

民意交流

*意見信箱 互動專區>我還想要 首頁>民意信箱 首頁>意見信箱 首頁>意見箱

*留言版/討論區/論壇

互動專區>交流討論 -- -- --

民意調查/問卷調查

-- -- --便民服務>滿意度調查

*便民服務

線上申辦 -- --

便民專區>線上服務 便民服務>資料申購申辦項目/下載表格

-- 便民服務>表單下載

肆、研究結果-政府機關網站盤點結果-4

23

• 共通性架構:網站

架構政府資料開放平臺

(data.gov.tw)

勞動部(www.mol.gov.tw)

原子能委員會(www.aec.gov.tw)

中央氣象局(www.cwb.gov.tw)

*影音專區

課程演講錄音 -- -- -- --

宣導短片 -- 業務專區>懶人包 核物料管制>懶人包 影音

*會員專區

個人帳號維護首頁>登入平臺

-- --首頁>會員登入

加入會員 -- --

電子報訂閱 --便民服務>電子報訂閱

首頁>電子報 --

*網站安全政策 首頁>政府資料開放平臺隱私權保護、使用及資訊安全政策

首頁>隱私權政策及網站安全政策

首頁>資訊安全及隱私權政策

首頁>資訊安全政策

*隱私權保護政策

首頁>隱私權保護政策

*政府網站資料開放宣告

授權條款首頁>政府網站資料開放宣告

首頁>政府網站資料開放宣告

--

伍、結論與建議-1

24

• 網站架構歸類

本研究者歸類 4個網站共通性架構

文章(Article)

新聞文章 最新消息、公布欄、新聞稿

相關連結 外部連結、核能相關網站、好站介紹

常見問答 常見問答、FAQ

資料下載 表單下載、線上服務、資料申購

出版品 政府資訊公開、出版品索取、出版品

影音 懶人包、影音

其他

任務與沿革、重要業務、RSS、電子報訂閱、電子報、施政主軸、施政績效、施政目標、業務專區、源子能法規、政府資訊、勞動統計專網、資訊公開、氣候統計、網站使用統計、資料分類統計、雙語詞彙、交流討論、網站安全政策、隱私權保護政策、政府網站資料開放宣告

活動(Event)

活動訊息 活動訊息

人物介紹 正副首長介紹、首長介紹

機關聯絡資訊 組織簡介、職掌及組織、組織架構

民意信箱 我還想要、民意信箱、意見信箱、意見箱

伍、結論與建議-2

25

• 文章(Article)內容模式-1

GSA內容欄位 schema.org對應語彙型態

英文 中文 屬性 來源

*Title 標題 name Thing Text

ShortTitle 短標 alternateName Thing Text

*FullTitle 完整標題 headline Thing>CreativeWork Text

*Description 描述 description Thing Text

ShortDescription 短描述 -- -- --

*DetailedDescription 詳細描述disambiguatingDes

criptionThing Text

URL URL url Thing URL

ArticleType 文章類型 -- -- --

Dates 日期 -- -- --

*DatePosted 上架日期 dateCreated Thing>CreativeWork Date/DateTime

DateFirstPublished 第一次發布日期 datePublished Thing>CreativeWork Date

DateLastModified 最後修正日期 dateModified Thing>CreativeWork Date/DateTime

DateReleased 釋出日期 -- -- --

*SourceOrganization 資料來源單位 sourceOrganization Thing>CreativeWork Organization

Contributor 提供者 contributor Thing>CreativeWork Organization/Person

伍、結論與建議-3

26

• 文章(Article)內容模式-2

GSA內容欄位 schema.org對應語彙型態

英文 中文 屬性 來源

Author 作者 author Thing>CreativeWork Organization/Person

InLanguage 語言 inLanguage Thing>CreativeWork Language/Text

Audience 讀者 audience Thing>CreativeWork Audience

References 參考資料 -- -- --

*Topics 主題 -- -- --

*ArticleBody 文章主體 articleBody Thing>CreativeWork>Article Text

*ArticleSection 文章段落 articleSection Thing>CreativeWork>Article Text

*-SectionTitle -段落標題 -- -- --

*-SectionBody -段落主體 -- -- --

RelatedMultimedia 相關多媒體 -- -- --

Video 影片 video Thing>CreativeWork VideoObject

Audio 音訊 audio Thing>CreativeWork AudioObject

Image 影像 image Thing ImageObject/URL

AggregateRating 評分 aggregateRating Thing>CreativeWork AggregateRaing

IsBasedOnURL 資料來源URL isBasedOn Thing>CreativeWork URL

RelatedURLs 相關URL relatedLink Thing>CreativeWork>WebPage URL

伍、結論與建議-4

27

• 活動(Event)內容模式-1

GSA內容欄位 schema.org對應語彙型態

英文 中文 屬性 來源

*Title 標題 name Thing Text

ShortTitle 短標 alternateName Thing Text

*Description 描述 description Thing Text

DetailedDescription 詳細描述disambiguating

DescriptionThing Text

*EventType 活動類型 -- -- --

*StartDateTime 開始時間 startDate Thing>Event Date

*EndDateTime 結束時間 endDate Thing>Event Date

*AttendanceType 參與型態 -- -- --

*EventContact 活動聯絡方式 contactPoint Thing>Organization ContactPoint

EventURL 活動URL url Thing URL

ContactEmail 聯絡email email Thing>Organization Text

Sponsor 贊助單位 sponsor Thing>Event Organization/Person

伍、結論與建議-5

28

• 活動(Event)內容模式-2

GSA內容欄位 schema.org對應語彙型態

英文 中文 屬性 來源

*Speaker 講者 performer Thing>Event Organization/Person

*Name 姓名 name Thing>Person Text

*Title 職稱 jobTitle Thing>Person Text

OrganizationAffiliation 所屬單位 affiliation Thing>Person Organization

Biography 自傳 -- -- --

*SpeakerType 講者型態 -- -- --

EventFormat 活動型式 -- -- --

*VenueInformation 場地資訊 location Thing>EventPlace/PostalAddress/

Text

*VenueType 場地型態 -- -- --

*Location 地點 -- -- --

-VirtualAddress -虛擬位址 -- -- --

URL URL url Thing URL

TeleconferenceNumber 電話會議號碼 telephone Thing>Organization Text

VideoconferenceInfo 視訊會議資訊 -- -- --

伍、結論與建議-6

29

• 活動(Event)內容模式-3

GSA內容欄位 schema.org對應語彙型態

英文 中文 屬性 來源

-PostalAddress -實體位址 -- -- --

addressCountry 國家 -- -- --

*addressLocality 地址位置 -- -- --

*addressRegion 地區 -- -- --

*postalCode 郵遞區號 -- -- --

*streetAddress 街名 -- -- --

GeoCoordinates 地理座標 geo Thing>PlaceGeoCoordinates/Geo

Shape

Registratioininformation 註冊資訊 -- -- --

*RegistrationType 註冊型態 -- -- --

*RegistrationCost 註冊費用 -- -- --

RegistrationURL 註冊URL -- -- --

RegistrationNote 注意事項 -- -- --

伍、結論與建議-7

30

• 活動(Event)內容模式-4

GSA內容欄位 schema.org對應語彙型態

英文 中文 屬性 來源

EventMaterials 活動資料 offers Thing>Event Offer

*EventMaterialsType 活動資料型態 -- -- --

*EventMaterialsArtifact 活動資料取得來源 -- -- --

Topics 主題 -- -- --

EventFeedback 活動回饋 -- -- --

Rating 評比 aggregateRating Thing>Event AggregateRating

EventComments 建議 comment Thing>CreativeWork Comment

InLanguage 語言 inLanguage Thing>Event Language/Text

謝謝!敬請指導!

31