داده های عظیم چگونه دنیا را تغییر خواهند داد

Post on 16-Apr-2017

1.398 Views

Category:

Data & Analytics

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ا داده های عظیم چگونه دنیرا تغییر خواهند داد؟

فرزاد خندان

fkhandan@Simiagaran.net

09123077032

www.Simiagaran.net

در باره داده های عظیم

Twitter-یک نمونه پردازش

500 در روزتوییتمیلیونمیلیون دارای مختصات جغرافیایی هستند8بیش از ◦

ب کردمی بایست بتوان داده های داخلی و مراجع بیرونی را ترکی.

ازش پرد« عمیق»می بایست بتوان داده های متنی را به صورت.نمود

http://mapd.csail.mit.edu

MapDپروژه

توییترهای پردازش زمان واقعی داده

پشت صحنه چیست؟

مقدمه « ران ماستاین اصل تغییر نیافتنی دو«همه چیز در حال تغییر است .

ی عصر فضای سایبری و ارتباطات دیجیتال به عنوان مشخصه اصلی حاضر، که به عصر دانش و یا عصر اطالعات معروف است، شناخته م

. شود

وامع انسانی پیشرفتهای تکنولوژی در این عرضه تأثیرات عمیقی بر ج. می گذارد

ده شوک آین» شناخت تغییرات تکنولوژیک ما را برای مواجهه با».آماده می کند

(Big Data)داده های عظیم

در هر دو روز، بشر به اندازه کل دوران تمدن. اطالعات تولید می کند2003بشری تا سال

«گوگل، مدیرعامل اشمیتاریک»

زتابایت1/8این یعنی، هر دو سال بیش ازاطالعات تولید

!می شود

داده های تولید شده توسط کاربران، یعنیدر تهاپسو توییتهاعکس، فیلم، پیامهای فوری،

شبکه های مجازی حجم بسیار باالی دارند و . لزوماً ساخت یافته نیستند

داده های عظیم

باال و با به دست آوردن بینش الزم از میان انبوه اطالعات تولید شده، که در حجم باال، با سرعت.آن چیزی است که قبالً میسر بوده استورایتنوع و فراوانی باال در حال تولید هستند

ستفناوری دیجیتال، زندگی ما را تغییر داده ا

روندهای آینده بیش از هشتاد 2020، تا سال (2016)بر اساس گزارش گارتنر

درصد کسب و کارها و فرآیندهای آنها بر اساس داده های عظیم .بازطراحی می شوند

کسب و کارها از طریق سرویس دهنده % 30، بیش از 2017تاهای میانی به داده های عظیم جمع آوری شده از سراسر دنیا

.دسترسی خواهند داشت

ن سرویس های تحلیل های رفتار مشتریا% 20، بیش از 2017تا.فراهم خواهند نمودIoTامکان ردیابی محصوالت را با استفاده از

اینترنت اشیاء

ن انسان هاارتباط بین اشیاء و نه ارتباط بی: پارادیمتغییره قادر خواهد بود با اتصال بفیزیکیشیءهر : مطرح ایده◦

تعامل اشیاسایر، با ارتباطیابزارهایسایرکمکبه یااینترنت.داشته باشد

ایلوساز بسیاریکهمعنا است اینبه اشیاءاینترنتو وظایف، اینترنتروزمره مورد استفاده ما با اتصال به

. ندبگذاراشتراکبا انسان ها به یااطالعات خود را با هم و وجه نگران تمام شدن هیچبه دیگرکهفروشگاهی◦

ار در هر هوشمند انبکنترلسیستم، چون نیستمحصوالتشکارحتیتمام محصوالت مطلع است و موجودیلحظه از

.دهدمیخود انجام نیزسفارش را ه را بگازتاناجاق یاخاموش بودن اتو یامی توانید روشن ◦

.کنیدچککاراز محل هوشمندتانتلفن وسیله

تحولی جهانی

از شرکت های جهان توانایی بهره مندی استراتژیک از داده های خود دارند ٪28فقط

د فاوا هفت برابر سرعت رش،سرعت نفوذ داده های عظیم طی پنج سال گذشته به نسبت.ه استبود

دستاوردهای محسوسند سازمان ها رضایت بسیار زیادی از بکارگیری داده های عظیم دار(Accenture, 2015:)

از سازمان هایی که حداقل یک پروژه داده های عظیم را به سرانجام رسانده اند◦.نتایج بدست آمده بهت زده شده اند

.سازمان های بزرگ از مزایای داده های عظیم بیشتر استفاده کرده اند◦

.تاستفاده از داده های عظیم نیازمند یادگیری گسترده در سطح سازمان اس◦

.داده های عظیم نیازمند استفاده از منابع خارج از سازمان است( در حال حاضر)◦

م است، پیش فرضهای موجود را به ه« ویران کننده»داده های عظیم فناوری ◦.داده های عظیم ظرفیت باالیی برای ایجاد تغییر دارد. می زند

سرمایه گذاری در داده های عظیم

تغییرات ویران کننده

چه چیزی این داده ها را جمع آوری می کند؟Web Browsers Search Engines

Microsoft’s

Internet Explorer

Mozilla’s FireFox

Google’s Chrome

Apple’s Safari

Google’s

Microsoft’s

Yahoo’s

IAC Search’s

AOL Explorer

(Non-profit foundation,

used to be Netscape)

چه چیزی این داده ها را جمع آوری می کند؟Smartphones & Apps Tablet Computers & Apps

Apple’s iPhone

(Apple O/S)

Samsung, HTC.

Nokia, Motorola

(Android O/S)

RIM Corp’s Blackberry

(BlackBerry O/S)

Apple’s iPad

Samsung’s Galaxy

Amazon’s Kindle Fire

چه چیزی این داده ها را جمع آوری می کند؟

Games Boxes and GPS Systems Internet Service Providers

چه چیزی این داده ها را جمع آوری می کند؟HDTV’s and Blu-Ray Players with built-in Internet connectivity

Movie Rental Sites

چه چیزی این داده ها را جمع آوری می کند؟

HOSPITALS & OTHER MEDICAL SYSTEMS

BANKING & PHONE SYSTEMS

Can you hear me now?

(Heh heh heh!)

Pharmacies

Laboratories

Imaging Centers

Emergency Medical Services (EMS)

Hospital Information Systems

Doc-in-a-Box

Electronic Medical Records

Blood Banks

Birth & Death Records

چه چیزی این داده ها را جمع آوری می کند؟

A REAL PAIN IN THE APPS!WHAT ARE THEY COLLECTING?

Restaurant reservations (Open Table)

Weather in L.A. in 3 days (Weather+)

Side effects of medications (MedWatcher)

3-star hotels in New Orleans (Priceline)

Which PC should I buy and where (PriceCheck)

داده ها را جمع آوری می کند؟کسی این چه

GOVERNMENT AGENCIES

BIG PHARMACEUTICAL COMPANIES

چه کسی این داده ها را جمع آوری می کند؟CONSUMER PRODUCTS COMPANIES BIG BOX STORES

چه کسی چه چیزی جمع آوری می کند؟

CREDIT CARD COMPANIESWHAT DATA ARE THEY GETTING?

Restaurant check

Grocery Bill

Airline ticket

Hotel Bill

کجاست؟« داده های عظیم »

WHERE IS BIG DATA?

Source: IBM

متغییر در پارادای: داده های عظیم

Source: IBM

متغییر در پاردای: داده های عظیم

Source: IBM

متغییر در پاردای: داده های عظیم

Source: IBM

متغییر در پاردای: داده های عظیم

Source: IBM

31

زنجیره ارزش داده های عظیم

33

فناوری های داده های عظیمکالسترهای پردازش و ذخیره سازی داده

رایانش ابری◦ابر خصوصی◦

پردازش و ذخیره سازی توزیع شده◦HDFS

◦Hadoop Map-Reduce

◦Spark

بانک های اطالعاتی جدید◦NoSQL

◦NewSQL

◦Graph DB

◦Column Based DB

◦In Memory DB

◦Granual Optimization

فناوری های داده های عظیمامنیت داده در عین حفظ کارایی و سرعت پردازش◦CryptDB

بازبینی و تمیز کردن داده ها◦Wrangler

نگرش های جدید–داده ها تجمیع

سامانه های تحلیل داده هاهای سریعالگوریتم◦فشرده سازی داده ها◦ابزارهای یادگیری ماشینی◦خالصه سازها◦

هادوپ چیست؟که هادوپ یک چارچوب برنامه نویسی متن باز مبتنی بر جاوا است

ع امکان پردازش حجم بزرگی از داده ها را در یک محیط پردازشی توزی.شده فراهم می کند

با هادوپ، می توان سامانه هایی با هزاران گره پردازشی راه اندازی.کرد که هزاران ترابایت داده را پردازش نمایند

ی هادوپ عالوه بر امکان ذخیره سازی، امکان ایجاد روند هایی مبتن.را برای پردازش داده ها فراهم می سازدMapReduceبر

آمده است( یک فیل)نام هادوپ، از نام عروسک دختر سازنده آن.

Hadoop Ecosystem

Hadoop Distributed File System

MapReduce

MapReduce is a framework for processing parallelizable

problems across huge datasets using a large number of

computers (nodes), collectively referred to as a cluster

or a grid.

Word Count Execution

NoSQL

Key-value

Graph database

Document-oriented

Column family

Performance Problem?

Modern DBMS

هاداده های عظیم و استارتاپ

یماستارتاپ های مبتنی بر داده های عظ

◦ Business Focus: Taxi & Passenger Delivery

◦ Uber predicts where do you want to go!

◦ Uber offers the best match for staff through analytics.

◦ Dynamic pricing using Big Data analytics.

یماستارتاپ های مبتنی بر داده های عظ

◦ Business Focus: Find the best places to eat, drink, shop, or visit in any city in the world

◦ Recently came alive using Big Data analytics.

◦ Uses Big Data analytics to offer places to go.

یماستارتاپ های مبتنی بر داده های عظ

◦ Business Focus: Connect the apps you use, automate tasks, get more out of your data.

◦ Uses qualitative data and data mining to offer app integration and Zaps.

ماستارتاپ های ارائه دهنده محصوالت داده های عظیStartpu Service/Product Funding/Valuation

(Million US$)

Cloudera Big Data Full Stack Bundles & Professional Services

$1040

Palantir Technologies Analytics applications $950

Domo Cloud-based business intelligence

$450

MongoDB NoSQL database platform $311

InsideSales.com Cloud-based predictive analytics

$199

Mu Sigma Data-Science-as-a-Service $195

DataStax Apache Cassandra-based platform

$190

Dataminr Social media analytics $180

توصیه هایی برای استارتاپهاامسیر خلق مزیت رقابتی مبتنی بر داده های عظیم برای استارتاپه:.مشتری داده خود را شناسایی کنید◦.داده ای را که مشتری نیازمند است پیدا کنید◦.داده را بسازید، یا بخرید◦.بر روی نحوه مصورسازی داده یا واسط کاربری مناسب تمرکز کنید◦.کل فرآیند را خودکار کنید◦

موانع موفقیت استارتاپها در استفاده از داده های عظیمکمبود استعدادهای الزم◦از دست دادن تمرکز◦عدم توانایی در یافتن فرصتهای واقعی کسب و کار◦عدم جذب سرمایه مناسب◦

مونهآشنایی با یک پلتفرم ن

بیگ دیتا و رایانش ابریهای در مشکالت بر سر راه شرکت های کوچک و متوسط، استارتاپها، شرکت

حال رشدشان فراهم کارکنان با استعداد از دست می روند، زیر امکانات کافی را نمی توانیم برای◦

.کنیم.بخش عمده وقت استعدادهای شرکت صرف نگهداری از زیرساخت می شود◦ایی قطعات و فناوری ه« به هم چسباندن»بسیاری از وقت و هزینه شرکت ما صرف ◦

!می شود که به طور معمول می بایست با هم کار کنند!سر تیم ما شلوغ است◦چه کار کنیم؟! برابر می شود10تعداد مشتریان و مشترکان دارد !!! ای وای◦هر حال االن در حال تست هستیم و خیلی نیاز به منابع گرانقیمت نداریم، ولی به◦

.حداقل ها را باید برای زیرساخت آماده کنیم که خیلی گران است

رایانش ابری:پاسخ!!!

رایانش ابریرایانش ابری راهی بهتر و ارزان تر برای ارائة سرویس های فناوری اطالعات است .

.منابع رایانشی از خارج از بنگاه تأمین می شوند◦.از طریق اینترنت قابل دست یابی هستند]معموالً[منابع رایانشی ◦. هزینة استفاده از منابع متغیر است◦.منابع در دسترس با هزینه پایین و در زمان اندک مقیاس پذیر هستند◦

محسنات رایانش ابری(Service Driven)خدمت محور ◦

(Self Healing)تحمل پذیری خطا ◦

(Multi-Faceted)چند جنبه ای ◦

(Virtual)مجازی سازی ◦

(Data Management)مدیریت داده ◦

هزینة راه اندازی ناچیز◦(Scalable)مقیاس پذیر ◦

استقالل از وسیله◦تداوم و قابلیت اعتماد◦

IBM BlueMixشده پلترفرم رایانش ابری آی بی ام که به صورت یک بازار طراحی

.است

رابط کاربری آسان

رایگان برای تمرین و آشنایی و ایجاد سرویس های اولیه(Proof of Concept)

هزینه های پایین برای راه اندازی سرویس های جدی کسب و کار

سرویس های بسیار متنوع

ارائه سرویس های داده های عظیم

مخابرات: کاربردها

داده های عظیم و مخابراتOpen Signal: معرفی طرح

www.opensignal.com

راتچالشهای پیش روی صنعت مخاب

Telecoms.com: منبع

اتبکارگیری داده های عظیم در مخابر

حوزه های بکارگیری

لصنعت حمل و نق: کاربردها

و نقلوحملداده های عظیم تاس« هوشمندترشبکه »، پارادایم آینده ریلیدر حمل و نقل.

حوزه های بسیار مورد توجه عبارتند از:چند کاربردی بودن◦

مواجهه با محدودیت ها◦

کاهش هزینه و افزایش درآمد◦

هدف گذاری هوشمندانه◦

قابلیت تطبیق با نیازهای بازار◦

Union Pacific Railroadدستاوردهای داده های عظیم در

استفاده از تحلیل پیش بینی کننده(Predictive Analysis )کاهش حوادث % 75–برای کاهش خارج شدن قطار از خط

با تحلیل های افزایش ظرفیت حمل بارReal Timeتعمیرات ناگهانی◦استفاده از اطالعات هواشناسی◦برنامه ریزی هوشمندانه◦پیش بینی و علت یابی حوادث◦

(کمپانی برتر دنیا10قرار گرفتن در میان )کاهش آلودگی کربن

کاربردها در صنعت حمل و نقلمکانیابی و برنامه ریزی سیر و سفر

ردیابی و بهینه سازی مسیر

تعمیرات پیشگویانه

بهینه سازی مصرف سوخت

مصورسازی مسیرها و عملیات

کاهش آلودگی و پاکیزه سازی محیط زیست

خدمات ارزش افزوده

بانکها: کاربردها

داده های عظیم و مؤسسات مالی

بر اساس مطالعه ای در آمریکای شمالی ،ل مؤسسات مالی باور دارند که تحلی% 60

های مبتنی بر داده های عظیم منجر به % 90. مزیت رقابتی قابل توجه خواهد شد

یک این مؤسسات معتقد هستند که داشتنده طرح موفق مبتنی بر داده های عظیم برن

.ها را در آینده تعیین خواهد کرد

م بانک هایی که از رهیافت داده های عظیده می برای تحلیل داده های مشتریان استفا

% 12تا % 4کنند، بسته به عمق تحلیل، بین ددر سهم بازار از سایر رقبا جلوتر هستن

افزایش مشتری محوری در بانک

بتحلیل پیشرفته و کشف تقل

اعتبار سنجی

ی های مالاستارتاپیکی از موفقترینKreditech:جهان

(یورو2500تا سقف )ارائه وام خرد ◦8ر و پرداخت فقط داعتبارسنجیانجام فرآیند ◦

ثانیه

های مورد استفاده، توسط الگوریتمنخبگان علم داده های عظیم در دانشگاه

MITطراحی شده است.

LinkedIn: کاربردها

Social Graph

Search

Recommendations: People

Recommendations: Jobs

Recommendations: Newsfeed

Data Normalization

Analytics

داده های عظیم، همکاری های بین المللی

Scheveningen Memorandum (Sep 2013)

Eurostat Task Force Big Data

ESS Task Force on Big Data

Big Data Action Plan and Roadmap ◦ Part of ESS Vision 2020 portfolio

ESSNets / Pilots – 2016-2020

Policy Quality Skills

Experience sharing

LegislationIT

Infrastructures

MethodsEthics /

CommunicationPilots

T O P I C S

Action plan and roadmap

Global Working Group on Big Datafor Official Statistics: Task teams

◦ Mobile phone data

◦ Satellite imagery

◦ Social media data

◦ Access / partnerships

◦ Advocacy / communication

◦ Big Data and SDGs

◦ Training / skills / capacity building

◦ Cross-cutting issues

top related