statistický software - masarykova univerzita · brightstat macanova origin statgraphics winpepi...
TRANSCRIPT
2
Software
SPSSR Commander[4]MinitabExcelSPlusRmodelQEDEViews
XploReStatPlusPSPPMedCalcEpi InfoXLStatStatItPrimerMatlabEasyRegWinSPCSTATISTICAPartekMathematicaDataplotWinpepiStatgraphicsOriginMacAnovaBrightStatVisualStatStataOxMetricsJMPBioStatUNISTATSOCR
Ox programminglanguagegretlAuguri
TheUnscramblerSASOriginGolden HelixASReml
SYSTATSalStatOpenEpiGenStatAnalyse-itStatistixRKWard[4]NCSSGAUSSADaMSoftStatsDirectRATSMRDCLGAUSSAcaStat
3
Data miningový software
n Cca 20 až 30 dodavatelůn Hlavní hráči na trhu:
n Clementine, n IBM’s Intelligent Miner, n SGI’s MineSet, n SAS’s Enterprise Miner.
n Řada vestavěných produktů: n fraud detection: n electronic commerce applications, n health care, n customer relationship management
IBM SPSS Modeler(PASW Modeler)
5
SAS
n Společnost SAS Instituten Vznik 1976 v univerzitním prostředí
n Dnes:největší soukromá softwarová společnost na světě (více než 11.000 zaměstnanců)
n přes 45.000 instalacín cca 9 milionů uživatelů ve 118 zemíchn v USA okolo 1.000 akademických zákazníků (SAS
používá většina vyšších a vysokých škol a výzkumných pracovišť)
8
SAS
q Statistická analýza:Ø Popisná statistikaØ Analýza kontingenčních (frekvenčních) tabulekØ Regresní, korelační, kovarianční analýzaØ Logistická regreseØ Analýza rozptyluØ Testování hypotézØ Diskriminační analýzaØ Shluková analýzaØ Analýza přežitíØ …
9
SAS
q Analýza časových řad:Ø Regresní modelyØ Modely se sezónními faktoryØ Autoregresní modelyØ ARIMAØ Metody exponenciálního vyrovnáníØ …
10
SAS
q Více o SASu: http://www.sas.com/offices/europe/czech/
q (neúplný) seznam komerčních společností využívající SAS: http://www.sas.com/offices/europe/czech/reference/list.html
q o akademickém programu: http://www.sas.com/offices/europe/czech/academic/index.html
q o konferenci SAS forum:http://www.sas.com/reg/offer/cz/2010_sas_forum_2010
12
SPSS
n IBM SPSS/ PASW Modeler 13 (dříve Clementine)http://www.spss.cz/ibmspss_modeler.htm
13
SPSS
q Více o IBM SPSS Modeler 13 (dříve Clementine): http://www.spss.cz/ibmspss_modeler.htm
q (neúplný) seznam zákazníků: http://www.spss.cz/zakaznici.htm
q Akademický program: http://www.spss.com/academic/
15
n Více o Statistica Data Miner: http://www.statistica.cz/produkty/5-dataminingove-nastroje/21-statistica-data-miner/detail/
n (neúplný) seznam zákazníků: http://www.statsoft.com/customers/
n Akademický program: http://www.statsoft.com/academic/
n Petra Beranová – Stručný manuál k ovládání programu STATISTICA: http://www.statsoft.cz/download/soubory/STATISTICA_manual.pdf
Statistica
16
Softwaren MS Excel: http://office.microsoft.com/en-us/excel/default.aspx
Věková struktura podnikajicích cizinců
7%
48%38%
4% 1%1% 1%
-19 20-24 25-39 40-54 55-59 60-64 65+
http://office.microsoft.com/en-us/excel/HA100738731033.aspx
17
Softwaren MS Excel:
Počet z id BADscore_k ,00 1,00 Celkový součet good bad all BR WOE
,72 9,42% 23,22% 13,06% 0,721263 9,42% 23,22% 13,06% 46,88% -0,392,73 5,43% 11,15% 6,94% 0,727551 5,43% 11,15% 6,94% 42,35% -0,312,73 9,98% 11,15% 10,29% 0,732201 9,98% 11,15% 10,29% 28,57% -0,048,73 19,51% 20,74% 19,84% 0,734083 19,51% 20,74% 19,84% 27,57% -0,027,74 10,31% 9,29% 10,04% 0,735168 10,31% 9,29% 10,04% 24,39% 0,045,74 11,31% 6,50% 10,04% 0,735632 11,31% 6,50% 10,04% 17,07% 0,240,74 11,09% 7,12% 10,04% 0,736706 11,09% 7,12% 10,04% 18,70% 0,192,74 10,75% 7,43% 9,88% 0,739753 10,75% 7,43% 9,88% 19,83% 0,161,74 12,20% 3,41% 9,88% 0,742267 12,20% 3,41% 9,88% 9,09% 0,554
Celkový součet 100,00% 100,00% 100,00%
score
0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
0,72130,72760,73220,73410,73520,73560,73670,73980,7423-60,00%
-40,00%
-20,00%
0,00%
20,00%
40,00%
60,00%
80,00%
good bad all BR WOE
Lorenzova křivka
00,10,20,30,40,50,60,70,80,9
1
0 0,2 0,4 0,6 0,8 1
Lift
0,0
0,5
1,0
1,5
2,0
0,72 0,73 0,73 0,73 0,74 0,74 0,74 0,74 0,74
18
Software
n Matlab :www.mathworks.com,www.humusoft.cz
19
Softwaren Matlab :
http://www.humusoft.cz/produkty/matlab/matlab/
20
Software -MU
n https://inet.muni.cz/app/soft/licence
n Matlab 2009a: ÚVT MU http://www.muni.cz/ics/services/software
21
GIGO
Ø Garbage in, Garbage out (smetí dovnitř, smetí ven)Ø sebelepší model/proces/software nevyrobí ze
smetí nic jiného než opět smetí.
23
Vizualizace – zdroje
n Na prvním místě se obvykle citují knihy prof. Tufteho, např. Tufte E.R. (1983) The Visual Display of Quantitative Information, Graphic Press, Chesire, Conn.
n Weby o vizualizaci, např.n http://www.math.yorku.ca/SCS/Gallery/noframes.html - galerie s
poučným výkladem a příklady i nezdařených či lživých grafůn http://www.agocg.ac.uk/ - John Lansdown (1992) Aspects of Design
in Computer Graphics: Some Notes –http://www.agocg.ac.uk/train/hitch/hitch.htm
n Jiné weby, např. stránky různých vizualizačních programů a organizacín http://www.cybergeography.org/atlas/atlas.html nebo
http://miner3d.com/products/gallery.html
26
q Florence Nightingale, 1858: důvody úmrtí v průběhu Krymské války (1853-1856)
Vizualizace – historie
28
Vizualizace –investigativní analýza
q http://www.i2inc.com/
» Forensic accounting» Money laundering» Insider trading violations» Corporate security» Anti-pirating investigations» Entertainment copyright violations» Competitive intelligence» Civil lawsuits» Fraud:
» Credit card » Insurance» Retail» Health care» Commercial» Telephone
» Criminal prosecutions» National security» Military intelligence» Embassy security» Postal inspection and fraud» Prison investigations» Park and wildlife services» Antitrust investigations» Tax fraud investigations» Customs investigations
» Counterterrorism» Narcotics investigations» Organized crime» Intelligence analysis» Fraud» Missing persons » Major investigations» Counterfeiting» Immigration control» Major event security» Money laundering» Gang investigations
CommercialGovernmentLaw Enforcement
37
q Lorenzova křivkaBA
AGini+
=
AGini 2=
21_ += Astatc
( )Ginistatc += 121_
Vizualizace – portfolio management
38
Vizualizace - dendrogram
Category % nBad 52,01 168Good 47,99 155Total (100,00) 323
Node 0
Category % nBad 15,82 25Good 84,18 133Total (48,92) 158
Node 2
Category % nBad 0,92 1Good 99,08 108Total (33,75) 109
Node 7Category % nBad 48,98 24Good 51,02 25Total (15,17) 49
Node 6
Category % nBad 86,67 143Good 13,33 22Total (51,08) 165
Node 1
Category % nBad 81,58 31Good 18,42 7Total (11,76) 38
Node 5Category % nBad 97,56 80Good 2,44 2Total (25,39) 82
Node 4Category % nBad 71,11 32Good 28,89 13Total (13,93) 45
Node 3
Credit ranking (1=default)
Paid Weekly/MonthlyAdj. P-value=0,0000, Chi-square=179,6665, df=1
Monthly salary
Age CategoricalAdj. P-value=0,0000, Chi-square=58,7255, df=1
Middle (25-35);Old ( > 35)Young (< 25)
Weekly pay
Social ClassAdj. P-value=0,0004, Chi-square=20,3674, df=2
UnskilledClerical;Skilled ManualManagement;Professional
44
Kartogram
q Obce s počtem 500 a více obyvatel s vysokorychlostním připojením k internetu, podle okresů (%), k 31.12.2006