1. apraŠomasis duomenų rinkimas, sisteminimas, pateikimas … · 2011-01-14 · statistikos...

35
STATISTIKOS UŽDAVINIAI 1. APRAŠOMASIS Duomenų rinkimas, sisteminimas, pateikimas 2. INFERENCINIS Statistiškai pagrįstų išvadų darymas

Upload: others

Post on 02-Jan-2020

19 views

Category:

Documents


0 download

TRANSCRIPT

STATISTIKOS UŽDAVINIAI

1. APRAŠOMASIS Duomenų rinkimas, sisteminimas, pateikimas

2. INFERENCINIS Statistiškai pagrįstų išvadų darymas

POPULIACIJA IR IMTIS

1. Populiacija, tai aibė objektų, turinčių tyrėją dominančių savybių.

2. Imtis, tai tyrėjo stebima populiacijos dalis. Imtin papuolę populiacijos objektai vadinami stebėjimais.

IMČIŲ SUDARYMO BŪDAI

1. Yra keletas būdų sudaryti imtį.

2. Geros imtys privalo būti reprezentatyvios: atspindėti populiacijai būdingų bruožų proporcijas.

3. Kad būtų reprezentatyvios, imtys turi būti tikimybinės: kiekvienas populiacijos narys turi

turėti vienodą tikimybę būti įtrauktas į imtį.

IMČIŲ SUDARYMO BŪDAI 2

1. Paprastoji atsitiktinė imtis

2. Sistemingoji imtis

3. Sluoksninė imtis

4. Atsitiktinė ir sistemingoji imties paklaidos

KINTAMIEJI

1. Imčių ir populiacijų nariai turi tam tikras savybes (lytį, amžių, pajamas, politines pažiūras). Tos savybės vadinamos kintamaisiais.

2. Kiekvienas imties ar populiacijos narys turi

specifinį kintamojo dydį arba reikšmę.

KINTAMŲJŲ TIPAI

1. Kintamieji gali būti kiekybiniai arba kokybiniai. Kokybiniai kintamieji parodo ar tam tikra savybė yra pastebima imtyje arba populiacijoje.

Kiekybiniai kintamieji parodo ne tiktai ar savybė yra pastebima, bet ir kiek tos savybes pastebima imtyje arba populiacijoje.

KINTAMUJU TIPAI 2

1. Kintamieji gali būti diskretieji arba tolydieji.

Tolydžiųjų kintamųjų reikšmių skirtumas gali būti neribotai mažas (kintamąjį galima skaidyti iki begalybės).

Diskrečiųjų kintamųjų reikšmių skirtumas negali būti mažesnis už tam tikrą dydį.

NOTACIJA 1. Kintamieji paprastai žymimi mažosiomis

lotyniškomis raidėmis: x, y...

2. Konkrečios kintamųjų reikšmės atskiriamos skaitiniais subskriptais: x1, x2, x3...

3. Stebėjimų skaičius imtyje, žymimas raide n. Populiacijos objektų skaičius – N.

4. Išdėstyta didėjimo tvarka, kiekybinio kintamojo duomenų eilutė vadinama variacine eilute: x(1) ≤ x(2) ≤ x(3) ≤ x(n)

MATAVIMŲ SKALĖS

1. Kintamuosius galima matuoti keliose skalėse. Kiekviena jų atskleidžia skirtingą informacijos kiekį apie kintamąjį.

2. Matavimo skalės:Vardų (vyras, moteris...)Rangų (pirmoji vieta, antroji vieta...)Intervalų (laipsnis šalčio, trys laipsniai šilumos...)Santykių (penki litai, šimtas litų...)

APRAŠOMOJI STATISTIKA 1. Aprašomoji statistika leidžia pamatyti ir

“pajusti” statistinius duomenis.

2. Aprašomoji statistika aprašo mus dominancius kintamousius populiacijose ir imtyse (jų dažnius, vidurkius, sklaidas).

3. Kintamųjų savybės populiacijoje yra vadinamos parametrais, o imtyje – statistikomis.

4. Parametrus žymi didžiosios graikiškos raidės,

o statistikas – mažosios lotyniškos.

DAŽNIAI 1. Kai kurie kintamųjų dydžiai imtyje ar populiacijoje

pastebimi dažniau nei kiti.2. Kintamojo dydžio pasikartojimų imtyje ar

populiacijoje skaičius yra to dydžio dažnis: fi (čia i – kintamojo simbolis).

3. Kintamojo dydžio pasikartojimų skaičius, išreikštas kaip nuošimtis visų stebejimų imtyje, yra to dydžio santykinis dažnis: fi/n.

4. Visų kintamojo dydžių, mažesnių arba lygių tam tikram dydžiui santykinių dažnių suma yra to dydžio santykinis sukauptasis dažnis: f1/n + f2/n + ... + fn/n.

DAŽNIŲ LENTELĖS IR GRAFINIAI DAŽNIŲ VAIZDAVIMO BŪDAI

1. Jei stebime diskretųjį kintamąjį ir jei imtyje yra

mažai stebėjimų, kintamųjų dažnius galima pavaizduoti dažnių lentelės pagalba.

4. Duomenys sukaupti dažnių lentelėje yra vadinami dažnių skirstiniu.

2. Jei stebėjimų daug, dažnius patogiau vaizduoti grafinių priemonių, stulpelinės diagramos ar skritulinės diagramos, pagalba.

3. Tolydžiojo kintamojo reikšmių dažniai paprastai parodomi histogramos pagalba.

DUOMENŲ PADĖTIES, SKLAIDOS IR FORMOS CHARAKTERISTIKOS1. Nors dažnių lentelės atskleidžia daug

svarbios informacijos apie kintamųjų požymius, jas ne visada patogu naudoti.

2. Alternatyvus kintamųjų aprašymo būdas remiasi trijų kertinių duomenų charakteristikų apskaičiavimu.

3. Šios charakteristikos apibūdina duomenų padetį, sklaidą ir formą.

PADĖTIES CHARAKTERISTIKOS

1. Duomenų padėties charakteristikos parodo kurioje variacinės eilutės vietoje galima rasti dažniausiai pasitaikančias kintamojo reikšmes.

2. Dažniausiai naudojamos padėties charakteristikos: vidurkis, mediana, moda ir kvantiliai.

VIDURKIS

1. Poluliacijos vidurkis žymimas graikiška raide μ (Miu). Imties vidurkis žymimas kaip “x su brūkšneliu” (Čia x – kintamojo simbolis. Vietoj x gali būti kita raidė)

2. Vidurkis yra abstraktus dydis, kuris yra “mažiausiai nutolęs” nuo visų imties ar populiacijos reikšmių.

3. Imties vidurkis skaičiuojamas pagal formulę:

VIDURKIO SAVYBĖS

1. Svarbiausios vidurkio aritmetinės savybės:

Pasinaikinimas: Σ(Xj – Xbr) = 0

Daugyba iš konstantos: Σ(CXj)/n = Xbr*C

Konstantos pridėjimas: Σ(C + Xj)/n = C + Xbr

GRUPUOTŲJŲ IR TOLYDŽIŲJŲ DUOMENŲ VIDURKIAI

1.Jei diskrečiojo kintamojo reikšmės kartojasi po kelis kartus, vidurkį galima skaičiuoti taip: X

br = x1*f1/n + x2*f2/n ... + xn*fn/n = Σj=1

n(xj*fj/n)

2. Vidurkis turi du trūkumus: jis nenusako duomenų padėties, jei variacinė eilutė yra bimodalinė (“dvikuprė”) arba turi išskirčių (ekstremalių reikšmių).

MODA1. Moda yra tiesiog dažniausiai pasitaikanti reikšmė

variacinėje eilutėje. Žymima Mo.

2. Jei dvi greta esančios variacinės eilutės reikšmės pasitaiko vienodai dažnai (ir abi yra dažniausiai pasitaikančios reikšmės eilutėje) – moda yra tų reikšmių vidurkis.

3. Jei dvi (kelios) vienodai dažnai pasitaikančios (dažniausios) reikšmės nėra greta – variacinė eilutė yra bimodalinė (multimodalinė)

4. Moda geriau nei vidurkis atskleidžia bimodalinių duomenų padėtį variacinėje eilutėje.

MEDIANA

1. Mediana yra vidurinė variacinės eilutės reikšmė. Kitaip sakant, vienodas stebejimų skaičius turi reikšmes mažesnes ir didesnes už medianą. Žymima Md.

2. Mediana geriau nei vidurkis atskleidžia duomenų padėtį eilutėje, kurioje yra išskirčių.

KVANTILIAI1. Kvantiliai suskirsto variacinę eilutę į lygias

dalis, kurių kiekviena turi po vienoda nuošimtį visų stebėjimų.

2. Kvantiliai, suskirstantys variacinę eilutę į ketvirčius, vadinami kvartiliais.

3. Kvantiliai suskirstantys variacinę eilutę į dalis turinčias po vieną procentą visų stebėjimų, vadinami procentiliais.

4. Kvantilių skaičiavimo būdai.

SKLAIDOS CHARAKTERISTIKOS

1. Duomenų sklaidos charakteristikos parodo kaip kompaktiškai ar plačiai yra “išsisklaidžiusi” variacinė eilutė.

2. Dažniausiai naudojamos duomenų sklaidos charakteristikos yra dispersija ir standartinis nuokrypis. Taip pat naudojami: imties plotis, tapkvartilinis plotis ir variacijos koeficientas.

DISPERSIJA1. Dispersija parodo vidutinį atstumą tarp visų

variacinės eilutės stebėjimų ir vidurkio. Dėl vidurkio pasinaikinimo savybės, atstumai yra keliami kvadratu.

2. Populiacijos dispersija žymima graikiška raide sigma σ2(x). Imties dispersija žymima s2(x). (Čia x –

kintamojo simbolis. Vietoj x gali būti kita raidė)

3. Populiacijos dispersijos formulė:

DISPERSIJOS SAVYBĖS

1. Svarbiausios dispersijos aritmetinės savybės:

Sudėtis su konstanta: s2(x+C) = s2(x) Daugyba iš konstantos: s2(Cx) = s2(x)*C2

STANDARTINIS NUOKRYPIS

1. Kad būtų lengviau interpretuoti duomenų skalidą, vietoj dispersijos dažnai naudojama dispersijos kvadratinė šaknis, vadinama standartiniu nuokrypiu. Žymima σ(x) (populiacijai) ir s(x) (imčiai)

IMTIES PLOTIS IR TARPKVARTILINIS PLOTIS

1. Imties plotis yra tiesiog skirtumas tarp didžiausios variacinės eilutės reikšmės (maksimumo) ir mažiausios variacinės eilutės reikšmės (minimumo).

2. Kad išvengti išskirčių įtakos sklaidos matavimui, vietoj imties pločio kartais naudojamas tarpkvartilinis plotis, kuris yra skirtumas tarp trečiojo variacinės eilutės kvartilio (Q3) ir pirmojo kvartilio (Q1).

KITIMO KOEFICIENTAS

1. Kai keli kintamieji yra matuojami skirtingais vienetais, mes negalime palyginti jų sklaidos, naudodami dispersijos ar standartinio nuokrypio. Vietoj šių charakteristikų naudojamas kitas dispersijos matas – kitimo koeficientas. Skaičiuojamas pagal formulę: cv = s/xbr

DUOMENŲ FORMOS CHARAKTERISTIKOS

1. Duomenų formos charakteristikos parodo kaip stebėjimai išsidėstę variacinėje eilutėje: ar

dauguma stebėjimų turi reikšmes variacinės eilutės viduryje ar kraštuose; ar stebėjimai

susitelkę vienoje vietoje, ar išsisklaidę per visą eilutę. Duomenų formos charakteristikos yra ekscesas ir asimetrijos koeficientas.

ASIMETRIJOS KOEFICIENTAS1. Asimetrijos koeficientas, žymimas g

1, parodo

ar dauguma stebėjimų susitelkę variacinės eilutės viduryje ar kraštuose.

2. Kai g1 > 0, stebėjimų reikšmės susitelkusios

dešiniojoje variacinės eilutės pusėje. Kai g

1 = 0, stebėjimai susitelkę eilutės

viduryje, o kai g1< 0 – kairiojoje eilutės pusėje.

3. Įdomus dėsningumas: jei g1 = 0, tai x

br = Md.

EKSCESAS

1. Ekscesas, žymimas g2, parodo ar dauguma

stebėjimų yra susitelkę ties keliomis reikšmėmis, ar išsisklaidę variacinėje eilutėje.

Kai g2 > 0, turime “smailą” dažnių skirstinį.

Kai g2 < 0, turime “buką” dažnių skirstinį, o kai

g2 = 0, dažnių skirstinys nei per “smailas”, nei

per “bukas”.

GRAFINIAI DUOMENŲ CHARAKTERISTIKU VAIZDAI

1. Duomenų charakteristikas galima grafiškai pavaizduoti stačiakampės (uselinės) diagramos, bei šakų ir lapų diagramos pagalba.

NORMALUSIS DAŽNIŲ SKIRSTINYS

1. Jei dažnių skirstinio vidurkis yra xbr, jo

dispersija lygi s2, ir g1 = g

2 = 0, tai šis

skirstinys vadinamas nuormaliuoju. Dar dažnai vadinamas Gauso skirstiniu arba varpo formos kreive.

NORMALIOJO SKIRSTINIO SAVYBĖS

1. Normalusis dažnių skirstinys yra: Simetriškas vidurkio atžvilgiu; Jo funkcija yra apibrėžta visoms x reikšmėms; Visų skirstinio x reikšmių santykinių dažnių suma lygi vienetui.

2. Normalusis skirstinys yra įdomus dėl empirines taisyklės, kuri leidžia apskaičiuoti nomalujį dažnių skirstinį turinčių kintamųjų dydžius ir tų dydžių tikimybes.

EMPIRINĖ TAISYKLĖ1. Jei duomenų dažnių skirstinys yra varpo

formos, tai: Apytiksliai 68% visų duomenų patenka į intervalą x

br +/– s

Apytiksliai 95% visų duomenų patenka į intervalą x

br +/– 2s

Beveik visi duomenys patenka į intervalą x

br +/– 3s

STANDARTIZUOTOSIOS REIKSMES

1. Stadartizuotoji normaliojo dažnių skirstinio variacinės eilutės reikšmė, žymima z, parodo atstumą tarp tos reikšmės ir eilutės vidurkio, išreikštą standartiniais nuokrypiais. Standartizuotosios reikšmės formulė: z

j = (x

j – x

br)/s

IŠSKIRČIŲ APIBRĖŽIMAS1. Standartizuotųjų reikšmių pagalba galima

formaliai apibrėžti išskirtis. Toks variacinės eilutės stebėjimas, kurio standartizuota z reikšmė yra tarp 2 ir 3, yra laikomas sąlygine išskirtimi. Variacinės eilutės stebejimas, kurio standartizuota z reikšmė didesnė už 3, yra laikomas tikrąja išskirtimi.

2. Z reikšmės taip pat leidžia išspręsti paprastus statistinius uždavinukus.