bulletin nr. 66 juni 2010 · 3 swiss statistical societs"ulletin.r article the statistics s =...

24
BULLETIN NR. 66 JUNI 2010 SWISS STATISTICAL SOCIETY www.stat.ch

Upload: others

Post on 27-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

BULLETIN NR. 66 JUNI 2010

SWI SS STATI STICAL SOCI ETYwww.stat.ch

Page 2: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times
Page 3: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

1

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

EDITORIAL

Liebe Statistikerinnen und Statistiker

Die Fussballweltmeisterschaft 2010 in Südafrika ist zur-zeit das Hauptgesprächsthema in Büros und Strassen. Nicht wenige der Personen, die täglich über die neusten Spielergebnisse diskutieren, sammeln für sich oder ihre Kinder Panini-Bilder, mit dem Ziel, ein komplettes Album zu erhalten. Sylvain Sardy und Yvan Velenik von der Uni-versität Genf untersuchen in ihrem Beitrag das Vorurteil nachdem bestimmte Panini-Bilder sehr selten seien und entwickeln eine effektive Strategie, um möglichst billig zu einem kompletten Album zu kommen.

In die Welt der Wahrscheinlichkeitsrechnung entführt uns Steven Strogatz von der Cornell University. Er veranschau-licht, wie wir bedingte Wahrscheinlichkeiten einfacher ver-stehen können, wenn wir mit absoluten Zahlen argumen-tieren.

Bernard Spichtig vom statistischen Amt des Kantons Basel-Stadt diskutiert in seinem Artikel Methoden und Software zur räumlichen Darstellung von Daten der öffent-lichen Statistik. Er zeigt Beispiele für die trinationale Metro-politanregion Basel. Dieser Artikel würde für die nächsten Schweizer Tage der öffentlichen Statistik vom 18. bis 20. Oktober in Neuenburg passen, die unter dem Hauptthema „Die öffentliche Statistik im Wandel“ durchgeführt werden. Ein Einladungsschreiben für die Anmeldung finden sie in diesem Bulletin.

Thomas Holzer

[email protected]

Chères statisticiennes, chers statisticiens,

Le Mondial de football est actuellement le sujet de conver-sation incontournable à son lieu de travail, dans la rue et dans les ménages. Qui ne parle pas des vedettes du bal-lon rond, des enjeux, de l’argent dépensé pour organiser le championnat, du temps passé devant le petit écran, d’un geste magnifique d’un footballeur et qui n’a pas coll-ectionné avec effervescence les figurines Panini et essayé de remplir tant bien que mal l’album pour ses enfants ou de manière détournée pour assouvir sa propre passion du football ? Sylvain Sardy et Yvan Velenik de l’Université de Genève se sont intéressés à l’impression de rareté de certaines figurines qu’ont les collectionneurs et ont déve-loppé une stratégie pour remplir à moindres frais l’album.

Steven Strogatz de l’Université de Cornell nous emmène dans le monde du calcul de la vraisemblance. Dans son article, il illustre de quelle manière nous pouvons com-prendre plus facilement la vraisemblance conditionnelle devant être argumentée par des nombres absolus.

Finalement, Bernard Spichtig de l’Office cantonal de la statistique du canton de Bâle-Ville décrit dans son article différentes méthodes et présente plusieurs logiciels pour représenter graphiquement dans l’espace des données provenant de la statistique publique. La région rhénane couvrant la France, l’Allemagne et la Suisse allemande en constitue une illustration idéale. Cet article serait un bon exemple pour les prochaines Journées suisses de la sta-tistique publique qui auront lieu du 18 au 20 octobre à Neuchâtel sous le thème "La statistique publique en mu-tation". D’ailleurs, vous trouverez un bulletin d’inscription dans ce bulletin.

Bonne lecture !

Thomas Holzer

Page 4: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

2

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

Paninimania: sticker rarity and cost-effective strategy

Sylvain Sardy and Yvan [email protected], [email protected]

Section de mathematiquesUniversite de Geneve

Abstract

We consider some issues related to the famous Panini stickers devoted to the footballworld cup. In particular, we address the following questions: is there a planned shortage ofsome stickers? What is a good cost-effective strategy to fill in an album?

1 Introduction

The collectors’ frenzy over Panini’s stickers is now almost a tradition with each new footballworld cup [1]. In this note we discuss the alleged rarity of certain stickers (famous players, etc.)and propose a cost-effective strategy.

For the purpose of the discussion below, we recall that in Switzerland the stickers can bepurchased in three different ways: buying one packet of 5 different stickers for CHF 1; buying onebox of 500 different stickers1 for CHF 100 (actually prices as low as CHF 70 can be found); buyingspecific individual stickers directly from Panini at a cost of CHF 0.30 apiece with, however, alimitation to at most 50 stickers. The album comprises 660 different stickers.

2 Rare stickers: a myth?

2.1 Testing for uniformity

To test whether all 660 stickers appear with the same frequency, 12 boxes (three in four differentSwiss cantons) of 100 packets containing each five different stickers have been collected, whichamounts to a total of 6000 stickers. Because of the dependence induced by the fact that stickersbought in a single box are all different, we cannot perform a standard chi-square test. Instead,we perform a Monte-Carlo simulation to estimate the null distribution under the hypothesisthat stickers are uniformly distributed overall with the constraints that there are no duplicatesneither within a packet nor within a box. Hence we generate 12 independent boxes with suchconstraints, count the total number of times Ni, i = 1, . . . , 660, each sticker occurs, and calculate

1Although this is true for the analyzed boxes, it seems that some boxes may occasionally contain a fewduplicates. We ignore this issue here.

1

Page 5: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

3

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

the statistics

S =660∑i=1

(Ni − ei)2

eiwith ei =

6000660

.

Repeating this experiment M = 104 times provides an estimate of the null distribution that weplot on the left graph of Figure 1. The statistics s = 138 calculated on the collected stickers isalso plotted and amounts to a p-value of 0.9974, so that we do not reject the null hypothesisthat stickers are uniformly distributed.

Interestingly the p-value is large, which can be explained by the fact that in two of thefour cantons, it was possible to complete an entire album by buying three boxes. If boxes wereindependent of each other the probability of such an event would be very small:

160∑k=0

(k

160

)(500−k500

)(340+k500+k

)(550660

)2 � 3.7 10−5. (1)

Looking at the serial number of the boxes reveals that successive boxes seem to be dependent,which violates the assumption of the previous test. For a more accurate test, we start bydropping the data from the two cantons where we were able to complete an entire album, andrepeat the test. The right graph of Figure 1 now shows the estimated null distribution alongwith the statistics s = 168.44 based on the 3000 measurements. The p-value is now 0.1235, sothat we still do not reject the null hypothesis.

Data from 4 cantons

s

Dens

ity

130 140 150 160 170 180 190

0.00

0.01

0.02

0.03

0.04

O

Data from 2 cantons

s

Dens

ity

120 140 160 180

0.00

0.01

0.02

0.03

0.04

O

Figure 1: Density estimate of the distribution of the statistics S under the null hypothesis thatstickers are uniformly distributed along the value of the statistics calculated from the data:(left) based on the 6000 stickers of 4 cantons, in which case the independence assumption seemsviolated by boxes with successive serial numbers; (right) based on 3000 stickers of 2 cantons.

2

Page 6: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

4

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

Number of packets bought 233 +233 +233 +233Number of different stickers obtained 550 +90 +17 +3

Table 1: Single person scenario. Average number of different stickers obtained as a function ofthe number of packets bought.

2.2 How to explain the myth

Most people who try to fill in the Panini album believe some stickers are indeed rare [1]. Toexplain the myth, we considered two scenarios and made some calculations.

Consider first the situation where a single person buys independent packets of five stickers.The average number of packets he needs to complete the album is 931 as one can read on Figure 2.And on average, with one fourth (i.e., 233 packets), he can obtain 550 different stickers; withanother 233 packets, he can obtain 640 different stickers; with another 233 packets, 657 differentstickers; finally another 233 packets are needed to complete the album with 660 different stickers.These average calculations are summarized in Table 1. Hence the last three stickers missing seemrare since it takes so long to get them.

Let us turn now to a more realistic scenario which takes into account sticker swapping.To model swapping we consider optimal swapping between k individuals who buy their cardstogether until they fill k albums. Other swapping procedures could also be considered (e.g., eachindividual swapping his duplicates for missing cards), but this would lead to less cost effectivestrategies.

Consider ten friends who buy 100 packets each, one by one (as opposed to buying boxes) andperform optimal swapping. Since a total of 5000 stickers are bought, one has the feeling that itis unlikely that at least one sticker is missing to all the ten friends. But calculations show thatthis event actually occurs slightly more than 25% of the time. Hence, a group of friends thathas at least one sticker missing will incorrectly believe that these stickers are rare.

3 Strategies

3.1 Without swapping

Consider first the situation of a person trying to fill in his album without swapping stickers.This version is very reminiscent of the classical coupon collector problem [3, Section IX.3]. Inthe latter, one of n different coupons is obtained when buying one instance of some product;how many instances are necessary in order to complete the collection? This problem can easilybe solved explicitly, yielding in particular an expected number of required purchases equal ton(1 + 1

2 + · · · + 1n) � n(log n + 0.577). In particular for n = 660, this leads to approximately

4666.3 stickers, or CHF 933.27.In our case, the situation is slightly more complicated, since 5 different stickers are obtained

each time a packet is purchased. Of course, one should not expect the latter constraint toaffect significantly the conclusion, since 5 objects sampled (with replacement) from a pool of660 objects are all different with probability

(6605

)/6605 � 0.985. This situation has also been

3

Page 7: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

5

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

treated analytically [4, 2] yielding for example an expectation of the number of required packetsof five stickers equal to

(6605

) 660∑j=1

(−1)j+1

(660j

)(6605

)−

(660−j

5

) � 930.84.

3.2 Effect of swapping

Let us now turn to the effect of swapping on the overall expected cost of filling an album. Asabove we consider optimal swapping between k individuals. Figure 2 shows the evolution of theexpected cost per collector as a function of k.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Number of persons

200

300

400

500

600

700

800

900

1000

Exp

ecte

d n

um

ber

of

requir

ed p

acke

ts p

er

per

son

Figure 2: Average number of packets each of k persons have to buy in order for all of them tocomplete their album, under an assumption of optimal swapping. Notice that in the limitingsituation of an infinite number of friends, this minimal number is actually equal to 132 = 660/5;this value corresponds to the horizontal axis in the picture.

3.3 A good strategy

In order to devise a reasonable strategy, we use the facts that it is possible to buy boxescontaining 500 different stickers for a price of CHF 70−100, depending on the vendor, and that

4

Page 8: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

6

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

it is possible to buy from Panini up to 50 specified stickers for a unit price of CHF .30 each.Numerical computations suggest the following strategy, when swapping with 9 other persons:

1) buy a box, 2) buy 40 additional packets and swap the duplicates until at most 50 stickers aremissing from your collection, 3) order the missing stickers from Panini. The cost of this strategyis between CHF 125 and CHF 155, depending on the price of the box.

If one ignores swapping, it is possible to derive analytically the optimal strategy [4].

References

[1] A bon entendeur, Television Suisse Romande, 18 mai 2010,http://www.tsr.ch/emissions/abe/1968926-foot-abe-met-le-maillot-et-sort-son-album-panini.html#1968926

[2] Adler, Ilan and Ross, Sheldon M.: The coupon subset collection problem, J. Appl. Probab.38 (2001), no. 3, 737–746.

[3] Feller, William: An introduction to probability theory and its applications. Vol. I., Thirdedition John Wiley & Sons, Inc., New York-London-Sydney 1968.

[4] Stadje, Wolfgang: The collector’s problem with group drawings., Adv. in Appl. Probab. 22(1990), no. 4, 866–882.

5

What if you could join the 85% of businesses turning to advanced analytics for improved revenue growth?

85% of businesses turning 85% of businesses turning 85% of businessesto advanced analytics for improved revenue growth?

You can. SAS gives you The Power to Know.®

SAS Analytics uses your data to reveal patterns, anomalies, key variables and relationships that ultimately lead to valuable insights and better answers faster.

SAS® AnalyticsStatistics | Data Mining | Data Visualization | Forecasting and Econometrics |

Operations Research | Model Management and Deployment | Quality Improvement | Text Analytics

SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies. © 2010 SAS Institute Inc. All rights reserved. 50617US.0510

www.sas.com/analyticsfor a free interactive tour

Page 9: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

7

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTIKEL

Bernard Spichtig, Statistisches Amt des Kantons Basel Stadt, [email protected]

1.) Einleitung / ZieleDas Interesse an zuverlässigem Zahlenmaterial über die Nachbarn auf der anderen Seite der Landesgrenze ist gross und seit der Stärkung von Grenzregionen1 durch die EU wichtiger denn je. Gerade in Basel, wo die Landes-grenzen praktisch durch die Stadt verlaufen, muss für ver-schiedenste Fragestellungen auf Daten der Nachbarlän-der zurückgegriffen werden. Des Weiteren beweisen auch die anhaltend starken Grenzgängerströme von Frankreich und Deutschland, dass ein ungebrochenes Interesse am attraktiven Arbeitsmarkt der Schweiz im Allgemeinen und von Basel im Speziellen vorhanden ist.

Alle diese Tatsachen führten zu einer Anstrengung des Statistischen Amts des Kantons Basel-Stadt, eine Daten-bank mit wichtigen grenzüberschreitenden Datensätzen aufzubauen. Aus den Bereichen Bevölkerung, Arbeits-markt und anderen ausgewählten Thematiken werden mittlerweile Daten der drei Länder zusammengeführt und mit Metadaten beschrieben.

Das gesamte Untersuchungsgebiet umfasst insgesamt knapp 1800 Gemeinden mit einer Gesamtfläche von ca. 22 000 km2. Das entspricht dem Mandatsgebiet der Ober-rheinkonferenz (ORK)2 , welches die Region Elsass, die Region Baden, Teile des Bundeslandes Rheinland-Pfalz sowie fünf Schweizer Kantone3 umfasst. Die in diesem Artikel verwendeten Kartenausschnitte stellen aber nicht den gesamten Perimeter dar.

Der Kanton Genf 4 durch das OCSTAT, die Grenzregion entlang des Jura (Arc Jurassien)5 sowie die Anrainer-staaten des Bodensees6 unterhalten schon seit längerer Zeit ähnliche Projekte, wie sie in diesem Artikel für das Beispiel Basel beschrieben werden.

Räumliche Fakten sichtbar machen. Grenzüberschreitende Statistik am Beispiel der trinationalen Metropolitanregion Basel

2.) Geodaten, Sachdaten, Metadaten: wie man die Unterschiede beschreibtDas Zusammenführen der nationalen Geodaten wird hier nicht weiter erläutert. Es sei an dieser Stelle Herrn Boris Stern vom Expertenausschuss Kartographie (GISOR) 7 der ORK für die Bereitstellung von grenzüberschreitenden Geobasisdaten in Form generalisierter Gemeindegrenzen gedankt. Diese Geometrien der Gemeinden beziehen sich auf einen Massstab von 1:100 000, was für die Visualisie-rung von Daten der öffentlichen Statistik durchaus genü-gend ist.

Für die Beschreibung der Unterschiede statistischer Da-ten der öffentlichen Verwaltung verschiedener Länder wer-den so genannte Metadaten verwendet. Diese beschrei-ben qualitativ die unterschiedlichen Methodiken, Definiti-onen und nationalen Eigenheiten der erhobenen Daten. In unserem Fall enthalten die Metadaten typischerweise folgende Attribute: Datenquelle, Erhebungsjahr, Berichts-zeitraum, Regionale Tiefe, Art der Erfassung, Autor, Be-merkungen etc. Diese beschreibenden Qualitätsmerkmale einer Datenreihe erlauben es schlussendlich, (subjektive) Aussagen über die Vergleichbarkeit der Statistiken zu ma-chen.

Eine bedeutende Quelle von Metadaten befindet sich auch auf der Webseite von EUROSTAT8 . Auf dem Meta-datenserver RAMON9 befinden sich neben standardisier-ten Codelisten, Nomenklaturen und Klassifikationen auch Handbücher und Glossare für nahezu alle öffentlichen Statistikbereiche für die Länder der Europäischen Union.

Folgende Tabelle zeigt einen Ausschnitt aus den Meta-daten, wie sie im grenzüberschreitenden Statistik-Projekt von Basel-Stadt oft verwendet werden. Da sich die Sta-tistiken, in der Schweiz vor allem im Rahmen der neuen Volkszählung, im Wandel befinden, ist eine konstante An-passung der Metadaten notwendig.

1 INTERREG des Europäischen Fonds für regionale Entwicklung (EFRE) . 2 Deutsch-Französisch-Schweizerische Oberrheinkonferenz ORK. www.oberrheinkonferenz.org3 Auf Schweizer Seite gehören die Kantone Aargau, Basel-Land, Basel-Stadt, Solothurn und Jura zur ORK.4 Observatoire statistique transfrontalier, Espace franco-valdo-genevois. www.statregio-francosuisse.net5 Observatoire statistique transfrontalier de l’Arc Jurassien. www.ostaj.org6 Statistik für die EUREGIO Bodensee. www.statistik.euregiobodensee.org/ 7 SIGRS – GISOR Geographisches Informationssystem für das Gebiet des Oberrheins. www.sigrs-gisor.org 8 Statistisches Amt der Europäischen Union mit Sitz in Luxemburg. http://epp.eurostat.ec.europa.eu/9 RAMON, Metadatenserver von EUROSTAT. http://ec.europa.eu/eurostat/ramon

Page 10: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

8

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTIKEL

3.) Datenhaltung und Visualisierung Durch die Modellierung der hierarchischen Beziehungen der administrativen Einheiten der drei Länder, kann der räumliche Fokus jederzeit der Fragestellung angepasst werden. Es sind somit ab Stufe Gemeinde alle möglichen Aggregationen und räumlichen Abfragen möglich. Aus diesem Grund wird versucht, die Daten der öffentlichen Statistik wo möglich auf Gemeindeebene zu erhalten und in der Datenbank zu implementieren.

Für die Diffusion und die Analyse der Ergebnisse wird vor allem auf die kartografische Darstellung zurückgegriffen. Die Karte als Hilfsmittel für die Interpretation von Daten bringt zahlreiche Vorteile:

a) Sie erlaubt eine schnelle Einschätzung und Voranaly-se des Untersuchungsraums anhand einiger charak-teristischer Thematiken (Zum Beispiel: Bevölkerungs-stand, Jugendquotient, Anzahl Beschäftigte am Ar-beitsort etc.).

b) Je nach Grösse und regionaler Tiefe des zu untersu-chenden Raumes kann die Analyse sehr schnell meh-

rere hundert Gemeinden umfassen. Eine Diffusion der Ergebnisse via Karte erhöht nicht nur die Lesbarkeit der dargestellten Thematik, sondern steigert auch das Interesse am gemeinsamen (grenzüberschreitenden) Lebens- und Wirtschaftsraum.

c) Flussbeziehungen (Zum Beispiel: Pendler, Grenzgän-gerströme, Räumliche Bevölkerungsbewegung) lassen sich mittels thematischer Kartografie spontan und un-bewusster erfassen.

Neben den hier abgedruckten statischen Karten erlauben webbasierte dynamische Karten einen noch intuitiveren Zugang zu den Daten. So ermöglicht die thematische Kartografie im Internet auch weniger geübten Anwendern raum-zeitliche Abfragen und Analysen. Das Statistische Amt des Kantons Basel-Stadt setzt in Zukunft auf das Pro-dukt Geoclip11 für die Diffusion und Analyse räumlicher Daten. Diese Applikation wird bereits von vielen interna-tionalen12 aber auch kantonalen statistischen Ämtern 13 mit Erfolg verwendet. Durch die enge Kopplung von Daten und Metadaten ist dieses Produkt insbesondere für grenz-überschreitende Darstellungen geeignet.

METADATEN

Attribute / Land: Deutschland Frankreich Schweiz

Titel: Bevölkerungsdichte Densité de population BevölkerungsdichteBerichtszeitraum: 01.01.2005 01.01.2006 01.01.2005Erhebungszeitpunkt: am Stichtag am Stichtag am StichtagBeobachtungsraum: Mandatsgebiet der Oberrheinkonferenz ORKRegionale Tiefe: Politische Gemeinde Commune Politische GemeindeBerechnung: Einwohner / Einwohner / Einwohner Gemeindefläche in Gemeindefläche in Gemeindefläche in Quadratkilometer Quadratkilometer QuadratkilometerMath. Einheit Einw. / km2 Einw. / km2 Einw. / km2

Datenquellen: Statistisches Landesamt INSEE Alsace, Bundesamt für Statistik, Baden-Württemberg, Stuttgart; Strasbourg Neuchâtel Statistisches Landesamt Rheinland-Pfalz, Bad EmsName der Bevölkerung nach der Population légales Statistik des jährlichennationalen Statistik: Bevölkerungsfortschreibung Bevölkerungstandes (ESPOP)

Tabelle 1: Auszug aus einer Metadatentabelle zur Beschreibung von Bevölkerungsstatistiken.

11 Geoclip. Intuitive and smart cartography. www.geoclip.fr12 INSEE, Institut national de la statistique et des études économique. www.statistique-locales.insee.fr13 Cartographie statistique du canton de Neuchâtel. www.ne.ch

Page 11: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

9

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTIKEL

Abbildung 1: Bevölkerungsdichte (Einwohner / km2) für das Jahr 2006 (siehe dazu auch den Metadatenauszug in Tabelle 1). Gut sichtbar sind die Agglomerationszentren Basel, Mulhouse und Freiburg im Breisgau sowie die Städte des Mittelandes (Aarau, Olten, Baden). Des Weiteren zeigen sich gut die sehr dünn besiedelten Gebiete auf den Jurahöhen, im Schwarzwald und in den Vogesen.

10 Die Berechnung des Gastner/Newman Algorithmus erfolgte durch Scapetoad. http://scapetoad.choros.ch/

Abbildung 2: Die Grösse der Polygone gibt die Anzahl Einwohner einer Gemeinde im Jahr 2006 an. Die Polygone repräsentieren somit nicht die tatsächlichen Flächen und/oder Distanzen einer Gemeinde sondern das Gewicht einer statistischen Variablen10 . Zusätzlich wird mit der Einfärbung (Choroplethen) eine weitere Variable dargestellt. Hier am Beispiel der Entwicklung der Einwohnerzahlen zwischen den Jahren 2000 und 2006.

Page 12: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

10

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

14 Gültige Grenzgängerbewilligungen G des Bundesamts für Migration (BFM) am Stichtag 31.05.2008.

4.) Das grösste Problem ist die VergleichbarkeitNeben den eigenen nationalen Statistiken müssen auch die Datensätze der Nachbarn korrekt interpretiert werden können. Das heisst, dass Angaben über Statistiken von drei Ländern verfügbar und interpretierbar sein müssen. Zusätzlich muss die Fremdsprache des Nachbarlandes mindestens lesend verstanden werden. Während bei den am Anfang genannten grenzüberschreitenden Projekten mit Schweizer Beteiligung oft die Sprache das verbin-dende Element zwischen verschiedenen Ländern darstellt, ist es im Raum Basel oft ein zusätzlich erschwerendes Ele-ment, dass die Vergleichbarkeit (und Beschreibung) der unterschiedlichen Daten erschwert.

Die Daten aus der Bevölkerungsstatistik können relativ gut miteinander verglichen werden. Daten aus den Bereichen Wirtschaft und Arbeit dagegen sind tendenziell kaum di-rekt vergleichbar. Nicht nur die Arbeitslosen und die Ar-beitslosenquoten werden anders erhoben und berechnet. Auch die Erhebung von Beschäftigten und Betrieben so-wie deren Klassifikation sind oft nicht nur in ihrer zeitlichen Dimension heterogen.

5.) Fazit / AusblickIm Zuge eines schnell zusammenwachsenden Europas und einer steigenden Mobilität von Arbeit und Kapital wird die Nachfrage nach vergleichbaren Daten über die Landesgren-zen hinaus bestimmt weiter zunehmen. Zu diesem Zweck sind geographische und methodische Kenntnisse über die öffentliche Statistik und die Datenlagen in den angren-zenden Nachbarländern eine unbedingte Voraussetzung. Eine Vereinheitlichung auf hohem Niveau (EU der Nationen) ist gemacht. Oft haben regionale, grenzüberschreitende Wirtschaftsräume wie der Oberrhein eine grosse Bedeu-tung, die erst jetzt allmählich wahrgenommen wird. Bei der Zusammenführung von Statistiken verschiedener Länder muss die sonst dem Statistiker eigene Genauigkeit und De-tailtreue abgelegt werden. Es muss ein pragmatischer Zu-gang zu den Daten gefunden werden. Denn im Zweifelsfall steht eine Darstellung im Vordergrund, welche die metho-dischen und zeitlichen Differenzen der jeweiligen nationalen Statistiken zwar nicht negiert, aber doch bis zu einem ge-wissen Mass in den Hintergrund treten lässt. Daten der öf-fentlichen Statistik dreier Länder sind wohl kurz- und mittel-fristig nicht komplett harmonisierbar. Auch in Zukunft muss mit unterschiedlichen Definitionen, Methoden und Zeitstän-den gearbeitet werden. Nichtsdestotrotz ist die Visualisie-rung und die daraus abgeleitete Interpretation von nicht komplett deckungsgleichen Datensätzen ein erster Schritt für die (statistische) Überwindung der Landesgrenzen.

Abbildung 3) Ausländische Grenzgänger in die Region Basel. Die Strichdicke gibt die absolute Zahl an gültigen Grenzgängerbe-willigungen14 für Pendlerströme zwischen Arbeitsort (in der Schweiz) und Wohnort (im Ausland) an. Es wurden nur Fälle grösser 19 berücksichtigt, um die Karte lesbar zu halten, da praktisch für jede hier dargestellte ausländische Gemeinde mindestens eine gültige Grenzgängerbewilligung G ausge-stellt ist. Nicht berücksichtigt sind die inner-schweizerischen Pendlerbewegungen, die Pendlerbewegungen zwischen Frankreich und Deutschland sowie die wenigen Auspendler aus der Schweiz.

Page 13: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

11

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

By Steven Strogatz, Cornell [email protected](Originally published in the New York Times, April 25 2010, reprinted with permission from the New York Times)

Have you ever had that anxiety dream where you sudden-ly realize you have to take the final exam in some course you’ve never attended? For professors, it works the other way around — you dream you’re giving a lecture for a class you know nothing about.That’s what it’s like for me whenever I teach probability the-ory. It was never part of my own education, so having to lecture about it now is scary and fun, in an amusement park, thrill-house sort of way.Perhaps the most pulse-quickening topic of all is “condi-tional probability” — the probability that some event A hap-pens, given (or “conditional” upon) the occurrence of some other event B. It’s a slippery concept, easily conflated with the probability of B given A. They’re not the same, but you have to concentrate to see why. For example, consider the following word problem.Before going on vacation for a week, you ask your spacey friend to water your ailing plant. Without water, the plant has a 90 percent chance of dying. Even with proper wate-ring, it has a 20 percent chance of dying. And the probabi-lity that your friend will forget to water it is 30 percent. (a) What’s the chance that your plant will survive the week? (b) If it’s dead when you return, what’s the chance that your friend forgot to water it? (c) If your friend forgot to water it, what’s the chance it’ll be dead when you return? Although they sound alike, (b) and (c) are not the same. In fact, the problem tells us that the answer to (c) is 90 per-cent. But how do you combine all the probabilities to get the answer to (b)? Or (a)?Naturally, the first few semesters I taught this topic, I stuck to the book, inching along, playing it safe. But gradually I began to notice something. A few of my students would avoid using “Bayes’s theorem,” the labyrinthine formula I was teaching them. Instead they would solve the problems by a much easier method.What these resourceful students kept discovering, year af-ter year, was a better way to think about conditional proba-bility. Their way comports with human intuition instead of confounding it. The trick is to think in terms of “natural fre-quencies” — simple counts of events — rather than the more abstract notions of percentages, odds, or probabilities. As

soon as you make this mental shift, the fog lifts.This is the central lesson of “Calculated Risks,” a fascinating book by Gerd Gigerenzer, a cognitive psychologist at the Max Planck Institute for Human Development in Berlin. In a series of studies about medical and legal issues ranging from AIDS counseling to the interpretation of DNA finger-printing, Gigerenzer explores how people miscalculate risk and uncertainty. But rather than scold or bemoan human frailty, he tells us how to do better — how to avoid “clouded thinking” by recasting conditional probability problems in terms of natural frequencies, much as my students did.In one study, Gigerenzer and his colleagues asked doctors in Germany and the United States to estimate the probabi-lity that a woman with a positive mammogram actually has breast cancer, even though she’s in a low-risk group: 40 to 50 years old, with no symptoms or family history of breast cancer. To make the question specific, the doctors were told to assume the following statistics — couched in terms of percentages and probabilities — about the prevalence of breast cancer among women in this cohort, and also about the mammogram’s sensitivity and rate of false positives:The probability that one of these women has breast cancer is 0.8 percent. If a woman has breast cancer, the probabi-lity is 90 percent that she will have a positive mammogram. If a woman does not have breast cancer, the probability is 7 percent that she will still have a positive mammogram. Imagine a woman who has a positive mammogram. What is the probability that she actually has breast cancer?Gigerenzer describes the reaction of the first doctor he te-sted, a department chief at a university teaching hospital with more than 30 years of professional experience:“[He] was visibly nervous while trying to figure out what he would tell the woman. After mulling the numbers over, he finally estimated the woman’s probability of having breast cancer, given that she has a positive mammogram, to be 90 percent. Nervously, he added, ‘Oh, what nonsense. I can’t do this. You should test my daughter; she is studying medicine.’ He knew that his estimate was wrong, but he did not know how to reason better. Despite the fact that he had spent 10 minutes wringing his mind for an answer, he could not figure out how to draw a sound inference from the probabilities.”When Gigerenzer asked 24 other German doctors the same question, their estimates whipsawed from 1 percent to 90 percent. Eight of them thought the chances were 10 percent or less, 8 more said 90 percent, and the remaining 8 guessed somewhere between 50 and 80 percent. Ima-

Chances are

Page 14: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

12

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

gine how upsetting it would be as a patient to hear such divergent opinions.As for the American doctors, 95 out of 100 estimated the woman’s probability of having breast cancer to be some-where around 75 percent.The right answer is 9 percent.How can it be so low? Gigerenzer’s point is that the analy-sis becomes almost transparent if we translate the original information from percentages and probabilities into natural frequencies:Eight out of every 1,000 women have breast cancer. Of these 8 women with breast cancer, 7 will have a positive mammogram. Of the remaining 992 women who don�t have breast cancer, some 70 will still have a positive mam-mogram. Imagine a sample of women who have positive mammograms in screening. How many of these women actually have breast cancer?Since a total of 7 + 70 = 77 women have positive mam-mograms, and only 7 of them truly have breast cancer, the probability of having breast cancer given a positive mam-mogram is 7 out of 77, which is 1 in 11, or about 9 percent.Notice two simplifications in the calculation above. First, we rounded off decimals to whole numbers. That happened in a few places, like when we said, “Of these 8 women with breast cancer, 7 will have a positive mammogram.” Really we should have said 90 percent of 8 women, or 7.2 women, will have a positive mammogram. So we sacrificed a little precision for a lot of clarity.Second, we assumed that everything happens exactly as frequently as its probability suggests. For instance, since the probability of breast cancer is 0.8 percent, exactly 8 women out of 1,000 in our hypothetical sample were assu-med to have it. In reality, this wouldn’t necessarily be true. Things don’t have to follow their probabilities; a coin flipped 1,000 times doesn’t always come up heads 500 times. But pretending that it does gives the right answer in problems like this.Admittedly the logic is a little shaky — that’s why the text-books look down their noses at this approach, compared to the more rigorous but hard-to-use Bayes’s theorem — but the gains in clarity are justification enough. When Gige-renzer tested another set of 24 doctors, this time using na-tural frequencies, nearly all of them got the correct answer, or close to it.Although reformulating the data in terms of natural frequen-cies is a huge help, conditional probability problems can

still be perplexing for other reasons. It’s easy to ask the wrong question, or to calculate a probability that’s correct but misleading.Both the prosecution and the defense were guilty of this in the O.J. Simpson trial of 1994-95. Each of them asked the jury to consider the wrong conditional probability.The prosecution spent the first 10 days of the trial introdu-cing evidence that O.J. had a history of violence toward his ex-wife, Nicole. He had allegedly battered her, thrown her against walls and groped her in public, telling onlookers, “This belongs to me.” But what did any of this have to do with a murder trial? The prosecution’s argument was that a pattern of spousal abuse reflected a motive to kill. As one of the prosecutors put it, “A slap is a prelude to homicide.”Alan Dershowitz countered for the defense, arguing that even if the allegations of domestic violence were true, they were irrelevant and should therefore be inadmissible. He later wrote, “We knew we could prove, if we had to, that an infinitesimal percentage — certainly fewer than 1 of 2,500 — of men who slap or beat their domestic partners go on to murder them.”In effect, both sides were asking the jury to consider the probability that a man murdered his ex-wife, given that he previously battered her. But as the statistician I. J. Good pointed out, that’s not the right number to look at.The real question is: What’s the probability that a man mur-dered his ex-wife, given that he previously battered her and she was murdered by someone? That conditional probabi-lity turns out to be very far from 1 in 2,500.To see why, imagine a sample of 100,000 battered women. Granting Dershowitz’s number of 1 in 2,500, we expect about 40 of these women to be murdered by their abusers in a given year (since 100,000 divided by 2,500 equals 40). We can estimate that an additional 5 of these battered women, on average, will be killed by someone else, because the murder rate for all women in the United States at the time of the trial was about 1 in 20,000 per year. So out of the 40 + 5 = 45 murder victims altogether, 40 of them were killed by their batterer. In other words, the batterer was the murderer about 90 percent of the time.Don’t confuse this number with the probability that O.J. did it. That probability would depend on a lot of other evidence, pro and con, such as the defense’s claim that the police fra-med him, or the prosecution’s claim that the killer and O.J. shared the same style of shoes, gloves and DNA.The probability that any of this changed your mind about the verdict? Zero.

Page 15: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

13

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ARTICLE

NOTES:• Foragoodtextbooktreatmentofconditionalprobabilityand

Bayes’s theorem, see: S.M. Ross, “Introduction to Probability and Statistics for Engineers and Scientists,” 4th edition (Academic Press, 2009).

• Theanswertopart(a)ofthe“ailingplant”problemis59per-cent.Theanswertopart(b)is27/41,orapproximately65.85percent. To derive these results, imagine 100 ailing plants and figure out (on average) how many of them get watered or not, and then how many of those go on to die or not, based on the information given. This question appears, though with slightly different numbers and wording, as problem 29 on p. 84ofRoss'stext.

• Thestudyofhowdoctorsinterpretmammogramresultsisde-scribed in: G. Gigerenzer, “Calculated Risks” (Simon and Schuster, 2002),chapter4.FormoreontheO.J.Simpsoncaseandadiscussionofwifebatteringinalargercontext,seechapter8.

• Formanyentertaininganecdotesandinsightsaboutconditio-nal probability and its real-world applications, as well as how it’s misperceived, see: J.A.Paulos,“Innumeracy” (Vintage, 1990); L.Mlodinow,“The Drunkard’s Walk” (Vintage, 2009).

• ThequotespertainingtotheO.J.Simpsontrial,andAlanDershowitz’s estimate of the rate at which battered women are murdered by their partners, appeared in: A. Dershowitz, “Reasonable Doubts” (Touchstone, 1997), pp. 101-104.

• ProbabilitytheorywasfirstcorrectlyappliedtotheSimpsontrialbythelateI.J.Good,in: I.J.Good,“Whenbattererturnsmurderer,”Nature,Vol.375(1995),p.541. I.J.Good,“When batterer becomes murderer,”Nature,Vol.381(1996),p.481. Good phrased his analysis in terms of odds ratios and Bayes’stheorem,ratherthanthemoreintuitive“naturalfre-quency”approachpresentedhereandinGigerenzer’sbook. Good had an interesting career. In addition to his many contributions to probability theory and Bayesian statistics, he helpedbreaktheNaziEnigmacodeduringWorldWarII,andintroducedthefuturisticconceptnowknownasthe“technolo-gicalsingularity.”

• HereishowDershowitzseemstohavecalculatedthatfewerthan1in2,500batterersgoontomurdertheirpartners,peryear.Onpage101ofhisbook“ReasonableDoubts,”hecitesanestimatethatin1992,somewherebetween2.5and4 million women in the United States were battered by their husbands,boyfriends,andex-boyfriends.Inthatsameyear,accordingtotheFBIUniformCrimeReports,913womenweremurderedbytheirhusbands,and519werekilledbytheirboyfriendsorex-boyfriends.Dividingthetotalof1,432homicidesby2.5millionbeatingsyields1murderper1,746beatings, whereas using the higher estimate of 4 million be-

atingsperyearyields1murderper2,793beatings.Dersho-witzapparentlychose2,500asaroundnumberinbetweentheseextremes. What's unclear is what proportion of the murdered women had been previously beaten by these men. It seems that Der-showitz was assuming that nearly all the victims were beaten, presumablytomakethepointthatevenwhentherateisove-restimatedinthisway,it'sstill“infinitesimal.”

• Good'sestimatedmurderrateof1per20,000womenperyear includes battered women, so it was not strictly correct toassume(ashedid,andaswedidabove)that5womenoutof100,000wouldbekilledbysomeoneotherthanthebatterer. But correcting for this doesn't alter the conclusion significantly, as the following calculation shows. AccordingtotheFBIUniformCrimeReports,4,936womenweremurderedin1992.Ofthesemurdervictims,1,432(about29percent)werekilledbytheirhusbandsorboy-friends.Theremaining3,504werekilledbysomebodyelse.Therefore, considering that the total population of women in theUnitedStatesatthattimewasabout125million,therateat which women were murdered by someone other than their partnerswas3,504dividedby125,000,000,or1murderper35,673women,peryear. Let's assume that this rate of murder by non-partners was the same for all women, battered or not. Then in our hypotheti-calsampleof100,000batteredwomen,we'dexpectabout100,000dividedby35,673,or2.8womentobekilledbysomeone other than their partner. Although 2.8 is smaller thanthe5thatGoodandweassumedabove,itdoesn'tmat-ter much because both are so small compared to 40, the esti-mated number of cases in which the batterer is the murderer. With this modification, our new estimate of the probability that the batterer is the murderer would be 40 divided by (40 + 2.8),orabout93percent. ArelatedquibbleisthattheFBIstatisticsandpopulationdatagiven above imply that the murder rate for women in 1992 wascloserto1in25,000,not1in20,000asGoodassu-med. If he had used that rate in his calculation, an estimated 4womenper100,000,not5,wouldhavebeenmurderedbysomeone other than the partner. But this still wouldn't affect the basic message now the batterer would be the murderer 40 times out of 40 + 4 = 44, or 91 percent of the time.

• AfewyearsaftertheverdictwashandeddownintheSimp-soncase,AlanDershowitzandthemathematicianJohnAllenPaulosengagedinaheatedexchangeofletterstotheeditoroftheNewYorkTimes.Theissuewaswhetherevidenceofahistory of spousal abuse should be regarded as relevant to a murder trial, in light of probabilistic arguments similar to those discussed in this post. Dershowitz’s letter to the editor and Paulos’sresponsemakeforlivelyreading.

ThankstoPaulGinsparg,MichaelLewis,EriNoguchiandCaro-le Schiffman for their comments and suggestions.

Page 16: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

14

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

KONGRESS

Swiss Days of Official Statistics 2010

Schweizer Tage der öffentlichen Statistik 2010 Journées suisses de la statistique publique 2010

Giornate svizzere della statistica pubblica 2010

Neuenburg, 18. – 20. Oktober 2010 Die öffentliche Statistik im Wandel Neuenburg, im Juni 2010 Sehr geehrte Damen und Herren

Wir freuen uns, Sie zu den Schweizer Tagen der öffentlichen Statistik vom 18. – 20. Oktober 2010 einzuladen. Sie werden durch die Schweizerische Gesellschaft für Statistik (SSS), das Bundesamt für Statistik (BFS) und die Konferenz der regionalen statistischen Ämter der Schweiz (KORSTAT) organisiert und finden dieses Jahr in Neuenburg statt. Die Austragungsstätte ist die „Haute Ecole Arc“, die mit ihren bestens ausgerüsteten, architektonisch beeindruckenden Lokalitäten direkt auf dem Bahnhofgelände neben dem BFS den idealen Tagungsort bildet. Das BFS, feiert in diesem Jahr sein 150-jähriges Bestehen. Das Hauptthema der Veranstaltung, „Die öffentliche Statistik im Wandel“, steht in engem Zusammenhang mit diesem Jubiläum. Es soll dazu in drei Unterthemen gegliedert werden: „Politik und Statistik“, „Organisation der öffentlichen Statistik“ und „Erhebungs-, Produktions- und Diffusionsmethoden“. Wie Sie dem beiliegenden provisorischen Programm entnehmen können, sollen die Entwicklung, der heutige Stand und die Zukunftsperspektiven dieser Themen am 18. und 19. Oktober im Rahmen von Key Notes und Ateliers behandelt werden. Am 19. Oktober nachmittags und abends findet auch die Feier zum 150. Geburtstag des BFS statt, an der Herr Bundesrat Didier Burkhalter teilnehmen wird. Am 20. Oktober findet zudem im Rahmen der Tage der öffentlichen Statistik ein „Forum zur Messung des Fortschritts und der Lebensqualität“ mit national und international reputierten Experten statt, an dem die Implikationen des Stiglitz Reports (vgl. www.statoo.ch/jss10) auf die öffentliche Statistik der Schweiz diskutiert werden. Das Forum ist auch ein Beitrag der Schweiz zum „Weltstatistiktag“, der von der UNO proklamiert wurde und der erstmals weltweit mit einer Vielzahl von Veranstaltungen am 20. Oktober begangen wird. Gerne erwarten wir Ihre Anmeldung zu diesem reichhaltigen Programm per Post, Fax oder E-Mail bis zum 31. Juli 2010. Bitte benutzen Sie das beiliegende Formular. Das Tagungsprogramm und das Anmeldeformular finden Sie auch unter www.statoo.ch/jss10. Für Übernachtungen haben wir in verschiedenen Hotelkategorien eine bestimmte Anzahl Zimmer zu Sonderkonditionen reservieren lassen (vgl. Beilage). Die Hotelreservation erfolgt individuell direkt mit Hilfe der beiliegenden Hotelliste. Diese Information finden sie auch auf www.statoo.ch/jss10. Wir bitten Sie, sich spätestens bis zum 31. August 2010 bei einem Hotel anzumelden. Wir freuen uns, Sie in Neuenburg zu treffen! Mit freundlichen Grüssen Für das Organisationskomitee der Schweizer Tage der öffentlichen Statistik 2010: Der Kopräsident Die Kopräsidentin

Dieter Koch Corinne Becker Vermeulen

Page 17: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

15

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

CONGRÈS

Swiss Days of Official Statistics 2010

Schweizer Tage der öffentlichen Statistik 2010 Journées suisses de la statistique publique 2010

Giornate svizzere della statistica pubblica 2010

Neuchâtel, 18-20 octobre 2010 La Statistique publique en mutation Neuchâtel, juin 2010 Madame, Monsieur,

Nous avons le plaisir de vous inviter aux Journées suisses de la statistique publique qui auront lieu du 18 au 20 octobre 2010. Cette manifestation, organisée conjointement par la Société Suisse de Statistique (SSS), l’Office fédéral de la statistique (OFS) et la Conférence suisse des offices régionaux de statistique (CORSTAT), se déroulera cette année à Neuchâtel. Elle se tiendra à la „Haute Ecole Arc“ qui nous accueillera dans des conditions idéales dans ses bâtiments à l’architecture impressionnante, directement à côté de la gare et de l’OFS. L’OFS fête cette année son 150ème anniversaire. Le thème principal de ces Journées, « la Statistique publique en mutation », est en lien étroit avec ce jubilé. Le programme sera divisé en trois parties : « Politique et statistique », « Organisation de la statistique publique » et « Méthodes de relevé, de production et de diffusion ». Comme vous pouvez le lire dans le programme provisoire ci-joint, ces trois sous-thèmes seront traités les 18 et 19 octobre sous l’angle du développement, de la situation actuelle et des perspectives futures, dans des séances plénières (Key Notes) et des ateliers. L’après-midi et le soir du 19 octobre aura lieu la fête du 150ème anniversaire de l’OFS, à laquelle participera Monsieur le Conseiller Fédéral Didier Burkhalter. Le 20 octobre, toujours dans le cadre des Journées suisses de la statistique publique et en présence d’experts confirmés aux niveaux national et international, aura lieu un « Forum sur la mesure du progrès/qualité de vie » durant lequel seront discutées les conséquences du rapport Stiglitz (voir sous www.statoo.ch/jss10) sur la statistique publique helvétique. Ce forum est également une contribution de la Suisse à la „Journée Mondiale de la Statistique“, proclamée par l’ONU et célébrée pour la première fois le 20 octobre 2010 par une multitude de conférences à travers le monde. Nous vous prions de nous faire parvenir votre inscription par poste, télécopie ou courrier électronique jusqu’au 31 juillet 2010 au plus tard, à l’aide du formulaire ci-joint. Le programme et le formulaire d’inscription sont également disponibles sur le site www.statoo.ch/jss10. Pour l’hébergement, nous avons réservé dans des hôtels de différentes catégories un contingent de chambres à des tarifs préférentiels (cf. annexe). Ces chambres peuvent être réservées individuellement, à l’aide de la liste d’hôtels annexée. Cette information se trouve également sur le site www.statoo.ch/jss10. Nous vous conseillons de réserver votre chambre d’hôtel rapidement mais au plus tard jusqu'au 31 août 2010. Dans l’attente de vous accueillir à Neuchâtel, nous vous prions d’agréer, Madame, Monsieur, nos salutations distinguées.

Pour le Comité d’organisation des Journées suisses de la statistique publique 2010 :

Le coprésident La coprésidente

Dieter Koch Corinne Becker Vermeulen

Page 18: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

16

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

KONGRESS

Swiss Days of Official Statistics 2010

Schweizer Tage der öffentlichen Statistik 2010 Journées suisses de la statistique publique 2010

Giornate svizzere della statistica pubblica 2010

Neuenburg, 18. – 20. Oktober 2010 Neuchâtel, 18-20 octobre 2010

Die öffentliche Statistik im Wandel

La Statistique publique en mutation

Provisorisches Programm

Programme provisoire

18.10. Montag – Lundi

09.30 KORSTAT/CORSTAT: Vorstand– Comité

10.45 KORSTAT/CORSTAT: Generalversammlung – Assemblée générale

ab/dès 12.45 Empfang – Accueil

13.15 Begrüssung – Mots de bienvenue

13.30 Plenum (Key Notes)

15.00 Pause

15.30 Plenum (Key Notes)

17.00 Schweizerische Gesellschaft für Statistik, Sektion Öffentliche Statistik / Société Suisse de Statistique, Section statistique publique: Generalversammlung – Assemblée générale

17.45 Schweizerische Gesellschaft für Statistik/Société Suisse de Statistique: Generalversammlung – Assemblée générale

18.30 Ende – Fin

19.00 Apéro

Page 19: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

17

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

CONGRÈS

19.10. Dienstag – Mardi

08.30 Plenum (Key Notes)

10.00 Pause

10.30 Ateliers

12.00 Mittagessen – Repas de midi

13.30 Ateliers

15.00 – 15.30

Schlussfolgerungen– Conclusions

16.00 – 17.45

Feier zum 150. Geburtstag des BFS – Cérémonie du 150 ème anniversaire de l’OFS

18.00 Apéro

19.30 Bankett – Banquet

20.10. Mittwoch – Mercredi

Weltstatistiktag – Journée mondiale de la statistique

Forum zur Messung des Fortschritts und der Lebensqualität Forum sur la mesure du progrès/qualité de vie

09.00 Begrüssung – Mots de bienvenue Key Notes

10.00 Pause

10.30 Ateliers : aktueller Stand der öffentlichen Statistiken in der Schweiz Ateliers: état actuel des statistiques publiques en Suisse

12.00 Mittagessen – Repas de midi

13.30 Synthese aus den Ateliers – Indikatorensysteme in d er Schweiz Synthèse des ateliers – Systèmes d’indicateurs en Suisse

14.30 Pause

14.45 Table ronde: Statistik und Lebensqualität Table ronde: statistique et qualité de vie

15.45 Abschluss - Conclusion

16.15 Ende – Fin

Page 20: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

18

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

SSS

Dear colleagues,

I hope that everything is fine.

In what follows, you will see a selective listing of news and information related to statistics – all being hopefully interesting for a general audience. I welcome feedback and suggestions for inclusion in forthcoming listings ([email protected]).

With best regards

Dr. Diego Kuonen, CStat CSciPresident of the SSS

New statistical guide “Making Sense of Statistics” published

Straight Statistics and Sense about Science today publish a guide for the perplexed. “Making Sense of Statistics” provides a few simple rules for seeing through the spin and avoiding the pitfalls. Written with the advice of professional statisticians and journalists and the collaboration of the Royal Statistical Society, “Making Sense of Statistics” is not a course in statistics but a short primer on how they are used, and misused, in the press and in public dialogue. Numbers, averages, statistical significance and issues such as regression to the mean are explained in simple language, for an intended audience of journalists, press officers, and people who find statistical arguments a turn-off because they do not understand them.

www.straightstatistics.org/article/new-statistical-guide-published-todaywww.senseaboutscience.org.uk/PDF/MSofStatistics.pdf

“Illuminating the Path: The R&D Agenda for Visual Analytics”

In 2004, the U.S. Department of Homeland Security chartered the National Visualization and Analytics Center (NVAC) with the goal to define visual analytics. The NVAC defined visual analytics as “the science of analytical reasoning facili-tated by interactive visual interfaces” in a report titled “Illuminating the Path”. After reading the report, anyone with data certainly will benefit from the type of application the NVAC defined, whether in crisis mode or not.

nvac.pnl.gov/agenda.stm

Football referees: not nobbled, but biased

How easy would it be for a referee to fix the result of a football match?

www.straightstatistics.org/article/football-referees-not-nobbled-biased

News and Information Related to Statistics

Page 21: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

19

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

SSS

“STATS: We Check Out the Numbers Behind the News”

Since its founding in 1994, the non-profit, non-partisan Statistical Assessment Service – STATS – has become a much-valued resource on the use and abuse of science and statistics in the media. STATS’ goals are to correct scientific misinformation in the media and in public policy resulting from bad science, politics, or a simple lack of information or knowledge; and to act as a resource for journalists and policy makers on major scientific issues and controversies.

www.stats.org

ARTIST web site The goal is to help teachers assess statistical literacy, statistical reasoning, and statistical thinking in first courses of sta-tistics. This web site provides a variety of assessment resources for teaching first courses in statistics.

app.gen.umn.edu/artist/

What does mathematics feel like?

If you have ever wondered what it feels like to do mathematics, take a look at the series of beautiful short films produced by the mathematics department at the University of Bristol, who interviewed over 60 mathematicians, asking them to de-scribe the emotional aspects of maths research. The discussions range from the role of creativity and beauty in maths, to what it feels like to pursue the wrong research path, and the eureka moment of discovering mathematical truth.

www.maths.bris.ac.uk/research/videos/

The New York Times graphic department released a series of auditory graphs highlighting one of the unique characteris-tics of the Winter Olympics results, titled “Fractions of a Second: An Olympic Musical”. In short, the innovative infographic attempts to communicate the relative competitiveness and closeness of each race in a more effective way by using sound instead of graphics. Here, the time spans of other athletes who finished after the winner are represented by playing music notes in an identical rhythm.

www.nytimes.com/interactive/2010/02/26/sports/olympics/20100226-olysymphony.html

“ISI Multilingual Glossary of Statistical Terms”

isi.cbs.nl/glossary.htm

“Blaming statistics for misused statistics is like blaming medical science because of incompetent doctors. And suggest-ing Bayesian methods will make things better is like suggesting homeopathy should replace medicine.”

Larry Wasserman

Page 22: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

20

SWI SS STATI STICAL SOCI ETY • Bulletin Nr. 66

ISBIS

The International Society for Business and Industrial Statistics

www.isbis.org

ISBIS

ISI, mother organisation of ISBIS and also of the Bernoulli Society, has a new website since the end of May: please visit

//isi-web.org You will find there a number of news items including the familiar ISI Membership Directory by country of residence. Note also that the ISI Newsletter will no longer be produced, since the articles will now appear directly as News items on the website.

On 20.10.2010 the World Statistics Day will take place. More information can be found on

//unstats.un.org/unsd/wsd/ The President of the ISI, Mr. Jef Teugels, has called upon all national and regional statistical societies to celebrate World Statistics Day and to develop plans for communicating this to the wider public. The ISI will launch a web page in June 2010 for communications purposes. All ISI members and affiliates are invited to present plans and announcements to ISI for publication on that web page.

During the coming conference ISBIS2010 in Portoroz, Slovenia (see the last SSS bulletin or visit www.action-m.com/isbis2010 ) a half-day y-BIS Development Workshop will be held on Monday July 5, 2010 organised by Dr Ron Wasserstein (Executive Director of the American Statistical Association).

The workshop should be of great value not only for young statisticians embarking on, or contemplating a career as an industrial statistician, but also for young academic statisticians who are interested in interacting with business and industry. Topics to be covered will include issues and challenges facing industry statisticians:

y-BIS

the Young People’s group of ISBIS, is now on

Facebook

Soft skills: how to manage client interactions, comments on technical writing, ...

Handling ethical issues that arise in consulting Educational issues: what are the principal

needs of statisticians as they enter industry; what sort of continuing education is needed by industrial statisticians

Professional accreditation: what is it, and how can it help statisticians during their careers?

Other presenters will include Dr Sastri Pantula, who will be the ASA President at the time of the conference. Piran, Slovenia

Page 23: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

SOCIETY

Offizielles Organ der Schweizerischen Gesellschaft für Statitstik (Swiss Statistical Society)Organe de publication officiel de la Société Suisse de Statistique (Swiss Statistical Society)

Erscheint 3 Mal jährlichMärz, Juni, OktoberParution: 3 fois par an (mars, juin, octobre)

Redaktion / RédactionVertrieb / DistributionThomas [email protected] [email protected]

Konzept, GestaltungMise en page, graphismePeter Gaffuri AGKornhausplatz 7, 3011 Bernwww.gaffuri.ch

Inserate / PublicitésSabine [email protected]/w / n/b 1/4 S. / p. Fr. 100. – s/w / n/b 1/2 S. / p. Fr. 200.–s/w / n/b 1/1 S. / p. Fr. 300.– Umschlag innen 1/1 S. Couverture intérieure 1/1 p. Fr. 400.– Umschlag aussen 1/1 S. Couverture extérieure 1/1 p. Fr. 500.–

Auflage: 460 ExemplareTirage: 460 exemplaires

Vorstand / Comité

Präsident /Président Dr. Diego Kuonen, CStat CSciStatoo ConsultingMorgenstrasse 129, 3018 Bern Tel. +41 (0)31 998 45 90 [email protected]

Vizepräsidentin / Vice-présidentPräsidentin / Président SSS-ERDr. Eva CantoniDept. of EconometricsUniversity of GenevaBd du Pont d'Arve 40, 1211 Genève 4 Tel. +41 (0)22 379 82 [email protected]

Kassier / Trésorier Dr. Daniel AssoulinBundesamt für StatistikEspace de l'Europe 10, 2010 NeuchâtelTel. +41 (0)32 713 67 [email protected]

Aktuar / SecrétairePräsident / Président SSS-BIMarcel BaumgartnerNestec S.A.Av. Nestlé 55, 1800 VeveyTel. +41 (0)21 924 18 [email protected]

Geschäftsführerin / AdministratriceSabine ProbstBergacher 8, 3253 SchnottwilTel. +41 (0)32 353 70 [email protected]

Präsidentin / Président SSS-O Sophie RossillionHospice général (services centraux)3 rue Ami-LullinCase postale 3360, 1211 Genève 3Tel. +41 (0)22 420 56 [email protected]

Mitglied / Membre Thomas HolzerStatistikdienste Stadt BernSchwanengasse 14, 3011 BernTel. +41(0)31 321 75 42 [email protected]

Mitglied / Membre Dieter KochBundesamt für StatistikEspace de l'Europe 10, 2010 Neuchâtel Tel. +41 (0)32 713 68 [email protected]

Mitglied / Membre Dr. Anne RenaudStatistiques de la formationDirection de l'instruction publique du canton de BernePlanification de la formation et évaluation (BiEv)Sulgeneckstrasse 70, 3005 Berne Tel. +41 (0)31 633 83 [email protected]

Die Schweizerische Gesellschaft für Statistik, gegründet im Jahr 1988, fördert die Anwendung und die Entwicklung der Statistik in der Schweiz, vertritt die Interessen der auf diesem Gebiet tätigen Personen in Praxis, Forschung und Lehre und trägt zur Anerkennung der Statistik als eigenstän-dige wissenschaftliche Disziplin bei. ■ Das Bulletin wird jedem Mitglied der Gesellschaft zugeschickt. Der Jahresbeitrag beträgt Fr. 70.– für natürli-che Personen und Fr. 350.– für juristische Personen. ■ Bitte senden Sie Ihren Beitrittsantrag oder allfällige Adressänderungen direkt an die Geschäftsführerin. ■ Artikel, Kommentare und Informationen für das Bulletin sind sehr willkommen. Bitte schicken Sie Ihre Beiträge der Redaktion.

La Société Suisse de Statistique (SSS) a été fondée en 1988. Ses objec-tifs consistent à promouvoir le développement et l'application de méthodes statistiques en Suisse, de représenter les intérêts de toutes celles et de tous ceux qui s'occupent de la méthodologie statistique dans l'industrie, dans l'administration, dans la recherche et l’enseignement, et de contribuer activement à la reconnaissance de la statistique en tant que branche scien-tifique indépendante. ■ Le bulletin SSS est envoyé à tous les membres de la société. La cotisation annuelle s’élève à 70 francs suisses par per-sonne et à 350 francs pour une société. ■ Nous vous serions reconnais-sants de faire parvenir votre inscription à la société ou de communiquer d’éventuels changements d’adresses à l’adminstratrice. ■ Articles, com-mentaires et informations sur le bulletin SSS sont les bienvenus. Vous êtes priés de les envoyer directement à la rédaction.

Name / Vorname • Nom / Prénom

Adresse

PLZ / Ort • NPA / Lieu

Tel. E-Mail

Schicken Sie die Beitrittserklärung an die Schweizerische Gesellschaft für Statistik, Sabine Probst, Bergacher 8, 3252 SchnottwilFormulaire à envoyer à La Société Suisse de Statistique, Sabine Probst, Bergacher 8, 3253 Schnottwil

SWISS STATISTICAL SOCIETY

O Öffentliche Statistik Statistique publique

O Business & Industry

O Education & Research

O Ich möchte der Schweizerischen Gesellschaft für Statistik beitretenO Je désire être membre de la Société Suisse de Statistique

Ich möchte zusätzlich folgender Sektion beitreten:Je désire également faire partie de la Section :

Die Schweizerische Gesellschaft für Statistik dankt der Schweizerischen Akademie der Naturwissenschaften SANW für die finanzielle Unterstützung des Bulletins.

© 2010

SWISS STATISTICAL SOCIETY

Page 24: BULLETIN NR. 66 JUNI 2010 · 3 SWISS STATISTICAL SOCIETs"ULLETIN.R ARTICLE the statistics S = ˜660 i=1 (Ni −e i)2 e i with e i = 6000 660. Repeating this experiment M = 104 times

IBM SPSS MODELER – DIE UMFASSENDE LÖSUNG FÜR DIE ENTWICKLUNG PRÄDIKTIVER MODELLE

Die Data Mining-Software SPSS

Modeler ist ideal, um Modelle sehr

schnell zu entwickeln, diese effizi-

ent zu evaluieren und zu optimieren,

um sie schliesslich unkompliziert

produktiv einzusetzen. Modeler

stellt auch eine ausgezeichnete

Umgebung für die Entwicklung

von Segmentierungen und Klassi-

fizierungen aller Art dar. Modeler

stellt einerseits die Algorithmen

von SPSS Statistics auf eine noch

einfacher anzuwendende Art zur

Verfügung, offeriert darüber hinaus

aber eine extrem breite Palette

von Algorithmen wie zum Beispiel

Self Organizing Maps, C5, Apriori,

CARMA, Bayes Netzwerk, Support

Vector Machines, Self Learning

Response Models und viele mehr.

So besteht beispielsweise die

Möglichkeit, einen Entscheidungs-

baum interaktiv wachsen zu lassen.

Modeler erlaubt es auch, auf sehr

einfache Art und Weise mehrere

Modelle zu kombinieren und so in

einer Art „Abstimmungsprozess“

zwischen Modellen eine optimale

Klassifizierung zu erreichen.

Dazu kommen natürlich die Vorteile

der Modeler-Grundfunktionen:

Extrem schnelles und effizientes

Arbeiten, unmittelbare Evaluation

von Modellen und deren direkte

Umsetzung in die Produktion, SQL

Pushback in die Datenbank, umfas-

sende Daten-Umformungsmöglich-

keiten und vieles mehr.

SPSS (Schweiz) AGSchneckenmannstrasse 258044 Zü[email protected] 266 90 30

( S c h w e i z ) A G