inductive reasoning ii: statistical reasoning & probability / razonamiento estadístico y...

Post on 24-Jan-2016

219 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Inductive Reasoning II: Statistical Reasoning & Probability / Razonamiento Estadístico y Probabilidad

Introduction to Statistical Thinking

What is/are statistics?

Sometimes, statistics is considered a separate discipline, a branch of mathematics.

Statisticians work with data / data sets.

Data is/are aggregate information, to be organized.

According to one leading text, the aim of statistics as a discipline is to provide insight by means of numbers (aggregates).

¿Que es/son las estadísticas?

A veces, las estadísticas se considera una disciplina independiente, una rama de las matemáticas.

Los estadísticos trabajan con datos o conjuntos de datos.

Los datos son información agregada, que se organizará.

De acuerdo con un texto principal, el objetivo de la estadística como disciplina es para que se conozca por medio de números (agregados).

Introduction to Statistical Thinking

Statistical thinking, or statistical reasoning, is a species of inductive reasoning that attempts to quantify the degree to which you should believe the conclusion, typically a statistical generalization, based on information contained in the premises, usually a data set, study design, & method of drawing the generalization.

The point is to draw reasonable conclusions from data.

Pensamiento estadístico, o razonamiento estadístico, es un tipo de razonamiento inductivo que intenta cuantificar el grado en el que usted debe creer en la conclusión, por lo general una generalización estadística, basada en la información contenida en los locales, por lo general un conjunto de datos, diseño del estudio, y el método de dibujo de la generalización.

El punto es llegar a conclusiones razonables a partir de datos.

Introduction to Statistical Thinking

Understanding statistical reasoning means understanding three things:

(1) Understanding statistical ideas themselves.

(2) Understanding & being able to evaluate quantitative or numerical arguments.

(3) Understanding the impact of statistical ideas, methods, & results on public policy & a variety of other areas where numerical aggregates are believed to be useful.

Razonamiento estadístico significa Entendimiento comprender tres cosas:

(1) Comprender las ideas mismas estadísticas.

(2) Comprender y ser capaz de evaluar los argumentos cuantitativos o numéricos.

(3) Comprender el impacto de las ideas de estadística, métodos y resultados de la política pública y una variedad de otras zonas donde se cree que los agregados numéricos para ser útil.

The Basic Strategy of Statistical Method

This presentation is divided roughly into three sections:

(1) Producing data.

(2) Organizing and analyzing data.

(3) Drawing conclusions.

Esta presentación se divide a grandes rasgos en tres secciones:

(1) La producción de datos.

(2) La organización y el análisis de datos.

(3) La inferencia de conclusiones.

Producing Data (La Producción de Datos): the Problem with Anecdotal Evidence

What is wrong with anecdotal evidence?

An anecdote is an isolated account of some event.

It might illustrate the conclusion we want, but by itself cannot tell us that the event is typical.

It may be sufficiently dramatic that it draws our attention.

The fact that it is dramatic may mean that it is atypical.

¿Qué está mal con la evidencia anecdótica?

Una anécdota es un relato aislado de algún evento.

Podría ilustrar la conclusión a la que queremos, pero por sí sola no puede decirnos que el evento es típico.

Puede ser lo suficientemente dramática que nos llama la atención.

El hecho de que es dramática puede significar que es atípico.

Producing Data: the Problem with Anecdotal Evidence

We remember dramatic air crashes.

We do not ordinarily note the thousands of flights that occur every day.

The crashes are atypical. They suggest that air travel is unsafe.

Statistical data gathering will take into account the thousands of flights that occur every day.

These tell us that air travel is safe.

If statistical aggregates of air crashes are compared with those of automobile crashes, we soon realize that you are safer traveling in an airplane than you are traveling in a car. (Especially in Santiago!)

Recordamos los accidentes aéreos dramáticos.

Nosotros no observamos normalmente los miles de vuelos que ocurren todos los días.

Los accidentes son atípicos. Ellos sugieren que el transporte aéreo no es seguro.

La recopilación de datos estadísticos tendrá en cuenta los miles de vuelos que ocurren todos los días.

Estos nos dicen que el transporte aéreo es seguro.

Si los agregados estadísticos de accidentes aéreos se comparan con las de accidentes automovilísticos, pronto nos damos cuenta que tú eres más seguro viajar en avión que viajar en auto. (¡Especialmente en Santiago!)

Producing Data: Sampling (Muestreo)

Sampling: Basic Concepts. The point of sampling is to infer a conclusion about a whole even though you have only examined a small part.

Population—the entire set of objects or events about which a conclusion is wanted.

Unit—an individual member of this set.

Sample—a subset of the population used to gain information about the whole by (hopefully) a strong inductive inference.

Sampling frame—the list of units from which the sample is chosen. (Ideally, this should = the population, but this is often impractical.)

Variable—a characteristic of a unit, to be measured for those units in the simple.

Muestreo: Conceptos Básicos. El punto de muestreo es inferir una conclusión acerca de su conjunto a pesar de que sólo ha examinado una parte pequeña.

Población: todo el conjunto de objetos o sucesos sobre los que una conclusión es buscado.

Unidad-un miembro individual de este conjunto.

Muestra-un subconjunto de la población utilizada para obtener información sobre el conjunto de (esperemos) un fuerte inferencia inductiva.

Marco de muestreo-la lista de las unidades de muestreo a partir del cual se elige la muestra. (Idealmente, esto debería = la población, pero esto es a menudo poco práctico.)

Variable-una característica de una unidad, que se mide para aquellas unidades en la simple.

Producing Data: Sampling

Population is defined in terms of our desire for information (conclusion). If we want information about all university students in Chile, that is our population.

It may be, however, that we only have data about students at Universidad Andrés Bello.

It is important to define your population as clearly as possible.

Lack of clarity here, as always, will endanger the strength of any inference you draw from a sample.

Población se define en términos de nuestro deseo de información (conclusión). Si queremos información sobre todos los alumnos universitarios en Chile, que es nuestra población.

Puede ser, sin embargo, que sólo tenemos datos sobre los estudiantes de la Universidad Andrés Bello.

Es importante a definir su población con la mayor claridad posible.

La falta de claridad aquí, como siempre, va a poner en peligro la fuerza de cualquier inferencia se dibuja a partir de una muestra.

Producing data: Sampling

It is important to pay attention to one’s method of sampling. One method of sampling is the voluntary response.

The researcher sends out questions to an entire population and awaits the response. People who feel strongly about an issue will respond; those who don’t care, won’t.

The result will probably be a biased sample, a sample not representative of the entire population but only one subset.

Es importante tener presente uno de método de muestreo. Un método de muestreo es la respuesta voluntaria.

El investigador envía preguntas a una población entera y espera por la respuesta. Las personas que se sienten fuertemente sobre una cuestión responderá; aquellos que no les importa, no lo hará.

El resultado probablemente será una muestra sesgada, una muestra no representativa de toda la población, pero sólo un subconjunto

Producing data: Sampling

The statistician’s solution to the problem of biased sampling is to eliminate the effects of human choice by allowing impersonal chance to choose the sample. The result is a simple random sample.

The formal definition of simple random sampling:

A simple random sample (SRS) of size n is a sample of n units chosen in such a way that every collection of n units from the sampling frame has the same chance of being chosen.

La solución de la estadística para el problema de muestreo sesgado es eliminar los efectos de la elección humana permitiendo impersonal probabilidad de elegir la muestra. El resultado es una muestra aleatoria simple.

La definición formal de muestreo aleatorio simple:

Una muestra aleatorio simple (MAS) de tamaño n es una muestra de n unidades elegidas de tal manera que cada colección de n unidades del marco de muestral tiene la misma posibilidad de ser elegido.

Producing Data: Sampling

SRS has this advantage over voluntary sampling: it is unbiased. No list of units has any advantage over any other in obtaining representation in the sample.

How do we obtain one, and how do we know it is reliable?

MAS tiene esta ventaja sobre el muestreo voluntario: es imparcial. No hay una lista de unidades con cualquiera ventaja sobre cualquiera otra en la obtención de la representación en la muestra.

¿Cómo obtenemos una?, y ¿cómo sabemos que es fiable?

Producing Data: Sampling

One of the best ways of obtaining a random sample is to use a table of random digits. Identify each unit in the sampling frame with a digit (numbers one through ten), arrange their choice as on a wheel. Each digit has the same chance of coming up. That way each unit has an equal chance of being chosen. The number of units chosen is your sample size.

Una de las mejores maneras de obtener una muestra aleatoria es utilizar una tabla de dígitos aleatorios. Identifica cada unidad en el marco de la muestra con un dígito (números del uno al diez), organizar su elección como en una rueda. Cada dígito tiene la misma oportunidad de venir. De esa manera cada unidad tiene la misma posibilidad de ser elegidos. El número de unidades elegidas es el tamaño de la muestra.

Producing Data: Sampling

To illustrate the difference between voluntary response and simple random sampling: U.S. advice columnist Ann Landers once asked her readers: “If you had it to do over again, would you have children?”

Of the nearly 10,000 responses she received, just under 70% said “No!”

This was a voluntary response. Should we trust it?

A publication called Newsday (based in NYC) conducted a study using the same question but using an SRS. They polled 1,373 parents; they arrived at a different number: 91% would have children again!

Para ilustrar la diferencia entre respuesta voluntaria y muestra aleatoria simple: estadounidense columnista asesoramienta Ann Landers, una vez se le preguntó a sus lectores: "Si usted tuviera que hacer de nuevo, ¿tendría niños?"

De los casi 10.000 respuestas que recibió, poco menos del 70% dijo "¡No!"

Esta fue una respuesta voluntaria. ¿Debemos confiar en él?

Una publicación llamada Newsday (con sede en Nueva York) llevó a cabo un estudio con la misma pregunta, pero utilizando una MAS. Se encuestaron a 1.373 padres; Llegaron a un número diferente: 91% tendría hijos otra vez!

Producing Data: Sampling

Is this method really reliable, though?

Only 1,373 families were polled; there were almost 55 million families in the U.S. at the time of the poll.

This means that one family in roughly 40,000 were polled.

It may be clear why voluntary response sampling goes wrong, but how on earth can we conclude anything reliably from such a small sample?!

¿Es este método muy confiable, sin embargo?

Sólo 1.373 familias fueron encuestados; había casi 55 millones de familias en los EEUU en el momento de la encuesta.

Esto significa que una familia en aproximadamente 40.000 fueron encuestados.

Puede ser claro por qué el muestreo respuesta voluntaria va mal, pero ¿cómo podemos concluir nada fiable a partir de una muestra tan pequeña ?!

Analyzing Data: Beyond Sampling

To answer such a question, we need to work out more specifics about what happens when we infer a conclusion about a population from a sample.

First, there is no guarantee that the sample is perfect. It just has to be as representative as we can make it.

Let’s always be sure to distinguish between a population and a sample. In that case:

Para responder a esta pregunta, tenemos que averiguar más detalles acerca de lo que sucede cuando se infiere una conclusión acerca de una población a partir de una muestra.

En primer lugar, no hay garantía de que la muestra es perfecto. Simplemente tiene que ser lo más representativos que podemos hacerlo.

Vamos siempre asegúrese de distinguir entre una población y una muestra. En ese caso:

Analyzing Data: Beyond Sampling

A parameter is a numerical characteristic of a population. It will usually be a fixed number, but we do not know its value.

A statistic is a numerical characteristic of a sample of the population. The value of a statistic is known once we take the sample, but it can change from sample to sample.

In other words, a parameter is to the population what a statistic is to a sample.

The distinction lies in whether the number describes the population (it is a parameter) or the sample (it is then a statistic).

Un parámetro es una característica numérica de una población. Por lo general, será un número especifico, pero no sabemos su valor.

Una estadística es una característica numérica de una muestra de la población. El valor de una estadística se sabe una vez que se toma la muestra, pero puede variar de una muestra a otra.

En otras palabras, es un parámetro a la población lo que es una estadística a una muestra.

La distinción reside en si el número describe la población (que es un parámetro) o la muestra (es una estadística entonces).

Analyzing Data: Beyond Sampling

In our example above, the percentage of all U.S. parents who would have children again is a parameter describing the population as a whole. We do not know its value. Call it p. Thus we do not know p.

We use a sample statistic to estimate the value of p. The fraction of the sample who would have children again is a statistic. Call it p; (read: p-hat).

If 1,249 of 1,373 parents polled would have children again, then:

pS = 1249 / 1373 = .91 or 91%

A second sample might differ in not giving a figure of 1,249 parents. This is what we mean when saying that p; will vary from sample to sample. It has sampling variability.

En nuestro ejemplo anterior, el porcentaje de todos los padres estadounidenses que tendrían los niños otro vez es un parámetro que describe la población en su conjunto. No sabemos su valor. Llámelo p. Así que no sabemos p.

Utilizamos una muestra estadística para estimar el valor de p. La fracción de la muestra que tendrían los niños otro vez es una estadística. Llámelo p; (léase: p-hat).

Si 1.249 de 1.373 padres encuestados que tienen hijos otro vez, entonces:

pS = 1249 / 1373 = 0,91 o 91%

Una segunda muestra puede diferir en no dar una cifra de 1.249 padres. Esto es lo que queremos decir al decir que pS puede variar de una muestra a otra. Tiene la variabilidad del muestreo.

Analyzing Data: Beyond Sampling

Sampling distributions:

A sample statistic from an SRS has a predictable pattern of values in repeated sampling based on the parameter, whatever it might be. This will keep the sampling variability from wandering too far. We can only determine what this pattern of values is through repeated sampling—a reason why replication of experiments is important in science.

Muestreo distribuciones:

Una estadística muestra de un MAS tiene un patrón predecible de valores en el muestreo repetido en función del parámetro, sea lo que sea. Esto evitará que la variabilidad de la muestra de vagar demasiado lejos. Sólo podemos determinar lo que este patrón de valores es a través de repetidas muestras-una razón por la replicación de experimentos es importante en las ciencias.

Analyzing Data: Beyond Sampling

To see this pattern illustrated, let’s do a thought experiment.

Consider a glass vase containing a large number of marbles, identical except that most are red while a small fraction—one out of every five—are blue. In other words, if these marbles are a population, then p = .20, this being the parameter of the population describing the percentage of blue marbles. If I start sampling marbles—ten at a time, e.g.—will I always get 20% blue? Probably not. We might get a p; of 30% on occasion and 10% on another, but repeated samples will probably be close to 20%, forming a distribution around 20%.

Para ver este patrón se ilustra, vamos a hacer un experimento mental.

Considere un florero de cristal que contiene un gran número de canicas, idénticos excepto que la mayoría son de color rojo, mientras que una pequeña fracción-uno de cada cinco son de color azul. En otras palabras, si estas canicas son una población, entonces p = 0,20, siendo el parámetro de la población que describe el porcentaje de canicas azules. Si empiezo muestreo canicas-diez a la vez, p.e.-para siempre me conseguir 20% de azul? Probablemente no. Podríamos conseguir una pS de 30% en alguna ocasión y el 10% en otra, pero las muestras repetidas probablemente estará cerca de 20%, formando una distribución en torno al 20%.

Analyzing Data: Beyond Sampling

If we sampled the population of marbles (let us say) 200 times, we might have the following distribution:

# blue marbles 0 12 3 4

pS 00.04 0.08 0.12 0.16

# samples 3 812 34 40

fraction of samples 0.015 0.04 0.060.17 0.2

In this experiment, p is known. The same facts about distribution hold when p is not known.

Si tomamos muestras de la población de canicas (digamos) 200 veces, podemos tener la siguiente distribución:

5 6 7 89

0.20 0.24 0.28 0.320.36

47 24 20 93

0.235 0.12 0.100.045 0.015

En este experimento, se conoce p. Los mismos hechos sobre la distribución se mantienen cuando no se conoce p.

Analyzing Data: Beyond Sampling

Problems indicating an error in sampling:

In a given case we may not know p, but we should be able to approximate it.

Bias is consistent, repeated divergence of a sample statistic from the population parameter in the same direction.

Lack of precision means that repeated sampling gives sample statistics that are too spread out or scattered; the results of sampling are not repeatable.

Our ideal sampling method has low bias and high precision.

It is extremely difficult, in actual polls, to get rid of all sources of bias. Measurements of bias are called margins of error.

Problemas que indica un error en el muestreo:

En un caso especifico, puede que no sepamos p, pero debemos ser capaces de aproximarse a ella.

El sesgo es consistente, repetido divergencia de una estadística muestra del parámetro de la población en la misma dirección.

La falta de precisión significa que el muestreo repetido da estadísticas de la muestra que están demasiado esparce o dispersos; los resultados del muestreo no son repetibles.

Nuestro método de muestreo ideal tiene sesgo bajo y precisión alta.

Es extremadamente difícil, en las encuestas reales, de deshacerse de todas las fuentes de sesgo. Las mediciones de sesgo se llaman los márgenes de error.

Organizing Data

Collected data will usually be organized in tables or graphs. There are a variety of these, such as frequency tables, pie charts, etc.

Data will typically be clustered around pS .

This brings us to descriptive statistics, which summarizes specific features of a data set, in the form of averages.

There are three averages worth knowing about.

Los datos recogidos por lo general se organizan en tablas o gráficos. Hay una gran variedad de ellos, tales como tablas de frecuencias, gráficos circulares, etc.

Los datos normalmente se agrupan en torno p-hat.

Esto nos lleva a la estadística descriptiva, donde se resuman las características específicas de un conjunto de datos, en la forma de medias.

Hay tres medias para saber más.

Organizing data

The mean of a set of n observations is the arithmetic average; it is the sum of the observations divided by the number of observations, n.

The median is the typical value; it is the midpoint of the observations when they are arranged in increasing order.

The mode is the most frequent value; it is any value having the highest frequency among the observations.

La media de un conjunto de n observaciones es la media aritmética; es la suma de las observaciones dividido por el número de observaciones, n.

La mediana es el valor típico; que es el punto medio de las observaciones cuando están dispuestos en orden creciente.

La moda es el valor más frecuente; es cualquier valor que tiene la frecuencia más alta entre las observaciones.

Organizing data

To calculate a mean, add the numbers and divide by the total data (n). For example: 4, 6, 10, 3, 7, 6, 6, 8, 5, 9

Add them (the total is 64), divide by 10 (there are ten numbers); the mean is 6.4.

To get the median, arrange them in increasing order to find the midpoint: 3, 4, 5, 6, 6, 6, 7, 8, 9, 10. The midpoint is 6, so that is the median.

The mode is also 6, because it is the most common figure.

Para calcular una media, añada los números y dividir por el total de datos (n). Por ejemplo: 4, 6, 10, 3, 7, 6, 6, 8, 5, 9

Añadir ellas (el total es 64), se divide por 10 (hay diez números); la media es 6,4.

Para obtener la mediana, disponerlas en orden creciente para encontrar el punto medio: 3, 4, 5, 6, 6, 6, 7, 8, 9, 10 El punto medio es 6; esto es la mediana.

La moda es 6 también, porque es la figura más común.

Organizing data.

To see why these distinctions are important, let us determine what is involved in calculating each for a hypothetical community of 100 people many of whom are extremely poor, many of whom are somewhat poor, a few of whom are somewhat well off, and just two are extremely rich.

Our (ambiguous) question: what is the average wealth of this community of 100.

Para ver por qué estas distinciones son importantes, vamos a determinar lo que está involucrado en el cálculo de cada figura para una comunidad hipotética de 100 personas, muchos de los cuales son extremadamente pobres, muchos de los cuales son algo pobres, algunos de los cuales son algo así fuera, y sólo dos son extremadamente ricos.

Nuestra (ambigua) pregunta: ¿cuál es el promedio de riqueza de esta comunidad de 100.

Organizing data.

Let us postulate that the two richest people are both worth $4 billion in U.S. dollars.

Let us postulate that 8 more members of this community are worth $2 million in U.S. dollars.

Let us postulate that 20 are worth $100,000 in U.S. dollars (we’ve accounted for just 30 people).

30 more are worth $40,000.

40 are worth $10,000.

Total wealth in community: $8,019,600,000.

Suppose someone says; “Your community isn’t poor! The amount of wealth per person there is $80,196,000!” That’s the mean!

Vamos a postular que las dos personas más ricas son a la vez un valor de $ 4 mil millones en dólares estadounidenses.

Vamos a postular que 8 más miembros de esta comunidad son un valor de $ 2 millones en dólares estadounidenses.

Vamos a postular que 20 son un valor de $ 100.000 en dólares estadounidenses (que hemos tenidos por tan sólo 30 personas).

30 más están por valor de $ 40.000.

40 son un valor de $ 10.000.

La riqueza total en la comunidad: $ 8019.6 millones.

Supongamos que alguien dice; "Su comunidad no es pobra! La cantidad de la riqueza por persona allá es $80.196.000 dólares!“ Esa es la media!

Organizing data:

Obviously that would be a skewed result, as only two people are above the mean while 98 are below it!

The median gives somewhat more information; we reach the midpoint of our community when we’ve counted 50 people, their wealth going down (we could, of course, count from the other direction).

The median is: $40,000.

The mode, or most frequent value, however, is: $10,000.

One of the dangers in statistical presentations is to present the mathematical average as if it were the typical figure.

This is an extreme case, of course; but this sort of thing happens in the real world.

People see the U.S. as a “wealthy nation” on the basis of such arguments.

Obviamente eso sería un resultado sesgado, ya que sólo dos personas están por encima de la media, mientras que 98 están por debajo de él!

La mediana da algo más de información; llegamos al punto medio de nuestra comunidad cuando hemos contado 50 personas, su riqueza bajando (podríamos, por supuesto, contar desde la otra dirección).

La mediana es: $ 40.000.

El valor de modo, o más frecuente, sin embargo, es: $ 10.000.

Uno de los peligros en presentaciones estadísticas es presentar el medio matemático, como si se tratara de la figura típica.

Este es un caso extremo, por supuesto; pero este tipo de cosas suceden en el mundo real.

La gente ve a los EEUU como un "país rico" sobre la base de tales argumentos.

Inferring conclusions from data …

The goal of statistical reasoning is to obtain reliable knowledge — about a presumed or probable causal connection or the specifics about a country’s economic health. Economic indicators are inferences from statistics — economic data.

Let us say more about the role of statistics in cause-and-effect reasoning.

El objetivo del razonamiento estadístico es obtener conocimiento - acerca de una conexión causal presunto o probable fiable o los detalles acerca de la salud económica de un país. Los indicadores económicos son inferencias a partir de estadísticas - datos económicos.

Digamos más sobre el papel de la estadística en la causa-y-efecto razonamiento.

Inferring conclusions from data …

What does it mean to say, Cigarette smoking causes cancer?

There is, first of all, a saying among statisticians (and others):

Correlation doesn’t entail causation.

¿Qué significa decir que fumar cigarrillos causa cáncer?

Hay, en primer lugar, un dicho entre los estadísticos (y otros):

La correlación no implica causalidad.

Inferring conclusions from data …

There is, as we know, a strong correlation between cigarette smoking and the death rate from lung cancer.

A study done by British doctors reported that smokers had 20 times the risk of nonsmokers; a similar study in the U.S. found that men aged 40 – 79 who smoked tended to have 11 times the death rate from lung cancer as those who did not smoke?

So does this mean that smoking causes cancer?

What are we entitled to infer from associations discovered in studies?

Hay, como sabemos, una fuerte correlación entre el consumo de cigarrillos y la tasa de mortalidad por cáncer de pulmón.

Un estudio realizado por médicos británicos informaron que los fumadores tenían 20 veces el riesgo de los no fumadores; un estudio similar en los EEUU encontró que los hombres de 40 - 79 años que fumaban tendían a tener 11 veces la tasa de mortalidad por cáncer de pulmón que los que no fuman?

¿Quiere decir esto que el fumar causa cáncer?

¿Qué estamos autorizados a deducir de las asociaciones descubiertas en los estudios?

Inferring conclusions from data …

Of possible interest:

There are cases of people who have chain smoked their entire lives with no ill effects.

There are also people who get lung cancer but have never smoked a cigarette in their lives.

De posible interés:

Hay casos de personas que tienen la cadena fumado toda su vida sin efectos nocivos.

También, hay personas que contraen cáncer de pulmón, pero nunca han fumado un cigarrillo en sus vidas.

Inferring conclusions from data …

Words of wisdom:

Causation in the real world is not simple. Mill’s Methods are a place to begin, but if applied mechanically they would tell us to question whether smoking is either a necessary or a sufficient condtion of lung cancer.

Smoking need not lead to lung cancer (there are counterexamples, so it isn’t a sufficient condition). Obviously lung cancers can have other causes, so smoking isn’t a necessary condition.

Las palabras de la sabiduría:

La causalidad en el mundo real no es simple. Los métodos de Mill son un lugar para empezar, pero si se aplica mecánicamente nos dirían a cuestionar si es o bien una condición necesaria o suficiente de un condtion de cáncer de pulmón de fumar.

Fumar no tiene por qué dar lugar a cáncer de pulmón (hay contraejemplos, así que no es una condición suficiente). Obviamente los cánceres de pulmón pueden tener otras causas, por lo que fumar no es una condición necesaria.

Inferring conclusions from data …

Rarely can we conclude that A is “the cause” of B.

Instead, the most we can say is that A is a “predisposition” for B, or that A increases the probability of B.

There may be confounders that complicate matters in retarding the tendency of A to lead to B. These will hold in a few cases but not generally.

A well-designed experiment will acknowledge possible confounders, and will note probabilities.

This brings us to probability theory.

Rara vez podemos concluir que A es "la causa" de B.

En lugar de ello, lo más que podemos decir es que A es una "predisposición" para B, o que A aumenta la probabilidad de B.

Puede haber factores de confusión que complicar las cosas en el retraso de la tendencia de la A a la conducen a B. Estos mantendrán en algunos casos pero no en general.

Un experimento bien diseñado reconocerá posibles factores de confusión, y tendrá en cuenta las probabilidades.

Esto nos lleva a la teoría de la probabilidad.

Probability Theory: A Sketch

Probability theory began with John Stuart Mill but was developed in the hands of logical empiricist philosophers such as Rudolf Carnap and Carl Hempel (the former was Austrian, the latter German; both went to the U.S. fleeing the Nazis).

Probability theory is most useful when we have a large body of data which has told us:

The exact outcome of any particular cannot be known in advance.

Because of a long-term pattern, it is possible to make a reasonable prediction of the outcome to a degree that can be calculated with some precision.

La teoría de la probabilidad comenzó con John Stuart Mill, pero se desarrolló en las manos de los filósofos empiristas lógicos como Rudolf Carnap y Carl Hempel (el anterior era de Austria, el último alemán, ambos fueron a los EEUU huyendo de los nazis).

La teoría de la probabilidad es más útil cuando tenemos una gran cantidad de datos que nos ha dicho: El resultado exacto de cualquier particular no

puede ser conocido de antemano.

Debido a un patrón a largo plazo, es posible hacer una predicción razonable del resultado a un grado que se puede calcular con cierta precisión.

Probability Theory: A Sketch

Easy example: Toss a coin in the air and catch it. Will it be “heads” or “tails”? Sometimes it lands “heads” and sometimes it lands “tails.” We cannot say what the next outcome will be. But after a large number of coin tosses, a pattern will emerge.

The next case may be random, but we can calculate the probability that the next toss will come up “heads.” The 18th century naturalist Buffon tossed a

coin 4040 times. He got 2048 heads, or a frequency for “heads” of 2048 / 4040 or 0.5069.

We would expect that the number would come closer to 0.5 with increasing numbers of tosses, and this is what we see. A British statistician named Karl Pearson tossed a coin a heroic 24,000 times and got 12,012 heads, or a frequency of 0.5005.

Un ejemplo fácil: Lanza una moneda al aire y atraparlo. ¿Será "cabezas" o "colas"? A veces cae "cabezas" y a veces cae "colas". No podemos decir cuál será el próximo resultado. Pero después de un gran número de lanzamientos de moneda, un patrón emergerá.

El siguiente caso puede ser aleatoria, pero podemos calcular la probabilidad de que el siguiente lanzamiento se van a plantear "cabezas".

El naturalista del siglo 18 Buffon lanzó una moneda 4.040 veces. Obtuvo 2.048 cabezas, o una frecuencia de "cabezas" de 2048/4040 o 0.5069.

Esperaríamos que el número se acercaría más a 0,5 con un creciente número de lanzamientos, y esto es lo que vemos. Un estadístico británico llamado Karl Pearson arrojó una moneda de un heroico 24.000 veces y consiguió 12.012 cabezas, o una frecuencia de 0.5005.

Probability Theory: A Sketch

Formal definition of probability:

If, in a long sequence of repetitions of a phenomenon being examined, the relative frequency of the outcome approaches a fixed number, that number is the probability of the outcome of any future test. A probability is always a number between 0 (the outcome never occurs) and 1 (the outcome always occurs).

La definición formal de la probabilidad:

Si, en una secuencia larga de repeticiones de un fenómeno que se examinó, la frecuencia relativa de los resultados se aproxima a un número fijo, ese número es la probabilidad de que el resultado de cualquier prueba de futuro. Una probabilidad es siempre un número entre 0 (el resultado no se produce nunca) y 1 (el resultado se produce siempre).

Probability Theory: a Sketch

In dealing with coin tosses and other more complex phenomena where more than one outcome is possible, the outcome of any particular event is said to be random but the pattern emerges only after a large number of trials.

Those phenemena in which we only see one outcome we call deterministic. Example: drop a coin from a fixed height and measure the time it takes to reach the ground. You should always get the same length of time. Newton’s laws of mechanics explain why.

Al tratar con lanzamientos de moneda y otros fenómenos más complejos en los que es posible más de un resultado, se dice que el resultado de cualquier evento en particular a ser al azar, pero el patrón surge sólo después de un gran número de pruebas.

Esos phenemena en el que sólo vemos uno de los resultados que llaman determinista. Ejemplo: dejar caer una moneda desde una altura especifica y medir el tiempo que tarda en llegar al suelo. Siempre debe obtener la misma cantidad de tiempo. Leyes de la mecánica de Newton explican por qué.

Probability Theory: a Sketch

It is helpful to remember that in the cases we have seen, each trial is independent of all the others. That means the outcome of a particular trial has no causal effect on the outcome of any of the others, and so gives no information about the likely outcome of any of the others.

This enables us to say a few words about the so-called “law of averages.”

Many people do not grasp this psychologically.

Es útil recordar que en los casos que hemos visto, cada prueba es independiente de todos los demás. Eso significa que el resultado de un proceso en particular no tiene efecto causal sobre el resultado de cualquiera de los otros, y así no da ninguna información sobre el probable resultado de cualquiera de los otros.

Esto nos permite decir unas pocas palabras acerca de la llamada "ley de los medios."

Muchas personas no entienden este psicológicamente.

Probability Theory: a Sketch

Suppose I have another tall jar of 100 glass marbles, all alike except that exactly 50 are red and the other 50 are blue. They are mixed thoroughly.

Suppose that I drew out five, in a sequence (always returning them to the mix), and that all five were red. Does this change the odds that the next marble I draw from the jar will be blue?

It does not. The actions are independent from one another, so the odds are always one in two that I will draw a marble of a particular color.

Supongamos que tengo otro frasco de altura de 100 canicas de vidrio, todos por igual, excepto que exactamente 50 son rojas y el otro 50 son azules. Se mezclan a fondo.

Supongamos que yo saqué cinco, en una secuencia (siempre volviendo a la mezcla), y que los cinco eran de color rojo. ¿Cambia esto las probabilidades de que el próxima canica que saco del frasco será azul?

No lo hace. Las acciones son independientes el uno del otro, así que las probabilidades son siempre uno de cada dos que voy a sacar una canica de un color particular.

Probability: the Gambler’s Fallacy

Consider the “Gambler’s Fallacy.” The basic idea: a gambler has gambled ten times and lost ten times. So he reasons that by the law of averages, his chances of winning on the eleventh try are better.

The reasoning is flawed, of course, and for the same reason: it assumes that a given run in the past will effect the probability of obtaining a certain result on the next occasion.

Each instance of gambling is causally independent from every other instance.

So his chances of winning are not increased at all.

Considere la "falacia del jugador." La idea básica: un jugador ha jugado diez veces y perdió diez veces. Así el razona que por la ley de los medios, sus posibilidades de ganar en el undécimo intento son mejores.

El razonamiento es defectuoso, por supuesto, y por la misma razón: se supone que una carrera dada en el pasado afectará a la probabilidad de obtener un resultado determinado en la próxima ocasión.

Cada instancia de los juegos de azar es causalmente independiente de cualquier otra instancia.

Así que sus posibilidades de ganar no se incrementan en absoluto.

Probability: the Smoking Situation

We have seen that the causal relationship between smoking and lung cancer cannot be described accurately using the language of necessary or sufficient conditions.

People do smoke without getting cancer, so smoking is neither a necessary nor a sufficient condition for getting cancer.

People’s body systems are different, with some more resilient than others. Thus the greater complexity.

Probability theory gives us the conceptual machinery needed to talk about the causal relationship between the two.

Hemos visto que la relación causal entre el fumando y el cáncer de pulmón no puede ser descrito con precisión utilizando el lenguaje de las condiciones necesarias o suficientes.

La gente fuma sin contraer cáncer, por lo tonto fumando no es ni necesaria ni condición suficiente para contraer cáncer.

Sistemas del cuerpo de las personas son diferentes, con algunos más resistentes que otros. Así, la mayor complejidad.

La teoría de probabilidades nos da la maquinaria conceptual necesario para hablar de la relación causal entre los dos.

Probability: the Smoking Situation

Research shows that if we examine a wide variety of cases, we discover a complex relationship between smoking and lung cancer, described as above, that smoking increases your odds of getting cancer by a huge amount.

These results do not tell you that you will get cancer if you smoke. They just give you odds based on what has been observed in the past, regardiing others.

This might be described using the term propensity, or predisposition. Smoking might give you a predisposition to getting cancer, or a propensity.

Las investigaciones muestran que si examinamos una variedad vasta de casos, se descubre una relación compleja entre fumar y el cáncer de pulmón, que se describe como el anterior, que el tabaquismo aumenta las probabilidades de contraer cáncer por una cantidad enorme.

Estos resultados no dicen que usted va a tener cáncer si fuma. Ellos sólo le dan probabilidades en base a lo que se ha observado en el pasado, regardiing otros.

Esto puede ser descrito usando la propensión plazo, o predisposición. Fumar podría darte una predisposición a contraer cáncer, o una propensión.

Probability: Summing Up

We have only scratched the surface of probability theory.

We have not talked about expected values, estimating with confidence, decision theory, the probability calculus (which combines features of the formal systems we saw in deductive logic with concepts of probability), or Bayes’ theorem, as these belong in a more advanced course.

But it might be useful to note that these exist.

Sólo hemos arañado la superficie de la teoría de probabilidades.

No hemos hablado de los valores esperados, estimar con confianza, teoría de la decisión, el cálculo de probabilidades (que combina las características de los sistemas formales que vimos en la lógica deductiva con conceptos de probabilidad), o el teorema de Bayes, ya que estos pertenecen a un curso más avanzado .

Pero podría ser útil señalar que estos existen.

Probability: Summing up

We may have answered a question we had at the beginning of our study of inductive reasoning:

Is there a point at which it becomes irrational to reject the conclusion of an inductive argument just because it hasn’t proven its conclusion absolutely?

Since probability theory displays broad tendencies, the answer is probably Yes. You should believe your changes of getting cancer are greater if you smoke (e.g.) which is the conclusion of that line of reasoning.

Es posible que hayamos respondido a una pregunta que tuvimos en el comienzo de nuestro estudio del razonamiento inductivo:

¿Hay un punto en el que se convierte en irracional rechazar la conclusión de un argumento inductivo sólo porque no ha demostrado su conclusión absolutamente?

Desde la teoría de probabilidad muestra las tendencias generales, la respuesta es probablemente Sí. Debe cree que sus cambios de contraer cáncer son mayores si usted fuma (por ejemplo), que es la conclusión de esa línea de razonamiento.

Source materials

David S. Moore, Statistics: Concepts and Controversies, 3rd Ed. (New York: W.H. Freeman, 1991).

top related