Sei sulla pagina 1di 8

El giro probabilístico.

La discusión de la parsimonia dio un giro probabilístico en el siglo veinte.1 El proyecto


consistía en utilizar la teoría de la probabilidad para analizar y justificar la navaja de
Ockham. No todos estos esfuerzos tuvieron éxito, pero dos de ellos tuvieron éxito. Creo
que hay dos "paradigmas de parsimonia" en los cuales las ideas de probabilidad muestran
que la parsimonia es epistémicamente relevante. Los dos paradigmas se desarrollaron
dentro de dos marcos filosóficos diferentes para comprender la probabilidad; Un
paradigma encuentra su hogar en el bayesianismo, el otro en el frecuentismo. Para sentar
las bases para investigar los enfoques probabilísticos de la navaja de Ockham, comenzaré
este capítulo con un breve (y espero que sea accesible) de la probabilidad. Pero primero
quiero decir un poco sobre el bayesianismo y el frecuentismo.

Dos filosofías de la probabilidad

El bayesianismo es una filosofía de inferencia que se remonta a un resultado matemático


(un teorema) obtenido por Thomas Bayes (1701–1761). El teorema de Bayes (1764)
describe cómo la probabilidad que usted asigna a una hipótesis debería verse influenciada
por la nueva evidencia que adquiera. El bayesianismo es ahora una filosofía general del
razonamiento científico que se ha enriquecido y se ha vuelto más detallado que sus inicios
en el siglo XVIII. Esta filosofía dice que el razonamiento científico tiene el objetivo
alcanzable de averiguar cuán probables son las diferentes hipótesis científicas, dada la
evidencia disponible. O más modestamente, sostiene que la ciencia está en el negocio de
averiguar qué hipótesis son más probables que otras, nuevamente a la luz de la evidencia.
De cualquier manera, la ciencia implica crucialmente pensar en las probabilidades de las
hipótesis.

El bayesianismo no fue la filosofía dominante de la inferencia probabilística.


Que los propios científicos se abrazaron en el siglo XX. Más bien, el
El modo dominante de pensamiento era el frecuentismo. El frecuentismo no tiene la
unidad simple que exhibe el bayesianismo; más bien, es una colección variada de ideas
acerca de cómo deben usarse las observaciones para evaluar hipótesis. El frecuentismo
usa ideas probabilísticas en esta empresa tal como lo hace el bayesianismo, pero su idea
básica es diferente. El primer mandamiento del frecuentismo es: ¡no debes hablar sobre
las probabilidades que tienen las hipótesis! La afirmación de que la ciencia tiene el trabajo
de evaluar qué tan probables son las diferentes teorías puede sonar como una verdad sin
importancia, pero esta observación de sonido inocente es algo que los frecuentistas
rechazan categóricamente. La diferencia entre el frecuentismo y el bayesianismo a
menudo se caracteriza en términos de lo que cada filosofía entiende el concepto de
probabilidad. La imagen estándar es que los bayesianos piensan que la probabilidad

1
Tomé prestada esta frase de la antología influyente de Richard Rorty de 1967, The Linguistic
Turn, que documentó el énfasis en el lenguaje como un tema filosófico en los ochenta años
anteriores. Rorty obtuvo la expresión de Gustav Bergmann (1906–1987).
significa un grado racional de certeza, mientras que los frecuentistas definen la
probabilidad en términos de frecuencia. Cuando piensa en su probabilidad de contraer
cáncer de pulmón, dado que fumó muchos cigarrillos durante muchos años, los
Bayesianos consideran que es probable que usted tenga cáncer de que se va a fumar, dado
su historial de tabaquismo, probabilidad de representar con qué frecuencia los fumadores
pesados contraen cáncer de pulmón. Visto de esta manera, el bayesianismo es sobre algo
subjetivo (= en la mente de un sujeto racional) y el frecuentismo es sobre algo objetivo
(= afuera en el mundo externo). Si las dos filosofías tienen diferentes temas, ¿por qué hay
un conflicto entre ellas?2 ¿Por qué estas escuelas partidistas no pueden ver que la
probabilidad tiene un significado tanto subjetivo como objetivo (como lo reconoció
Carnap 1950) con cada uno de los ismos a su manera? ¿Por qué la gente no puede llevarse
bien? La respuesta es que el bayesianismo y el frecuentismo discrepan fundamentalmente
acerca de cuáles deberían ser los objetivos de la ciencia. Hay más en el debate que una
pregunta sobre el significado de la palabra "probabilidad". Pero incluso la idea de que
cada escuela está ligada a una única interpretación de probabilidad es demasiado simple.

Por un lado, hay situaciones en las que las inferencias bayesianas se pueden llevar a cabo
utilizando probabilidades que son tan objetivas como cualquier frecuentista podría desear.
Si le digo cuál es la frecuencia de la tuberculosis en Wisconsin, que Susan vive en ese
estado y que su prueba de tuberculosis resultó positiva (cuando el procedimiento de
prueba produce resultados erróneos con cierta frecuencia), puede calcular la probabilidad
de que Susan tenga tuberculosis, dado el resultado de su prueba. Veremos en un momento
cómo los bayesianos hacen este cálculo. El punto actual es que las probabilidades
utilizadas en este cálculo bayesiano tienen que ver con cuestiones objetivas de hecho.
¡Los bayesianos pueden ir a trabajar en frecuencias!
Por otro lado, hay buenas razones por las cuales las probabilidades que los frecuentistas
discuten a menudo no deben interpretarse como frecuencias. Los frecuentistas están
contentos de hablar sobre la probabilidad de que una moneda justa tenga cabezas de
aterrizaje si se arroja. Equidad significa que el valor de esta probabilidad es 1⁄2. Pero las
monedas justas a menudo no tienen frecuencias que coincidan con esta probabilidad. Por
ejemplo, supongamos que lanzas una moneda justa tres veces y luego la destruyes. La
frecuencia de las cabezas en la corta vida útil de esta moneda no será igual al 50 por
ciento. Por esta sencilla razón, no puede equiparar probabilidad con frecuencia real. Puede
responder que la idea de frecuencia relevante es la hipotética frecuencia de largo plazo.
Aunque una moneda justa no arrojará caras el 50% del tiempo si se lanza solo una vez, la
sugerencia es que si una moneda es justa, la frecuencia de las cabezas convergerá en el
50% si lanza la moneda una y otra vez. ¿Qué está mal con eso? Consideremos lo que
significa “convergir”. Aquí hay una interpretación:

una moneda tiene una probabilidad de que caiga cabezas de 1⁄2 precisamente cuando la
frecuencia de las cabezas se acerque más y más al 50 por ciento cuando la moneda se
lance repetidamente.

2
Hay otro uso de esta terminología, como cuando las personas afirman que varias normas son
objetivas. Aquí el pensamiento es que las normas son correctas y no arbitrarias. Muchos
bayesianos son objetivistas en este sentido.
Esto es falso Es posible que una moneda justa produzca dos cabezas en los primeros
cuatro lanzamientos y tres cabezas en los primeros cinco. No es necesario que haya un
acercamiento monotónico a un 50 por ciento. Podemos reemplazar esta sugerencia
defectuosa con algo que es cierto. Considere cualquier pequeño número positivo que
quiera; llámalo ε ("épsilon").

Una moneda tiene una probabilidad de caer cabezas de 1⁄2 precisamente cuando la
probabilidad se acerca a 1 de que la frecuencia de las cabezas estará dentro de ε del 50
por ciento a medida que la cantidad de lanzamientos se acerca al infinito.

Esta es una versión de la ley de los grandes números. Observe que el concepto de
probabilidad aparece en ambos lados de esta bicondicional. Esta no es una definición
adecuada; es circular Por esta razón, la ley de los grandes números, aunque verdadera, no
proporciona una interpretación de la probabilidad en el sentido requerido.3

A pesar de su nombre, el frecuentismo como filosofía de la inferencia científica no tiene


el compromiso de interpretar la probabilidad en términos de la idea de frecuencia, ya sea
real o hipotética. Aunque definir el bayesianismo y el frecuentismo en términos de sus
diferentes interpretaciones de probabilidad es demasiado simple, contiene una onza de
verdad. Los bayesianos a menudo comparan la probabilidad con el grado racional de
certeza y los frecuentistas siempre quieren que la probabilidad sea más objetiva que esto.
Pero el meollo del asunto es que las dos filosofías proponen diferentes epistemologías,
no semánticas diferentes. Los frecuentistas quieren que las asignaciones de valores a las
probabilidades tengan una "justificación objetiva". Por ejemplo, debería ser posible
defender las asignaciones de una persona citando datos de frecuencia o una teoría
justificada empíricamente. No es lo suficientemente bueno como para decir "bueno, mi
asignación de probabilidad simplemente refleja cuán seguro estoy en la proposición en
cuestión". Cuando hablo de objetividad en lo que sigue, tengo presente este uso
epistémico.
Un manual de probabilidad y los conceptos básicos del bayesianismo
Antes de discutir los mundos partidistas del bayesianismo y el frecuentismo, comenzaré
con el núcleo matemático del concepto de probabilidad en sí mismo. Esto es algo en lo
que coinciden bayesianos y frecuentistas. Las asignaciones de probabilidad siempre se
basan en suposiciones. Por ejemplo, si asume que el mazo de cartas antes que usted es
estándar y que el repartidor le está repartiendo cartas "al azar", puede concluir que la
probabilidad de que la primera carta que reciba sea un as de espadas es 1/52 y que la
probabilidad de que la primera carta que recibas sea un as o un jack es 8/52. Sin los
supuestos mencionados, estas asignaciones de probabilidad pueden ser incorrectas. yo
haré explícito el papel de los supuestos en mi descripción de probabilidad al agregar un
subíndice "A" a los axiomas canónicos de la teoría de la probabilidad, que se describe en
el

3
Aquí hay una tercera sugerencia para definir la probabilidad en términos de frecuencia: una
moneda tiene una probabilidad de lanzar cabezas de 1⁄2 precisamente cuando la moneda tendría
que caer cabezas
50 por ciento de las veces, si se lanzara un número infinito de veces. Aunque esta
bicondicional no es circular, todavía hay un problema. No es imposible que una moneda
justa caiga cara cada vez que se lance, incluso si se lanza un número infinito de veces. Es
cierto, la probabilidad de la secuencia infinita HHHH. . . es cero Sin embargo, no se puede
equiparar imposibilidad con una probabilidad de cero. La probabilidad de cualquier
secuencia infinita (incluida la secuencia alterna HTHTHT ...) es cero si la moneda es
justa.

por Kolmogorov (1950):

0 ≤ PrA (H) ≤ 1.
PrA (H) = 1 si A implica lógicamente H.
PrA (H o J)
= PrA (H) + PrA (J) si A implica lógicamente que H y J son incompatibles.

PrA (H) representa la probabilidad de la proposición H según los supuestos codificados


en las proposiciones A. La aplicación de la probabilidad a un problema implica el
aislamiento de una clase de proposiciones que deben evaluarse. En el ejemplo de la
tarjeta, las proposiciones se refieren a las diferentes tarjetas que puede recibir, no a si
lloverá mañana. Observe que la probabilidad en los axiomas anteriores es una función
matemática: asigna proposiciones a números. Dos funciones de probabilidad diferentes
pueden asignar números diferentes a la misma proposición. El modelo que acabo de
describir dice que el mazo es estándar y que las cartas se reparten al azar, con el resultado
de que PrA (la primera carta que se repartirá será un as de picas) = 1/52. Si pensáramos
que el mazo estaba formado por cincuenta y dos ases de este tipo, usaríamos una función
de probabilidad diferente, PrB (-) según la cual PrB (la primera carta que recibirás será
un as de esp adas) = 1.
Aquí hay tres las consecuencias de los axiomas indicaron que no dependen de qué
supuestos se incluyen en A: (i) Las tautologías tienen una probabilidad de 1 y las
contradicciones tienen una probabilidad de 0; (ii) Si las proposiciones H y J son
lógicamente equivalentes, entonces PrA (H) = PrA (J); (iii) PrA (H) = PrA (H&J) + PrA
(H y no J). Esta última igualdad se desprende de (ii) y el tercer axioma; Se le llama el
teorema de probabilidad total.
El tercer axioma describe cómo la probabilidad de una disyunción se resuelve por las
probabilidades de los disyuntivos si los disyuntivos son incompatibles entre sí. Pero ¿y si
los disyuntivos no son mutuamente excluyentes? Hay un principio general disponible
aquí que puedes visualizar al pensar en probabilidades en términos de los diagramas que
inventó John Venn (1834–1923). La figura 2.1 muestra un cuadrado en el que cada lado
tiene una longitud de una unidad. Supongamos que cada punto en el cuadrado representa
una posible forma en que el mundo podría ser. Cada proposición de la que podríamos
hablar puede asociarse con un conjunto de puntos en el cuadrado, el conjunto de posibles
situaciones en las que la proposición es verdadera. El área del cuadrado es 1, que
convenientemente es también el valor máximo que puede tener una probabilidad. Las
tautologías son verdaderas en todas las situaciones posibles; llenan toda la unidad
cuadrada. La figura representa las proposiciones H y J como dos óvalos. La intersección
de los dos óvalos, su área de superposición, representa la conjunción H&J. Como hay una
región de superposición, las dos proposiciones son compatibles entre sí; Hay situaciones
en las que ambas son ciertas. Espero que el diagrama de Venn haga obvio que

Pr(H or J ) = Pr(H) + Pr(J ) − Pr(H&J ).

La razón para restar Pr (H&J) es asegurar que el área de superposición no se cuenta dos
veces. Cuando Pr (H&J) = 0, la igualdad anterior se reduce al caso especial descrito en el
Axioma 3. ¿Qué se puede decir acerca de la probabilidad de conjunciones? Aquí es donde
necesitamos definir el concepto de independencia probabilística: las proposiciones H y J
son probabilísticamente independientes en el modelo de probabilidad A, precisamente
cuando PrA (H&J) = PrA (H) × PrA (J). Cuando lanzas una moneda normal dos veces, la
probabilidad de obtener una cabeza en el primer lanzamiento es 1/2 y la probabilidad de
obtener una cabeza en el segundo también es 1/2. Los lanzamientos son
probabilísticamente independientes; la probabilidad de obtener caras en ambos
lanzamientos es de 1/4. Ese es un hecho empírico contingente sobre el lanzamiento de
monedas; es lógicamente posible que los lanzamientos sean probabilísticamente
dependientes. Supongamos que vivimos en un mundo en el que hay dos tipos de monedas:
el 50 por ciento de los
Las monedas tienen dos cabezas y el 50 por ciento tiene dos colas. Selecciona una moneda
en
Al azar y tirarlo repetidamente. Bajo los supuestos indicados, PrA (Cabezas en el primer
lanzamiento) = PrA (Cabezas en el segundo lanzamiento) = 1 La razón para restar Pr (H
& J) es asegurar que el área de superposición no se cuente dos veces. Cuando Pr (H & J)
= 0, la igualdad anterior se reduce al caso especial descrito en el Axioma 3. ¿Qué se puede
decir acerca de la probabilidad de conjunciones? Aquí es donde necesitamos definir el
concepto de independencia probabilística: la

Las proposiciones H y J son probabilísticamente independientes en el modelo de


probabilidad A, precisamente cuando

PrA (H & J) = PrA (H) × PrA (J).

Cuando lanzas una moneda normal dos veces, la probabilidad de obtener una cabeza en
el primer lanzamiento es 1/2 y la probabilidad de obtener una cabeza en el segundo
lanzamiento también es 1/2. Los lanzamientos son probabilísticamente independientes;
La probabilidad de obtener caras en ambos lanzamientos es de 1/4. Ese es un hecho
empírico contingente sobre el lanzamiento de la moneda; es lógicamente posible que los
lanzamientos sean probabilísticamente dependientes. Supongamos que vivimos en un
mundo donde hay dos tipos de monedas: el 50 por ciento de las monedas tiene dos caras
y el 50 por ciento tiene dos colas. Seleccionas una moneda al azar y la lanzas
repetidamente. Bajo los supuestos indicados, PrA (Cabezas en el primer lanzamiento) =
PrA (Cabezas en el segundo lanzamiento) = 1/2

Sin embargo, también es cierto que PrA (se dirige tanto al primer como al segundo
lanzamiento) = 1/2. La independencia falla. En este mundo de fantasía, saber el resultado
en el primer lanzamiento le brindará información sobre lo que sucederá en el segundo. En
el mundo real, los lanzamientos son independientes; saber el resultado del primer
lanzamiento no cambia la probabilidad que asigna al segundo. La independencia
probabilista y la independencia lógica son diferentes. Las proposiciones X e Y son
lógicamente independientes precisamente cuando las cuatro conjunciones de la forma ±
X & ± Y son lógicamente posibles (es decir, no contradictorias). Por ejemplo, "está
lloviendo" y "usted está llevando un paraguas" son lógicamente independientes entre sí.
Sin embargo, si sigue los consejos de previsiones meteorológicas precisas, estas dos
proposiciones dependerán probabilísticamente entre sí. Considere dos proposiciones que
no sean ni tautologías ni contradicciones: si son probabilísticamente independientes,
entonces son lógicamente independientes, pero la implicación inversa no es válida.

Aquí hay un pequeño ejercicio que consiste en pensar cómo la probabilidad de una
conjunción está relacionada con la probabilidad de sus conjunciones. Se trata del ejemplo
sobre los veleros mencionados en el capítulo anterior en la sección sobre Copérnico y
Ptolomeo. Mi amiga Susan vio un velero rojo en el lago Mendota el lunes, y el martes
también vio un velero rojo. En la tabla adjunta, he enumerado las probabilidades de
algunos colores de velero en cada uno de los dos días. Tenga en cuenta que las tres
probabilidades para cada día suman uno; Supongo que los veleros en el lago no tienen
ninguna posibilidad de ser amarillos. Estas probabilidades se llaman probabilidades
marginales porque están escritas a lo largo de los márgenes de la tabla. Ahora
consideremos estas hipótesis:

(UNO) Susan vio el mismo bote en ambos días.


(DOS) Susan vio un barco el lunes y un barco diferente el martes.

Las celdas en la tabla representan conjunciones. Por ejemplo, la celda en la esquina


superior derecha representa la posibilidad de que el velero visto el primer día sea verde y
el que se ve en el segundo sea azul. ¿Qué probabilidades dictan las DOS hipótesis para
las células? ¿Qué entradas de celda dice UNO que son correctas? Supongamos en ambos
casos que los veleros no cambian de color día a día. ¿Cómo se aplica el concepto de
dependencia probabilística a lo que dicen las dos hipótesis? El valor de verdad de una
conjunción H&J está determinado por el valor de verdad de H y el valor de verdad de J.
La conjunción es verdadera si H es verdadera y J es verdadera, y de lo contrario es falsa.
Esto es lo que quieren decir los lógicos cuando dicen que la conjunción es un "operador
de verdad funcional". Acabamos de ver que la probabilidad de la conjunción H&J no está
resuelta por la probabilidad de H y la probabilidad de J. En todo caso, es las
probabilidades de conjunciones que resuelven la probabilidad de una conjunción. Aquí
tengo en mente un hecho que mencioné anteriormente, el teorema de probabilidad total,
que dice que Pr (H) = Pr (H&J) + Pr (H & not J). Otro concepto que será útil en lo que
sigue es la expectativa matemática. Ya te has topado con esto cuando escuchaste hablar
sobre la "esperanza de vida" de un bebé nacido este año. Como primer paso, esta cantidad
puede entenderse como un promedio. Si dice que la esperanza de vida de un bebé nacido
este año en los Estados Unidos es de 80 años, esto significa que 80 años será el promedio
de vida de las personas nacidas este año. Seamos más precisos al hablar de probabilidades
y lanzamientos de monedas. Si lanzas una moneda normal diez veces, hay once resultados
posibles (0 caras, 1 cabeza, 2 caras, ..., 10 caras) y cada una de ellas tiene su propia
probabilidad. El número esperado de cabezas se define de la siguiente manera.

A esperado (número de cabezas) =


(0) PrA (exactamente 0 cabezas) + (1) PrA (exactamente 1 cabeza) +
(2) PrA (exactamente 2 cabezas) + ··· + (10) PrA (exactamente 10 cabezas)
= ∑10 i = 0 (i) PrA (exactamente i cabezas).

Aquí A es la suposición de que la moneda es justa y que la arrojas diez veces. Resulta que
el valor esperado es 5. Al hacer este experimento de diez lanzamientos una y otra vez,
puede estar cada vez más seguro de que el número promedio de cabezas en las diferentes
repeticiones de diez lanzamientos es cercano a 5. Este es el Ley de grandes números que
mencioné anteriormente.

El número esperado a menudo no es el número que debe esperar. Si tu arroje una moneda
justa tres veces, el número esperado de caras es 1.5, pero esto no significa que deba
esperar que haya 1.5 caras cuando realice este experimento solo una vez. En el
experimento que describí hace cinco párrafos sobre un mundo en el que todas las monedas
tienen dos caras o dos colas, ¿cuál es la frecuencia esperada de las cabezas si lanzas una
moneda elegida al azar diez veces? ¿Cuál es la frecuencia que debe esperar? Aunque los
axiomas de probabilidad que he descrito siempre involucran una relación entre los
supuestos que definen la función de probabilidad y esta o aquella proposición, todavía
tengo que definir la idea de "probabilidad condicional". He estado hablando de PrA (H),
No se trata de PrA (H | E). Este último se lee como "la probabilidad de H dado E." Tenga
cuidado de entender lo que esto significa. No significa que E sea verdadera y que, por lo
tanto, H tenga cierta probabilidad. Sólo como "si arrojas la moneda, entonces caerá cara"
no afirma que lanzas la moneda, por lo que "PrA (la moneda te deja caer la moneda) =
1/2" no dice que realmente lanzas la moneda. Lo que significa es esto: supongamos, por
el momento, que has tirado la moneda. Luego se le pregunta qué tan probable es que la
moneda caiga cara, dada esa suposición. El valor de la probabilidad condicional es la
respuesta a esta pregunta. El concepto de probabilidad condicional puede introducirse
diciendo cómo se relaciona con la noción de probabilidad incondicional que se define por
nuestros axiomas:

PrA(H| E ) = PrA(H&E )/PrA(E ) if PrA(E ) > 0.

Esto se llama la fórmula de relación. Si A dice que E tiene una probabilidad de cero, esta
"definición" de probabilidad condicional no ofrece consejos sobre qué significa
probabilidad condicional. Pongo "definición" en citas de miedo porque una definición
(completa) debe proporcionar condiciones necesarias y suficientes; la declaración
anterior proporciona sólo el último. Algunos piensan que la probabilidad condicional PrA
(H | E) no tiene significado cuando PrA (E) = 0. No estoy de acuerdo. Una moneda puede
ser justa incluso si la encierras en una caja de seguridad inexpugnable para que la moneda
nunca pueda ser lanzada. En este caso, PrA (la moneda cae con la cabeza, arrojas la
moneda) = 1/2 aunque PrA (lanzas la moneda) = 0 (R ́enyi 1970; Hajek 2003; Sober
2008b). Hay una segunda calificación que se debe registrar en relación con la fórmula de
relación, que trataré más adelante. Pero por ahora vale la pena señalar que si PrA (H | E),
PrA (H&E) y PrA (E) tienen valores y PrA (E)> 0, entonces la fórmula de relación debe
mantenerse.

Potrebbero piacerti anche