Sobre Proba
Diciembre 21, 2008
1_ Aleatoriedad, Esperanza y Varianza.
2_ Probabilidad como frecuencia relativa.
3_ ¿Que es la ley de los grandes numeros?¿Por que se llama asi?
4_ ¿Que significa el teorema central del limite?
5_ ¿De donde sale la distribucion de Poisson? ¿Que es un proceso de Poisson?
6_ Variable Aleatoria vs Funcion medible
7_ Sigma-algebra como informacion.
8_ ¿En que se diferencia la Teoria de la Medida de la Teoria de Probabilidades?
9_ Real-Proba o Proba-Real
1_Aleatoriedad, Esperanza y Varianza.
Supongamos que tenemos una particula sobre la recta real y sea su posicion. Puede ser que no sepamos cuanto vale
sino que solo tenemos una densidad
y sea sabe que
. Decimos entonces que
es una variable aleatoria.
Si tenemos que arriesgar cuanto vale , ¿que diriamos? En principio podemos arriesgar cualquier cosa, pero una propuesta razonable es la esperanza de
(*) que no es otra cosa que un promedio ponderado de
.
Podemos definir ahora la varianza de como
La varianza vendria a ser el error cuadratico cometido al reemplazar por su esperanza, o dicho de otro modo el precio que pagamos al resumir
por
. Mas precisamente, si definimos
Luego tiene un minimo global en
. Notemos que
con igualdad solo en el caso en que
casi siempre.
Por otro lado, si esta muy concentrada alrededor de un
en particular entonces
tendra probabilidad grande de valer cerca de
por lo que la varianza sera chica. Analogamente si
es una funcion bastante suave y que no esta muy concentrada en ningun lado entonces cualquier resumen de
sera poco confiable por lo que
sera grande.
El principio de incertidumbre se puede formular como que si e
denotan la posicion y momento de una particula en la recta entonces
donde
es la constante de Planck. Es decir que no podemos estar muy seguro de cuanto vale
y de cuanto vale
porque eso querria decir que las densidades de ambas estan muy conentradas por lo que
y
deberian ser ambas “pequeñas”.
(*) En las preguntas que siguen se dan otros argumentos por lo que la esperanza de una variable aleatoria es un “resumen” razonable de
.
2.1_ Probabilidad como frecuencia relativa.
Supongamos que estamos interesados en calcular la probabilidad de que ocurra cierto evento al realizar cierto experimento. Lo que podemos hacer es lo siguiente, repitamos varias veces el experimento y verifiquemos en cada caso si
ocurrio o no. Sea
numero de veces que ocurrio
en los primeros
experimentos, luego
es la frecuencia relativa de
.
La propuesta frecuentista es poner , es decir, interpretar las probabilidades como frecuencias relativas. Cabe preguntarse si la interpretacion frecuentista es correcta cuando partimos de un espacio de probabilidad
(con las probabilidades ya dadas). Es decir, ¿es la frecuencia relativa de que ocurra
su probabilidad?
La respuesta es que sí! Y es un simple corolario de la ley de los grandes numeros.
Continuara….
3_ ¿Que es la ley de los grandes numeros? ¿Porque se llama asi?
Una presentacion informal es la siguiente:
Supongamos que jugamos el siguiente juego, tiramos un dado y si sale par nos pagan $2, si sale o
pagamos $1 y si sale
pagamos $3. Podemos decir entonces que vamos a ganar $2 con probabilidad
, perder $1 con probabilidad
y $2 con probabilidad
.
Sea la ganacia, es decir que
o
. Notemos que
no es un numero sino una variable aleatoria que toma los valores
o
con probabilidades
respectivamente.
El valor esperado de que denotaremos por
(su esperanza) es:
Veamos que este valor no es arbitrario y que es un numero intimamente relacionado a la variable aleatoria
.
Supongamos ademas que no jugamos una sola vez sino varias y sean las respectivas ganancias en cada turno. Por ultimo pongamos
, la ganancia despues de haber jugado
veces.
La Ley debil de los grandes numeros dice que con probabilidad alta, si es grande entonces
(la ganacia promedio) es parecido a
.
La Ley fuerte de los grandes numeros dice que con probabilidad 1, .
Es decir que si jugamos indefinidamente, a la larga es como si en cada turno estemos ganando . Por esto es que llamamos a
el “valor esperado del juego”. (Otra interpretacion es que si en vez de tirar una persona muchas veces el mismo dado pensamos en muchas personas tirando el dado al mismo tiempo entonces en promedio cada una de ellas va a ganar
).
Podemos concluir entonces que este juego no es justo ya que la banca va a perder plata con probabilidad muy grande.
De forma mas general, dada una sucesion de variables aleatorias independientes e identicamente distribuidas con esperanza
se tiene que:
Ley Debil: Para todo ,
Ley Fuerte: con probabilidad
.
Dicho de otra forma, la ley debil dice que para valores grandes de ,
es parecido a
con probabilidad alta. La ley fuerte dice en cambio que con probabilidad
,
tiende a
. El interes esta centrado en lo que ocurre “a la larga” (o para valores grandes de
, de ahi el nombre).
2.2_ Probabilidad como frecuencia relativa.
Volviendo a la propuesta frecuentista….
El experimento en cuestion seria “tomar un punto de ” y que ocurra
no es otra cosa que “el punto estaba en
“. Pongamos
si en el
esimo experimento ocurrio
y
en caso contrario, luego las
son variables aleatorias independientes e identicamente distribuidas pues
con probabilidad
y
con probabilidad
.
Luego:
Notemos que , luego por la ley fuerte de los grandes numeros
Es decir que como queriamos!!!!!
Si tenemos variables aleatorias independientes y con la misma distribucion
. ¿Como podemos hacer para estimar
?
La distribucion empirica luego de las primeras observaciones es
Donde si
y
en caso contrario. Notemos que
son variables aleatorias independientes e identicamente distribuidas con
.
Luego por la Ley de los grandes Numeros (puntualmente).
Teorema Glivenko-Cantelli: uniformemente con probabilidad 1.
4_ ¿Que significa el teorema central del limite?
“One of the most beautiful and significant principles in mathematics is the central limit theorem: any random quantity that arises as the sum of many small independent contributions is distributed very much like a Gaussian random variable. The most familiar example is coin tossing. We use a coin whose decoration is a bit austere: it has on one side and
on the other. Let
be the outcomes of
independent tosses. Thus the
are independent random variables, each of which takes the values
and
each with probability
. Then the normalised sum
belongs to an interval of the real line with probability very close to
The normalisation , ensures that the variance of
is
: so there is some hope that the
will all be similarly distributed.” Keith Ball
Es por esto que la distribucion normal (o la famosa campana de Gauss) aparece por todos lados (y de ahi que la llamamos “Normal”) pues si una variable aleatoria es la suma de muchas variables aleatorias independientes con una alta probabilidad de que cada una de ellas sume poquito entonces la distribucion de nuestra variable aleatoria sera muy parecida a la de una normal (ver por ejemplo la version de Lyapunov del Teorema Central del Limite).
Un ejemplo de como usar en la practica el teorema central del limite:
Una fabrica tiene rollos de tela puestos en venta. Se sabe que los metros de tela de una tercera parte de ellos tienen una distribucion y el numero de metros de tela de los rollos restantes tienen una distribucion
.
¿Calcular cuantos rollos deberia comprar la tienda para que la probabilidad de adquirir por lo menos metros de tela sea al menos
?
Para responder la pregunta anterior lo que necesitamos es la distribucion de la variable aleatoria
total de metros de tela comprados. El problema es que si bien para valores pequeños de
se puede obtener la distribucion
, para valores mas grandes la cuenta se vuelve cada vez mas complicada y eso sin mencionar que
es la incognita!!!
¿Como nos ayuda el teorema central del limite en este caso? La idea es que como (donde
es la variable aleatoria que da cuenta de los metros de tela en el
esimo rollo) con las
independientes e identicamente distribuidas entonces para
grande
tiene que ser parecida a una normal
(donde
y
).
Si calculamos y
entonces podemos aproximar la distribucion de
y obtener una respuesta aproximada.
Luego es como una normal
, o dicho de otra manera
es como una normal
.
Ahora, si y solo si
Pero como luego
si y solo si
de donde
Es decir que . En conclusion, si la tienda compra al menos
rollos entonces tendra al menos
metros de tela con probabilidad
.
Notemos que para la cuenta que hicimos no importa la distribucion de la , nos alcanza con conocer su esperanza y su varianza. Es cierto que la anterior no es una respuesta exacta sino aproximada. De todas formas se puede dar cotas para el error cometido:
Teorema (Berry-Esseen): Existe una constante tal que si la variables aleatorias
son independientes e identicamente distribuidas con
y
entonces
“I know of scarcely anything so apt to impress the imagination as the wonderful form of cosmic order expressed by the “Law of Frequency of Error”. The law would have been personified by the Greeks and deified, if they had known of it. It reigns with serenity and in complete self-effacement, amidst the wildest confusion. The huger the mob, and the greater the apparent anarchy, the more perfect is its sway. It is the supreme law of Unreason. Whenever a large sample of chaotic elements are taken in hand and marshaled in the order of their magnitude, an unsuspected and most beautiful form of regularity proves to have been latent all along.”
Sir Francis Galton en Natural Inheritance, 1889.
5_ ¿De donde sale la distribuciond de Poisson? ¿Que es un proceso de Poisson?
Asi como el interes por la distribucion normal esta justificado por el teorema central del limite, hay una buena razon para estar interesados en variables aleatorias con distribucion de Poisson.
Supongamos que para cada tenemos una variable aleatoria
que va a contar la cantidad de ocurrencias de cierto evento en los primeros
segundos. Es razonable pedirle a las
que verifiquen las siguientes condiciones:
* .
* para todos
.
* son variables aleatorias independientes.
* y
.
Si la familia de variables aleatorias verifica las condiciones anteriores entonces decimos que tenemos un proceso de Poisson y se tiene que
para todo
.
6_ Variable Aleatoria vs Funcion medible
Diccionario Proba/Real
Espacio Muestral/Espacio de Medida
Probabilidad/Medida
Variable Aleatoria/Funcion Medible
Observables/Medibles
Funcion Caracteristica/Transformada de Fourier
Esperanza/Integral de Lebesgue
No es un simple capricho el llamar variable aleatoria a las funciones medibles. Es cierto que formalmente son equivalentes, pero solo formalmente!!!
Una funcion es una relacion entre dominio y codominio, si estamos interesados en conocer la funcion estamos interesados en saber qué elemento del codominio corresponde a cada elemento del dominio.
Cuando pensamos en una variable aleatoria el dominio pasa a un segundo plano, lo que nos interesa es su distribucion!! En cierto sentido podemos decir que “conocemos” una variable aleatoria cuando “conocemos” su distribucion pero seria una locura decir lo mismo de una funcion medible!!!
Consideremos los procesos de Poisson, podemos pensar para fijar ideas que es la cantidad de llamadas recibidas en los primeros
segundos. Es impsoible saber cuantas llamadas van a haber pero lo que si sabemos es que
tendra una distribucion
. Esto seria una mera curiosidad desde el punto de vista de la teoria de la medida pero desde el probabilistico es todo lo que queriamos! (este ademas me parece un buen ejemplo para pensar acerca de ¿que es una variable aleatoria? ¿cuando la conocemos?¿Que es la aleatoriedad? etc…).
Cuando yo curse proba me ponia nervioso que me hablaban de las distribuciones y no me decian de donde salian, yo queria que me digan “esto es una funcion, este es su dominio y este su codominio”. Mi dibujo mental era algo asi:

¡Es que estaba anclado en el formalismo! ¡Yo queria verla como una funcion medible! Me costo bastante cambiar la forma de ver las cosas y correr la atencion de “la relacion entre” a “la distribucion”.
Si ahora me pidieran que dibuje una Variable Aleatoria el dibujo que haria seria algo asi:

No digo que lo unico que importe sea la distribucion ni que “el diccionario” sea inutil, solo que me parece una actitud peligrosa (y en la que cae la mayoria de la gente) decir que una variable aleatoria es lo mismo que una funcion medible. Me parece que hacer esto es negar toda la motivacion e intucion de una variable aleatoria, es reducir la matematica a su aspecto formal.
7_ Sigma-Algebra como informacion.
Un buen ejemplo de esta “intuicion” es la sigma-algebra como “informacion”. A mi me gusta pensar de la siguiente manera, supongamos que realizamos un experimento. Si lo que nos interesa es distinguir entre los posibles resultados podemos tratar de observar si ocurrieron ciertas cosas. Cada cosa que se pueda “observar” y nos permita dividir a los posibles resultados de nuestro experimento en dos (ocurrio y no ocurrio) nos dara un conjunto de nuestra algebra.
Por ejemplo si el experimento es tirar un dado podemos distinguir facilmente entre cada posible resultado . Pero ¿que pasa si no tenemos informacion completa???
Quizas las caras de los dados estan medio borrosas y el y el
no se distinguen muy bien en cuyo caso nuestra
algebra deberia ser la generada por
.
La situacion podria ser todavia mas complicada, quizas la unica informacion que podemos obtener del experimento es si el resultado es par o impar y si es mayor a o no. En este caso la
algebra deberia ser la generada por
y
. En este caso no tenemos forma de decidir si el resultado es
o no, decimos entonces que el
no es “observable”.
Otro ejemplo, pensemos en una persona tirando una moneda. Nuestro espacio muestral sera .
Consideremos ahora, para cada , la
algebra
generada por los conjuntos de la forma:
La informacion en es la de las primeras
tiradas.
En cambio si consideramos la
algebra que contiene a todos los subconjuntos de
entonces
es toda la informacion!!!
Dada una variable aleatoria , la sigma-algebra
es la menor
algebra en
que hace de
una funcion medible. La idea seria que
es la informacion que nos da conocer el valor de
. Por ejemplo si
entonces no habra forma de distinguir entre
y
por lo que
no los separa.
Siguiendo con el ejemplo de la persona tirando un dado indefinidamente, si luego
seria la
algebra
donde
. La informacion que nos da conocer
es el resultado en la
esima tirada.
El siguiente teorema parece bastante natural en este contexto aunque no por eso no deja de ser sorprendente. La idea es que si no aporta ningun informacion a
entonces es porque era una funcion (medible) de
.
Teorema (Doob): Dadas variables aleatorias,
es funcion (medible) de
si y solo si
es
.
Es facil entender ahora la esperanza condicional de una variable aleatoria respecto de otra. Si conocemos , ¿que arriesgariamos para
? La esperanza condicional
no es otra cosa que la mejor propuesta para aproximar a
(o resumir…) conociendo el valor de
. La idea es que solamente con la informacion que nos da conocer
tenemos que arriesgar un valor para
.
Notemos que es funcion (medible) de
si y solo si es
-medible, es decir si depende solo de la informacion que nos da la sigma-algebra
que no es otra cosa que la informacion que nos da conocer
(esto no es un argumento, solo un “lo que estamos diciendo es coherente).
De forma mas general se puede definir la esperanza condicional de una variable aleatoria
respecto de una
algebra
que no sera otra cosa que la funcion
-medible que mejor aproxime a
(o la mejor apuesta para
con la informacion de
).
8_ ¿En que se diferencia la Teoria de la Medida de la Teoria de Probabilidades?
Ademas de la aleatoriedad que está en el nucelo de la teoria de probabilidades hay dos ideas o conceptos que la diferencian de la teoria de la medida: la de independencia y la de usar distintas algebras en el mismo espacio.
Con respecto a la independcia Kolmogorov dice:
“The concept of mutual independence of two or more experiments holds, in a certain sense, a central position in the theory of probability. Indeed, as we have already seen, the theory of probability can be regarded from the mathematical point of view as a special application of the general theory of additive set functions. One naturally asks, how did it happen that the theory of probability developed into a large individual science possessing its own methods?
In order to answer this question, we must point out the specialization undergone by general problems in the theory of additive set functions when they are propose in the theory of probability.
The fact that our additive set function is non-negative and satisfies the condition
, does not in itself cause new difficulties. Random variables from a mathematical point of view represent merely functions measurable with respect to
, while their mathematical expectations are abstract Lebesgue integrals. The mere introduction of the above concepts, therefore, would not be sufficient to produce a basis for the development of a large new theory.
Historically, the independence of experiments and random variables represent the very mathematical concept that has given the theory of probability its peculiar stamp. The classical work of LaPlace, Poisson, Tchebychev, Markov, Liapounov, Mises and Bernstein is actually dedicated to the fundamental investigation of series of independent random variables. Though the latest dissertations (Markov, Bernstein and others) frequently fail to assume complete independence, they nevertheless reveal the necessity of introducing analogous, weaker conditions in order to obtain sufficiently significant results.
We thus see, in the concept of independence, at least the germ of the peculiar type of problem in probability theory.”
Un ejemplo de varias algebras en un mismo espacio es en la misma definicion de Martingalas:
Sea una sucesion de variables aleatorias en un espacio de probabilidad
y sea
una sucesion creciente de
algebras en
. Se dice que la sucesion
es una martingala si
es
-medible.
Si representa la fortuna de un apostador luego de la
esima apuesta y
representa su informacion sobre el juego hasta ese momento entonces la condicion (3) dice que el valor esperado de su fortuna en la proxima jugada sera el mismo que el de ahora (por eso las martingalas modelan juegos “justos”).
9_Real-Proba o Proba-Real
¿Que es mejor, cursar antes Real que Proba o Proba antes que Real?
Con el tiempo cambie de opinion, ahora me parece mejor cursar proba lo mas rapido posible y real dejarla para mas adelante.
En primer lugar, Proba es una materia mas sencilla que Real. Idealmente me da la impresion que lo mejor es cursar proba inmediatamente despues de Avanzado y Real despues de Proba. No es que crea que Proba sea necesaria como ejemplo para Real (*), pero sí creo que Real es una materia mas dificil que requiere de mas abstraccion y de mas madurez. Digamos que no cursaria Real despues que proba por una cuestion de correlatividades sino de tiempos o de madurez.
Hay algo que me gustaba de Proba y eran esos ejercicios con enunciado como un cuentito y que gran parte de la dificultad estaba en saber darse cuenta qué datos eran los importantes y saber traducirlos al lenguaje de Proba. Me parece que esta bueno tener una materia lo antes posible que trabaje este “paso a lo formal”.
Podria argumentarse que “Proba usa Real”. Hay infinidad de definiciones en Proba que podrian evitarse si uno ya curso Real, y mas importante aun, no solo evitar sino hacerlas mas claras!!!
En Proba se pierde mucho tiempo dando vueltas o escondiendo las sigma-algebras, los borelianos, las convergencias casi todo punto y en probabilidad (ie: en medida), las funciones caracteristicas etc…
Por ejemplo, en Proba uno define la esperanza de una variable aleatoria via una integral de Stieltjes (que hasta es complicado escribir Stieltjes!!). Lo malo de hacer esto es que no solo la defincion es algo oscura sino que hay cosas que cuesta bastante trabajo demostrar (ie: la esperanza de la suma es la suma de las esperaznas). Lo que se hace para esquivar este problema es dar definiciones alternativas para el caso continuo y el caso discreto y despues se ven que coinciden (y por ende las cosas se prueban solo en el caso continuo o en el discreto).
Todo esto es “ocultar la verdad” que es mas simple y mas clara. La esperanza de una variable aleatoria no es otra cosa que su integral sobre el espacio muestral respecto de la probabilidad. Las propiedades de la esperanza resultan todas obvias.
Es cierto, esto es un punto en contra de cursar antes Proba que Real. Pero y que??
¿Que hay de malo en decir que la esperanza de la suma es la suma de las esperanzas y dejarlo para demostrarlo mas adelante? ¿Porque ponerse tan nervioso al usar algo y despues demostrarlo con todo rigor? ¿Hay alguna ley que nos prohibe usar algo que sabemos cierto pero todavia no estamos en condiciones de demostrar? O será que tienen miedo a que Nicholas Bourbaki se levante de su tumba para juzgarlos y condenarlos!!!!
La matematica no es lineal, ni siquiera esta ordenada; porque entonces no permitirse el usar algo y despues volver para demostrarlo??? Yo veo esto como una limitacion, si no tenemos todos los elementos bien delimitados y estamos seguros de que sean ciertos no avanzamos. Me parece que esta bueno poder ir para adelante solo guiados por la intuicion y despues volver y demostrar bien todo lo que usamos. Inclusive diria que a veces el rigor matematico se ha transformado en un carcelero que no nos deja ver mas alla que de los limites de lo expresamente bien definido.
Wikipedia dice sobre Bourbaki:
“The emphasis on rigour may be seen as a reaction to the work of Henri Poincaré, who stressed the importance of free-flowing mathematical intuition, at a cost of completeness in presentation.”
Para mi gusto lo mas interesante de Proba es la tension entre “lo intuitivo” y lo “expresable matematicamente”. Me gusta cuando uno logra describir lo que tenia en la cabeza o cuando le da forma a una idea vaga, cuando demuestra el teorema central del limite y dice “con razon la campana de Gauss estaba por todos lados!!” o cuando via Ley de los Grandes Numeros nos damos cuenta que la idea de frecuencia relativa se corresponde con la de probabilidad. No por las demostraciones en si (que tambien estan buenas!) sino el ir y venir entre “idea intuitiva” y “matematicamente correcto”. Si nos preocupamos solamente por demostrar todo rigurosamente se pierde todo esto.
En definitiva, si hoy tuviera que votar, voto por cursar Proba antes que Real(**).
(*)Uno de los argumentos mas absurdos que escuche acerca de porque cursar primero Proba y despues Real es que la gente en Real necesita del ejemplo de la probabilidad para motivar medida abstracta. ¿Estamos todos locos???? La verdadera motivacion de la medida no es otra cosa que la que le da su nombre, “area, volumen, etc…” Hasta a un nene en tercer grado se lo puede convencer de que es interesante tener una medida en un conjunto, no hay idea mas vieja que la de tratar de medir!!!!
(**)Todo esto con respecto a si uno quiere aprender Proba o que ésta le aporte algo, porque por otro lado creo que es mas facil aprobar Proba habiendo cursado Real que sin (y al reves no vale, o sea, no me parece mas facil Real habiendo cursado Proba).
Diciembre 23, 2008 at 7:52 am
Hola, me gustaron mucho (y coincido mucho!) con los puntos 6, 8 y 9. Incluido el (*). Con el (**) no tanto. Gracias por la claridad!
Saludos,
Patu.