Medida de errores

estoy cansado de tanta tontería quiero un poquito de normalidad.
Dani Martin El Canto del loco, cancion zapatillas

\[  \frac{1}{\sigma  \sqrt{2 \pi} } e ^{-\frac{(x-\mu) ²} {2 \sigma ²}    } \]

Todo el mundo cree en la ley normal de los errores: los matemáticos, porque piensan que es un hecho experimental; y los experimentadores, porque suponen que es un teorema matemático.

Gabriel Lippmann

Teorema de Bayes

El famoso teorema de Bayes, en la actualidad aparece en todas las partes y cualquier tecnología moderna que aparece si no usa el teorema de Bayes parece que no es importante, gran parte de la inteligencia artificial y el machine learning se basan en el, parece que es la meca, el no va mas en el mundo de los teoremas, la verdad es que no es para tanto y quizá el problema es un sobre uso. Existe también la disputa entre si Bayes si o Bayes no… bueno la realidad es que usas un destornillador para atornillar tornillos y un martillo para clavar clavos, los algoritmos bayesianos resuelven muchos problemas, pero no todos, y no es eficaz en todos los escenarios, ademas plantea una serie de divertidas paradojas.

Entrando un poco en faena, el teorema de Bayes :

\[  P(A|B) = \frac{P(B|A)*P(A)}{P(B)} \]

Y dicho esto ahora es cuando yo planteo algunos ejemplos mas o menos originales, reemplazo las variables usando la formula… bueno eso se puede ver en muchas paginas por internet e incluso hay libros 🙂 , la verdad es que siempre he sido incapaz de memorizar una formula, y por eso las tengo que entender y ese es un poco el ejercicio que me propongo realizar.

 

Básicamente lo que dice el teorema de Bayes es sobre la probabilidad de un suceso vinculada a su vez a la probabilidad de otro suceso, para que nos entendamos que probabilidad de que pase algo y antes ha pasado otra cosa, el detalle de que antes ha pasado otra cosa y conocemos dicha probabilidad, es importante, por eso se le conoce también como probabilidad inversa, y por eso tiene su punto, por que parte de sucesos ocurridos y de probabilidades conocidas de forma empirica, dentro de los algoritmos y en aplicaciones de IA, a esa parte se le conoce como entrenamiento.

Llevándolo al terreno intuitivo es una probabilidad de una probabilidad, y creo que esa idea intuitiva es bastante buena para entender la formula, por que si ahora partimos de la formula de probabilidad de Laplace (casos favorables partidos de total de casos), la formula de Bayes se puede interpretar como probabilidad favorable partida de total de probabilidad, ahora desmontemos la formula vayamos por partes, el denominador, total de casos ahora es total de probabilidad, la probabilidad de B es el total de la probabilidades es decir si siempre que ocurriera B ocurriera A, las probabilidades de que sucediera A serian igual a todas las posibilidades de B, visto así… fácil no  ??? vamos a ver el numerador, es el producto de la probabilidad condicionada de B a A multiplicada por la probabilidad de A, cuando se multiplican probabilidades es por que son probabilidades de sucesos independientes es decir la probabilidad de que ocurra A y que ocurra B condicionada A (que nadie lo confunda como el inverso de la probabilidad de A sobre B), esta parte es clave, es decir nosotros debemos conocer a priori estas probabilidades, la de que ocurra el suceso A, por lo general se aplica Laplace y ya esta… pero la otra es curiosa e implica un conocimiento previo, esta es la parte mas interesante de la formula, para conocer esa probabilidad… por lo general recopilar un montón de datos, cuando digo un montón es un montón grande… esto es big-data, para conocer las probabilidades a priori (cuanto mejor sea esa probabilidad mejor resultados obtendremos… si a esto le añadimos la ley de los grandes números… )… de ahí que podemos considerar a Thomas Bayes como el mayor vendedor de discos duros de la historia (deberían hacer un monumento… o que algún modelo de disco se llamara como el… algún reconocimiento seria justo), y cuando se habla de machine-learning se habla de eso, la maquina almacena una ingente cantidad de datos para determinar la posibilidad de B en A, para luego aplicar la formula, de esa forma el algoritmo se alimenta de datos para mejorar su resultado. Simplificando quiero saber la posibilidades de que suceda un suceso A que esta condicionado a que suceda un suceso B, para ello necesito la probabilidad de que suceda B (inversa…divide), la probabilidad de que suceda A, y (este y tiene ademas un sentido de probabilidad es decir que suceda A y ademas) la probabilidad de que habiendo sucedido B suceda A.

Para entender un poco este lío de As y Bes… me gusta a veces montar ejemplos extremos, en estos ejemplos extremos se ve como funciona la formula y se entienden sus mecanismos… es como cuando subes el contraste de la tele … distingues mejor las formas.

Imaginemos por un momento que A y B son sucesos independientes… que sentido tiene calcular la probabilidad de A condicionado a B, si son independientes la probabilidad seria el producto de ambas probabilidades sin mas. Imaginemos la probabilidad de sacar un seis en un dado si previamente hemos sacado un cinco (ambos son sucesos independientes lo se, no tiene sentido aplicar Bayes… lo se… pero es un ejemplo radica… y si el razonamiento de Bayes es bueno debería funcionar), ya sabemos algo de probabilidades… y si todo esta en su sitio el resultado ha de ser 1/6

suceso A : sacar un 6 (1/6)

suceso B: sacar un 5 (1/6)

\[ P(A|B)= \frac{P(B|A) * P(A)}{P(B)}\]

reemplazando… es todo bastante trivial quizá, P(B|A) requiere una explicación… es la probabilidad de sacar un 5 después de sacar un 6.

\[ P(A|B) =\frac {(1/6)*(1/6)}{(1/6)}\]

\[ P(A|B) =\frac {1}{6}\]

 

Mi otro ejemplo radical es imaginemos que A y B sean un suceso tan vinculado que no haya condición… o como se suele decir sean condición sine qua nom uno del otro (si y solo si… o de cajón )… es un poco absurdo … pero nos sirve para ver como se comporta el razonamiento del teorema de Bayes. Supongamos el suceso de sacar un seis en un dado y que este sea par… y tratémoslo como si ambos fueran condicionados… realmente si sacas un 6 pues evidentemente es par, es decir que la probabilidad de sacar un par cuando has sacado un 6 es 1, suceso seguro, es decir,  ahí es cuando debemos apostar.

Suceso A : sacar un par…(3/6)

Suceso B : sacar un 6  (1/6)

\[ P(A|B)= \frac{P(B|A) * P(A)}{P(B)}\]

reemplazando… es todo bastante trivial quizá, P(B|A) requiere nuevamente una explicación… es la probabilidad de que sacando un par sea un 6, es decir 3 casos totales de ser par 1 de ser un 6, total 1/3 .

\[ P(A|B) =\frac {(1/3)*(1/2)}{(1/6)}\]

\[ P(A|B) =\frac {1/6}{1/6}\]

\[ P(A|B) =1  \text{  !! Suceso Seguro} \]

 

Lo bueno podemos usar siempre Bayes… adiós Laplace… lo digo de broma evidentemente Laplace es mas intuitivo y es para lo que es (volvemos al destornillador y al martillo). Estos ejemplos son un tanto absurdos y carecen de un aplicación real del teorema de Bayes pero se puede ver como funciona el teorema y creo que ilustran bastante bien la idea, que el teorema de Bayes sirve para el calculo de una probabilidad de una probabilidad, y como se asemeja al teorema de Laplace… uno habla de casos a favor partido de total de casos… el otro lo traslada a probabilidades … probabilidades a favor partido de total de probabilidades.

Se usa mucho para realizar los famosos clasificadores bayesianos, que creo que en un futuro dedicare una entrada, a raiz de un capitulo de la serie Sillicon Valley, creo que merece una entrada. Otra cosa interesante del teorema son las paradojas que nos ofrece, la del cuervo por ejemplo… pero esa es otra historia y debe ser contada en otra ocasión*.

 

 

* y si.. ahora uso como bibliografía la historia interminable.

Homenaje a Sixto Rios

Este fin de semana (8-7-2017) hizo 9 años de la muerte de Sixto Ríos, conocido por ser el padre de la estadística española, no le conocí personalmente, pero lo conocí por sus libros, algunos de los cuales considero sencillamente imprescindibles (Métodos estadísticos McGraw Hill 1967, aunque figure como ediciones del castillo es ya la 3ª edición que es la que yo tengo) es para mi el libro de estadística fundamental, ademas tengo varios mas suyos. Cuando tenia que aprender o usar algún libro de referencia siempre buscaba alguno de los suyos, que afortunadamente no fueron pocos. Explicados con gran sencillez y claridad, siempre me han parecido didácticos y rigurosos y completos.

 

 

Como homenaje me gustaría citar de su libro:

La ley del azar o de estabilidad de las frecuencias, también denominada ley empírica de los grandes números, afirma que la frecuencia de un suceso al realizar n repeticiones independientes de un experimento aleatorio se aproxima a la probabilidad cuando n crece. Esta propiedad experimental ha sido la base de la inducción de la noción de probabilidad por método axiomático. Vamos a exponer ahora la que llamaremos ley matemática de los grandes números o teorema de Bernoulli, que es la imagen teórica de la ley del azar y que viene a precisar el uso de la palabra aproximación en la misma.

 Sixto Ríos
Métodos estadísticos
Cap 15 -Teorema del límite

 

Se puede encontrar mas información en : sixtorios.org

verbi gratia R y los grandes números

Tras, la entrada de los grandes números, me parecio interesante adornarlo con un ejemplo en R, en muchas ocasiones uso R de forma poco convencional,  y no pretendo dar un curso sobre R, simplemente mostrare un poco como yo lo uso.

Sin mas, vamos a ilustrar el ejemplo, lo que haremos es crear una muestra, usando el comando sample, le pasaremos todos los paremetros, y de esa forma emularemos 100 lanzamientos de moneda, si asignamos los valores 0,1 a cara o cruz, la media de la muestra tendera a 0.5 segun vaya aumentando la muestra el valor se aproximara mas.

 

mis_tiradas=sample(c(0,1),100,TRUE,c(0.5,0.5))

> mean(mis_tiradas)
[1] 0.47

si aumentamos la muestra a 10000

> mis_tiradas=sample(c(0,1),10000,TRUE,c(0.5,0.5))
> mean(mis_tiradas)
[1] 0.4963

si aumentamos la muestra a 1000000

> mis_tiradas=sample(c(0,1),1000000,TRUE,c(0.5,0.5))
> mean(mis_tiradas)
[1] 0.500252

ley de los pequeños números

Me parece gracioso que ésta sea mi primera entrada en el blog, tanto por el título de la entrada como por el título del blog, pero tiene sentido. La ley de los números pequeños tiene sentido gracias a la ley de los grandes números; la ley de los números pequeños no es más que la mala interpretación y aplicación de la ley de los grandes números. Entremos un poco en materia.
La ley de los grandes números viene a decir que con alto número de sucesos, el valor medio de la esperanza del suceso tiende a su valor teórico. Ésta no es una definición formal -para eso mejor un libro-, pero es mas intuitiva. Básicamente si tenemos una moneda (y cuando hablo de ella me refiero a una moneda con cara y cruz) y se lanza sin hacer trampa, es decir ambos resultados son equiprobales, la probabilidad de obtener cara es de 0,5 y la de cruz 0,5 (coloquialmente, el 50% o lo que viene siendo la mitad). Pues bien, si lanzáramos esa moneda un número infinito de veces, exactamente la mitad de las tiradas saldría cara y la mitad, cruz… el detalle reside en infinitas tiradas, que además de imposible es aburrido. Ese es el problema, que el concepto de infinito es realmente poco/nada intuitivo, a las personas nos cuesta imaginar el infinito.

 

La ley de los números pequeños tiene más que ver con la psicología que con las matemáticas (como me he enfrentado a ella en varias ocasiones, me sirve también a mí de recordatorio -memento mori-). Según esta ley si tiras una moneda y te sale cara; la vuelves a tirar y te vuelve a salir cara; repites la tirada y, de nuevo, otra cara… Es decir, imagina que has sacado tres caras seguidas. Ante una cuarta tirada, yo te pregunto: ¿qué va a salir ahora? Lo normal es que digas cruz; ya han salido tres caras… Bien, pues ese es el error. Los sucesos son independientes; cada tirada es independiente. La probabilidad de sacar otra cara es del 0,5 (50% para los amigos o la mitad en términos de bar), pero la probabilidad de sacar tres caras (esto se llama probabilidad básica) sería la probabilidad de sacar cara, que hemos dicho corresponde a un valor de 0.5, aunque como los tres sucesos son independientes e equiprobables esto se traduce en \( (0,5)^3=0,125. \) Solo en el infinito la probabilidad de sacar siempre la cara es 0, esta es otra forma de verlo, la probabilidad de sacar cara en las primeras n tiradas se puede expresar:

\[ P(c_{n})= \left(\frac{1}{2}\right)^n\]
\[ \lim_{n \to \infty}{P(c_{n})= \left(\frac{1}{2}\right)^n}=0\]

Por tanto un suceso imposible (probabilidad 0) que si lanzas una moneda infitas veces siempre sea cara. Pero eso no quiere decir que en muestras pequeñas (frente a infinito) tenga que existir una compensación, son sucesos independientes.

La cosa cambia si te pregunto: ¿cuál es la probabilidad de sacar 3 caras en las tres primeras tiradas y una cruz en la cuarta? Bueno pues es sencillo: la probabilidad de las 3 caras es 0,125 y de sacar una cruz en la cuarta es 0,5; luego la probabilidad es de \(0,125∗0,5=0,625\) … Sin embargo, -y aquí es donde las matemáticas matan la ley de los números pequeños-, ¿qué probabilidad hay de sacar cuatro caras? Supongo que ya lo habéis pillado, porque es la misma. En el fondo esa cuarta moneda puede ser cara o puede ser cruz… La ley de los grandes números sólo se aplica para grandes números. Es decir, que de forma “intuitiva” tratamos sucesos independientes como dependientes.

 

Eso nos lleva a algo que está muy de moda: el big data. Porque ¡hagámoslo al revés! Supongamos que me dais un dado de un número indeterminado de caras (de esos de las partidas de rol). Cada una de ellas numerada e identificada de forma única. Si lanzáramos ese de dado un número infinito de veces, podríamos saber cuántas caras salen y si todas son iguales (probabilidad por cara). Es decir, podríamos conocer la realidad o lo que es lo mismo el dado a partir de los resultados (inferencia estadística o método de Montecarlo). Es lo que ocurre con los ordenadores: gracias a ellos podemos acceder a un número lo suficientemente alto de datos como para inferir resultados. Además, gracias a los ordenadores, no hace falta que usemos una muestra. Podemos usar todos el espacio muestral.

 
Otro error típico de la ley de los pequeños números es la extrapolación de la muestra; partiendo de una muestra de individuos, se deduce que la población entera se comporta como dicha muestra. De ahí que existan los términos “muestra representativa” y “sesgo estadístico”. Este error es muy típico, por ejemplo, en las encuestas electorales (tema que merece una entrada a parte, incluso un libro). Cuando se dice eso de que las encuestas no han acertado o que han “cocinado la encuesta”, es porque esto es tan fácil como realizar un mal muestreo. A partir de él puedes obtener casi el resultado que quieras; generalmente afín a los intereses del que paga la encuesta… Y con esta reflexión me he vuelto a salir del tema de los pequeños números.