teorema de Bayes

El famoso teorema de Bayes, en la actualidad aparece en todas las partes y cualquier tecnología moderna que aparece si no usa el teorema de Bayes parece que no es importante, gran parte de la inteligencia artificial y el machine learning se basan en el, parece que es la meca, el no va mas en el mundo de los teoremas, la verdad es que no es para tanto y quizá el problema es un sobre uso. Existe también la disputa entre si Bayes si o Bayes no… bueno la realidad es que usas un destornillador para atornillar tornillos y un martillo para clavar clavos, los algoritmos bayesianos resuelven muchos problemas, pero no todos, y no es eficaz en todos los escenarios, ademas plantea una serie de divertidas paradojas.
Entrando un poco en faena, el teorema de Bayes :

$$P(A|B) = \frac{P(B|A)*P(A)}{P(B)}$$
Y dicho esto ahora es cuando yo planteo algunos ejemplos mas o menos originales, reemplazo las variables usando la formula… bueno eso se puede ver en muchas paginas por internet e incluso hay libros, la verdad es que siempre he sido incapaz de memorizar una formula, y por eso las tengo que entender y ese es un poco el ejercicio que me propongo realizar.
Básicamente lo que dice el teorema de Bayes es sobre la probabilidad de un suceso vinculada a su vez a la probabilidad de otro suceso, para que nos entendamos que probabilidad de que pase algo y antes ha pasado otra cosa, el detalle de que antes ha pasado otra cosa y conocemos dicha probabilidad, es importante, por eso se le conoce también como probabilidad inversa, y por eso tiene su punto, por que parte de sucesos ocurridos y de probabilidades conocidas de forma empirica, dentro de los algoritmos y en aplicaciones de IA, a esa parte se le conoce como entrenamiento.
Llevándolo al terreno intuitivo es una probabilidad de una probabilidad, y creo que esa idea intuitiva es bastante buena para entender la formula, por que si ahora partimos de la formula de probabilidad de Laplace (casos favorables partidos de total de casos), la formula de Bayes se puede interpretar como probabilidad favorable partida de total de probabilidad, ahora desmontemos la formula vayamos por partes, el denominador, total de casos ahora es total de probabilidad, la probabilidad de B es el total de la probabilidades es decir si siempre que ocurriera B ocurriera A, las probabilidades de que sucediera A serian igual a todas las posibilidades de B, visto así… fácil no ??? vamos a ver el numerador, es el producto de la probabilidad condicionada de B a A multiplicada por la probabilidad de A, cuando se multiplican probabilidades es por que son probabilidades de sucesos independientes es decir la probabilidad de que ocurra A y que ocurra B condicionada A (que nadie lo confunda como el inverso de la probabilidad de A sobre B), esta parte es clave, es decir nosotros debemos conocer a priori estas probabilidades, la de que ocurra el suceso A, por lo general se aplica Laplace y ya esta… pero la otra es curiosa e implica un conocimiento previo, esta es la parte mas interesante de la formula, para conocer esa probabilidad… por lo general recopilar un montón de datos, cuando digo un montón es un montón grande… esto es big-data, para conocer las probabilidades a priori (cuanto mejor sea esa probabilidad mejor resultados obtendremos… si a esto le añadimos la ley de los grandes números… )… de ahí que podemos considerar a Thomas Bayes como el mayor vendedor de discos duros de la historia (deberían hacer un monumento… o que algún modelo de disco se llamara como el… algún reconocimiento seria justo), y cuando se habla de machine-learning se habla de eso, la maquina almacena una ingente cantidad de datos para determinar la posibilidad de B en A, para luego aplicar la formula, de esa forma el algoritmo se alimenta de datos para mejorar su resultado. Simplificando quiero saber la posibilidades de que suceda un suceso A que esta condicionado a que suceda un suceso B, para ello necesito la probabilidad de que suceda B (inversa…divide), la probabilidad de que suceda A, y (este y tiene ademas un sentido de probabilidad es decir que suceda A y ademas) la probabilidad de que habiendo sucedido B suceda A.
Para entender un poco este lío de As y Bes… me gusta a veces montar ejemplos extremos, en estos ejemplos extremos se ve como funciona la formula y se entienden sus mecanismos… es como cuando subes el contraste de la tele … distingues mejor las formas.
Imaginemos por un momento que A y B son sucesos independientes… que sentido tiene calcular la probabilidad de A condicionado a B, si son independientes la probabilidad seria el producto de ambas probabilidades sin mas. Imaginemos la probabilidad de sacar un seis en un dado si previamente hemos sacado un cinco (ambos son sucesos independientes lo se, no tiene sentido aplicar Bayes… lo se… pero es un ejemplo radica… y si el razonamiento de Bayes es bueno debería funcionar), ya sabemos algo de probabilidades… y si todo esta en su sitio el resultado ha de ser 1/6

suceso A : sacar un 6 (1/6)

suceso B: sacar un 5 (1/6)

$$P(A|B)= \frac{P(B|A) * P(A)}{P(B)}$$
reemplazando… es todo bastante trivial quizá, P(B|A) requiere una explicación… es la probabilidad de sacar un 5 después de sacar un 6.

$$P(A|B) =\frac {(1/6)*(1/6)}{(1/6)}$$
$$P(A|B) =\frac {1}{6}$$

Mi otro ejemplo radical es imaginemos que A y B sean un suceso tan vinculado que no haya condición… o como se suele decir sean condición sine qua nom uno del otro (si y solo si… o de cajón )… es un poco absurdo … pero nos sirve para ver como se comporta el razonamiento del teorema de Bayes. Supongamos el suceso de sacar un seis en un dado y que este sea par… y tratémoslo como si ambos fueran condicionados… realmente si sacas un 6 pues evidentemente es par, es decir que la probabilidad de sacar un par cuando has sacado un 6 es 1, suceso seguro, es decir, ahí es cuando debemos apostar.

Suceso A : sacar un par…(3/6)

Suceso B : sacar un 6 (1/6)

$$P(A|B)= \frac{P(B|A) * P(A)}{P(B)}$$
reemplazando… es todo bastante trivial quizá, $P(B|A)$ requiere nuevamente una explicación… es la probabilidad de que sacando un par sea un 6, es decir 3 casos totales de ser par 1 de ser un 6, total 1/3 .

$$P(A|B) =\frac {(1/3)*(1/2)}{(1/6)}$$
$$P(A|B) =\frac {1/6}{1/6}$$
$$P(A|B) =1 \text{ !! Suceso Seguro}$$

Lo bueno podemos usar siempre Bayes… adiós Laplace… lo digo de broma evidentemente Laplace es mas intuitivo y es para lo que es (volvemos al destornillador y al martillo). Estos ejemplos son un tanto absurdos y carecen de un aplicación real del teorema de Bayes pero se puede ver como funciona el teorema y creo que ilustran bastante bien la idea, que el teorema de Bayes sirve para el calculo de una probabilidad de una probabilidad, y como se asemeja al teorema de Laplace… uno habla de casos a favor partido de total de casos… el otro lo traslada a probabilidades … probabilidades a favor partido de total de probabilidades.

Se usa mucho para realizar los famosos clasificadores bayesianos, que creo que en un futuro dedicare una entrada, a raiz de un capitulo de la serie Sillicon Valley, creo que merece una entrada. Otra cosa interesante del teorema son las paradojas que nos ofrece, la del cuervo por ejemplo… pero esa es otra historia y debe ser contada en otra ocasión*.

y si.. ahora uso como bibliografía la historia interminable.
Google Plus
{{ message }}

{{ 'Comments are closed.' | trans }}