daedalus.com:En muchos cursos sobre minería de datos se cuenta una bonita historia sobre una gran cadena estadounidense de supermercados, Wal-Mart, que realizó a finales de los años 90 un análisis de los hábitos de compra de sus clientes.


Sorprendentemente, descubrieron una correlación estadísticamente significativa entre las compras de pañales y cerveza: los viernes por la tarde, los hombres entre 25 y 35 años que compraban cerveza también compraban pañales.
Después de un análisis detallado, este resultado se explica de forma bastante curiosa. Como los pañales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jóvenes entre 25 y 35 años (rango medio de edad para tener niños tan pequeños), solían ir a la compra los viernes, algo reticentes, en el último momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban pañales para sus bebés, aprovechaban para comprar cerveza, ya que no podrían salir a tomarlas al pub.
También se cuenta que Wal-Mart utilizó este resultado para reubicar estos productos en lugares estratégicamente dispuestos: pusieron la cerveza cerca de los pañales. El resultado fue que los padres que habitualmente compraban cerveza después compraron todavía más, al estar tan cómodamente situada. Además, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los pañales. Así, las ventas de cerveza tuvieron un aumento espectacular.
Este es un buen ejemplo de los beneficios que puede aportar la Minería de Datos y, en particular, el análisis de la cesta de la compra (market basket analysis) (*ver abajo).
El problema es que esta historia existe en diferentes versiones, a veces se habla de 7 Eleven en vez de Wal-Mart, otras veces se adorna con datos específicos de porcentajes de incremento de ventas... Además no se conoce quiénes pudieron realizar esos estudios y, de hecho, no existe documentación específica de ningún proyecto en esta línea en ninguna de las dos organizaciones.
Por todo ello, no hay más remedio que pensar que se trata de una leyenda urbana, un bonito mito del mundo de la minería de datos.
- Beer and Nappies - A Data Mining Urban Legend
- Data Mining – If Only It Really Were about Beer and Diapers
Ejemplo ilustrado del análisis de la cesta de la compra
Supongamos el siguiente ejemplo:
800.000 clientes
40.000 compraron pañales (5%)
60.000 compraron cerveza (7,5%)
16.000 compraron pañales y cerveza (2%)
El soporte es el porcentaje del total de transacciones que incluyen un determinado producto. En este ejemplo, la compra de pañales tiene un soporte del 5%.
La confianza mide hasta qué punto un producto depende del otro:
16.000 de los 40.000 clientes que compraron pañales también compraron cerveza (40%)
Por tanto, la regla de asociación pañales>cerveza tendría un soporte del 5% y una confianza del 40%. También se puede leer de otra forma:
el 5% de los clientes compraron pañales; de ellos, el 40% además compraron cerveza
Las compras de pañales son el antecedente de la regla (la parte izquierda) y las de cerveza, el consecuente (la parte derecha).
Los valores del 5% y 7,5% de compras respectivamente con pañales y con cerveza se denominan confianza esperada: proporción de compras que incluyen un determinado producto, independientemente de los demás.
Por último, el lift (habitualmente sin traducción al español, aunque sería algo parecido a mejora) mide la proporción entre la confianza de una regla y la confianza esperada para el producto consecuente. En el ejemplo, la confianza de la regla pañales>cerveza es un 40%, y la confianza esperada de que un cliente cualquiera compre cerveza es un 7,5%, por tanto, el lift es 5,33 (50/6):
los clientes que compran pañales son 5,33 veces más propensos a comprar cerveza (que quienes no los compran)
El objetivo del análisis de la cesta de la compra es encontrar asociaciones con un lift lo más elevado posible, para maximizar el posible beneficio. Por supuesto, este mismo análisis se puede extender a asociaciones de tres o más productos.
El algoritmo empleado habitualmente para encontrar las reglas de asociación se denomina apriori [Rakesh Agrawal y Ramakrishnan Srikant, Fast Algorithms for Mining Association Rules, Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), 2004].

consulta
la metodologia del datamining es interesante, pero como se podria aplicar para usar el dataminigde manera inversa, que comprar, donde comprar, como comprar, a cuanto comprar, y a como comprar, en una oficina de logistica y compras.
y si alguien sabe de alguna herramienta para datamining que sea free y confiable para los resultados
Muchisimas gracias