Seguro que habéis oÃdo hablar de la minerÃa de datos, aunque por lo general la gente suele tener un concepto erróneo, ¿realmente sabéis lo que es?
Cuando escuchamos el concepto de MinerÃa de Datos lo más común es que se nos venga a la mente el concepto de Big Data y el proceso de obtener información a partir del anterior. En parte es correcto, pero a lo largo de este artÃculo vamos a detallar en que consiste la MinerÃa de Datos y cómo podemos aprovecharla en nuestro negocio.

Conceptos preliminares: KDD
El KDD (del inglés Knowledge Discovery in Databases) es un proceso no-trivial para descubrir conocimiento significativo dentro de grandes repositorios de información, comúnmente bases de datos. A contrario de las creencias populares, no se trata de un proceso automático, sino de un proceso iterativo que explora exhaustivamente inmensas cantidades de datos con el fin de establecer relaciones entre los mismos.
El proceso consta de las siguientes partes:
- Partimos de una base de datos de gran volumen «en bruto».
- Aplicamos un proceso de selección de datos para obtener los datos realmente útiles.
- Haremos un preprocesamiento de los datos obtenidos, que consiste en limpiar y preparar los datos para su posterior manejo.
- Mediante las transformación de los datos generaremos variables, estructuras de datos apropiadas y normalizaciones.
- Una vez tenemos los datos organizados y depurados, pasamos a la fase de minerÃa de datos cuyo objetivo es obtener modelos acerca de los datos a analizar para lograr descubrir comportamientos contenidos u ocultos.
- Por último se realiza una interpretación y evaluación de los resultados con el objetivo de establecer patrones interesantes acerca de los datos.
Como veis la minerÃa de datos es tan solo una parte del proceso KDD, aunque el nombre parece gustar y vulgarmente se denomina minerÃa de datos a todo el proceso.
El volumen de datos de la actualidad
Actualmente se generan una cantidad de datos fuera del alcance de cualquier máquina, por potente que sea. Para hacernos una idea en twitter se publican alrededor de los 500 millones de tweets al dÃa, que si de media ocupan unos 250 bytes, estamos hablando de aproximadamente 116 GB de información textual (el multimedia lo dejamos a parte). Si quisiéramos hacer un estudio de emociones sobre cierto tema a nivel mundial en un mes, estarÃamos hablando de casi 3’5TB de información textual bruta. Pero claro, un estudio de un mes sólo refleja la realidad a corto plazo, ¿veis ya a lo que me refiero?

Si hablamos de información de otras materias (dejando a un lado lo social) esta cifra crece significativamente, por ejemplo los sistemas electrónicos de los motores de un avión generan decenas  de TB a la hora. La cuestión es ¿cómo sacar provecho de estos datos?
Cómo aplicar la minerÃa de datos en nuestro negocio
Una empresa está constantemente generando datos, por lo que hay infinidad de maneras en las que la minerÃa de datos puede serle de gran utilidad. En los últimos años la demanda de cientÃficos del conocimiento y mineros de datos ha crecido exponencialmente. De hecho según los expertos entre 2016 y 2017 sólo un tercio de los puestos demandados como mineros de datos estará cubierto, ¿por qué?
Vamos a ver una lista de ideas en las que un minero de datos puede sernos de utilidad en nuestras filas:
- Optimización de recursos humanos: Mediante la exploración de los datos que generan nuestros departamentos podemos hallar patrones para determinar qué perfil de trabajadores es más o menos producente. Esto proporcionarÃa unos criterios para seleccionar a nuevos candidatos y, en su caso, relevar a los menos producentes.
- Fugas de clientes: Mediante la minerÃa de datos podrÃa modelarse un patrón para determinar qué clientes son más propensos a prescindir de nuestros servicios a corto plazo para mejorarles las condiciones y evitarlo.
- Hábitos de compra: Si tu negocio se basa en la venta de productos, podrÃas determinar los patrones de comportamiento de tus clientes a la hora de comprar determinado tipo. De esta manera podrÃas hacer más visible a ciertos clientes los productos que por su patrón determinamos que son más fáciles de vender.
- Factores de éxito de un producto: Otro escenario en el que la minerÃa de datos puede ser de gran ayuda es a la hora de determinar los patrones que sigue un producto exitoso en nuestro ámbito, ya sea interno o de la competencia. Mediante estos patrones podremos predecir la viabilidad de los proyectos antes siquiera de comenzar a desarrollarlos.
Esto son sólo algunas ideas del aprovechamiento que le puedes dar a la minerÃa de datos en tu negocio, aunque el lÃmite lo pone nuestra imaginación. Este proceso permite extraer patrones de casi cualquier aspecto de nuestro negocio del que amacenemos gran cantidad de datos, o para estudiar las cualidades que hacen triunfar a la competencia. ¿Se os ocurre alguna aplicación interesante?