SANTANDER, 19 Jul. (EUROPA PRESS) -
Juan Antonio Cuesta Albertos, catedrático de Estadística Matemática e Investigación Operativa de la Universidad de Cantabria (UC), ha diseñado junto a colegas de la Universidad de Valladolid una nueva técnica estadística para inferencia en paralelo de datos que ha dado hoy a conocer a los participantes en el monográfico 'Introducción al Python para Big Data' de los Cursos de Verano UC.
A su juicio, el "problema que hay con los Big Data es que no se sabe qué hacer con ellos porque los datos aparecen en distintos puntos del mundo y es imposible juntarlos. Son demasiados". De hecho, Google tiene una serie de "servidores repartidos por todo el planeta" y cada uno de ellos recoge sus datos pero "es imposible unir todos en uno único", aseguró el ponente.
De ahí que, junto a expertos de la Universidad de Valladolid, haya desarrollado una nueva técnica que, de "forma simplificada porque no es exactamente así", lo que hace es "calcular la media de todos los datos existentes. Cada ordenador recopila los datos que tiene y tú haces la media de cada uno de ellos y luego vuelves a hacer la media de todas esas medias", explicó Cuesta.
El también autor de 'Soluciones Estadísticas simples para algunos problemas complicados. Estadística para todo(s)', que ya ha enviado el trabajo para que pueda ser publicado, aseguró que "en determinados contextos esto funciona bastante bien y permite obtener mejores resultados que si hubieras juntado todos esos datos que tenías repartidos en los mil ordenadores en una única computadora y hubieras hecho la media de todos ellos".
En el monográfico que dirige hasta mañana miércoles Diego Tuccillo, investigador del GEPI Observatoire de París-Mines París Tech en la Facultad de Ciencias Económicas y Empresariales de la sede de Santander de los Cursos de Verano UC, se está analizando cómo gestionar todos esos datos porque, según el catedrático de la UC, "se produce una curiosidad o una paradoja porque hasta ahora el problema que tenía la ciencia es que le faltaban datos fiables pero desde que han entrado de modo masivo los ordenadores el problema es justamente el contrario, qué hacer con tantos datos".
Y cuantificó el problema poniendo como ejemplo El Chad. "Imagínate que a ese país, donde se están muriendo de hambre, llega para cada habitante un camión de langostas y claro, no sabes qué hacer con ellas, porque no necesitas todas ni tampoco es la solución. Pues lo mismo pasa con los datos, que circulan por el mundo pero ni todos son necesarios ni todos nos interesan", añadió Cuesta.
Por último, el también estadista detalló que al ser una ciencia tan novedosa se están "aplicando técnicas ya conocidas" para manejo de datos pero "nadie sabe cómo hacerlo bien" y apuntó que, como Newton o Einstein, acabará apareciendo "un genio, que son esas personas que se dan cuenta de las cosas y saben explicar lo que es evidente, que resolverá el problema