24.06.2021

Tú lo sabe Bitcoins

Todo lo relacionado con la criptomonedas y no cripto.

Nuevo dato: que es la ciencia de datos y por que su empresa la necesita

GrRWlW2i

Escondido entre los datos brutos y no estructurados se encuentra el conocimiento relevante para el negocio. Pero extraerlos y usarlos correctamente es una tarea difícil y que requiere mucho tiempo. Comprender lo que ofrece a las empresas y cómo hacerlo más fácil para los científicos de datos.

Lo que aprende la ciencia de datos
La humanidad genera aproximadamente 2,5 trillones de bytes de varios datos todos los días . Se crean literalmente con cada clic y desplazamiento de página, sin mencionar ver videos y fotos en servicios en línea y redes sociales.

La ciencia de datos surgió mucho antes de que los volúmenes de datos superaran todas las predicciones imaginables. Se ha acostumbrado la cuenta atrás desde 1966, cuando apareció en el mundo el Comité CODATA de Datos para la Ciencia y la Tecnología . Fue creado en el marco del Consejo Internacional para la Ciencia, cuyo objetivo era recopilar, evaluar, almacenar y buscar los datos más importantes para la resolución de problemas científicos y técnicos. El comité incluye científicos, profesores de grandes universidades y representantes de academias de ciencias de varios países, incluida Rusia.

El término ciencia de datos en sí entró en uso a mediados de la década de 1970 con la sugerencia del científico informático danés Peter Naur. Según su definición, esta disciplina estudia el ciclo de vida de los datos digitales desde su aparición para utilizarlos en otros campos del conocimiento. Sin embargo, con el tiempo, esta definición se ha vuelto más amplia y flexible.

La ciencia de datos (DS) es un campo interdisciplinario en la intersección de la estadística, las matemáticas, el análisis de sistemas y el aprendizaje automático, que cubre todas las etapas del trabajo con datos. Implica la investigación y el análisis de grandes cantidades de información y se centra principalmente en la obtención de resultados prácticos.

Los volúmenes de datos comenzaron a crecer exponencialmente en la década de 2010 . Varios factores influyeron, desde la ubicuidad de Internet móvil y la popularidad de las redes sociales hasta la digitalización general de servicios y procesos. Como resultado, la profesión de científico de datos se convirtió rápidamente en una de las más populares y demandadas. En 2012, los periodistas llamaron al puesto de científico de datos el trabajo más atractivo del siglo XXI (El trabajo más sexy del siglo XXI).

ciencia de datos
ciencia de datos

La cantidad de datos generados, recopilados y consumidos a nivel mundial desde 2010 hasta 2024 (en zettabytes)


El desarrollo de la ciencia de datos se acompañó de la introducción de tecnologías de Big Data y análisis de datos. Aunque estas áreas a menudo se superponen, no deben confundirse. Todos implican comprender una gran cantidad de información. Pero si el análisis de datos responde preguntas sobre el pasado (por ejemplo, sobre los cambios en el comportamiento de los clientes de un servicio de Internet en los últimos años), entonces la ciencia de datos está literalmente mirando hacia el futuro. Los especialistas de DS pueden utilizar big data para crear modelos que predicen lo que sucederá mañana. Incluida la predicción de la demanda de determinados bienes y servicios.

Por qué las empresas necesitan ciencia de datos?
Las empresas utilizan Data Science, independientemente del tamaño del negocio, muestra Kaggle Statistics (red social profesional de especialistas para trabajar con los datos). Y según estimaciones de IDC e Hitachi, el 78% de las empresas confirman que la cantidad de información analizada y utilizada ha aumentado significativamente recientemente. Las empresas entienden que la información no estructurada contiene conocimientos que son muy importantes para una empresa y que pueden afectar los resultados comerciales, señalan los autores del estudio.

Y esto se aplica a una amplia variedad de áreas de la economía. A continuación, se muestran algunos ejemplos de industrias que utilizan la ciencia de datos para resolver sus problemas:

servicios de comercio y entretenimiento en línea: sistemas de recomendación para usuarios;
asistencia sanitaria: previsión de enfermedades y recomendaciones para mantener la salud;
logística: planificación y optimización de rutas de entrega;
publicidad digital: colocación y segmentación automatizada de contenido;
finanzas: puntuación, detección y prevención de fraudes;
industria: análisis predictivo para planificar reparaciones y producción;
inmobiliaria: búsqueda y oferta de los objetos más adecuados para el comprador;
administración pública: previsión de la situación económica y del empleo, lucha contra la delincuencia;
deportes: selección de jugadores prometedores y desarrollo de estrategias de juego.
Y esta es solo la lista más breve y rápida de usos de la ciencia de datos. El número de casos diferentes que utilizan «ciencia de datos» aumenta exponencialmente cada año.

Cada usuario de Internet y solo un consumidor todos los días, docenas de veces se encuentran con productos y soluciones que utilizan herramientas de ciencia de datos. Por ejemplo, el servicio de audio Spotify los usa para adaptar mejor las pistas a los usuarios de acuerdo con sus preferencias. Lo mismo puede decirse de la oferta de películas y series en transmisión de video como Netflix . Y en Uber, la ciencia de datos se considera una herramienta para el análisis predictivo, la previsión de la demanda y la mejora y automatización de todos los productos y experiencias de los clientes.

Por supuesto, los científicos de datos no pueden predecir con precisión el futuro de la empresa y tener en cuenta absolutamente todos los riesgos posibles. «Todos los modelos están equivocados, pero algunos de ellos son útiles», dice sarcásticamente el estadístico británico George Box. No obstante, las herramientas de ciencia de datos sirven como un buen soporte para las empresas que buscan tomar decisiones más informadas e informadas sobre su futuro.

Cómo trabajan los científicos de datos
Para trabajar con datos, los científicos de datos utilizan una amplia gama de herramientas: paquetes de modelos estadísticos, varias bases de datos y software especial. Pero, lo más importante, utilizan tecnologías de inteligencia artificial y crean modelos de aprendizaje automático (redes neuronales) que ayudan a las empresas a analizar información, sacar conclusiones y predecir el futuro.

Cada una de estas redes neuronales debe planificarse, construirse, evaluarse, implementarse y solo entonces proceder a su entrenamiento. “Ahora, según nuestras estimaciones, en el proceso de trabajar en soluciones de IA, solo el 30% del tiempo de los especialistas se dedica a la formación de modelos. Todo lo demás es para la preparación y otras rutinas ”, dice el CTO de Sberbank Group, vicepresidente ejecutivo y jefe del bloque de Tecnologías, David Rafalovsky.

Anaconda, una empresa que desarrolla productos de datos, cita estadísticas aún más tristes. Sus encuestas muestran que, en promedio, casi la mitad del tiempo (45%) se dedica a preparar datos, es decir, a cargarlos y limpiarlos. Otro tercio se gasta en visualización de datos y selección de modelos. Solo queda un 12% y un 11% del tiempo de trabajo para la formación y el despliegue, respectivamente.

Científicos de datos en las nubes.
Las plataformas especiales en la nube ayudan a facilitar y acelerar el trabajo de recopilación de datos, construcción e implementación de modelos. Son las plataformas en la nube para el aprendizaje automático las que se han convertido en la tendencia más candente en la ciencia de datos. Dado que estamos hablando de grandes cantidades de información, modelos de aprendizaje automático complejos, herramientas de equipos distribuidos listas para usar y disponibles, los científicos de datos necesitaban recursos flexibles, escalables y asequibles.

Es para los científicos de datos que los proveedores de la nube han creado plataformas centradas en preparar y lanzar modelos de aprendizaje automático y seguir trabajando con ellos. Hasta ahora, hay pocas soluciones de este tipo, y una de ellas se creó por completo en Rusia. A fines de 2020, Sbercloud presentó una plataforma en la nube de ciclo completo para el desarrollo e implementación de servicios de inteligencia artificial: ML Space . La plataforma contiene un conjunto de herramientas y recursos para crear, capacitar e implementar modelos de aprendizaje automático, desde la conexión rápida a las fuentes de datos hasta la implementación automática de modelos entrenados y los recursos en la nube dinámicamente escalables de SberCloud.

Ahora ML Space es el único servicio en la nube del mundo que le permite organizar capacitación distribuida en más de 1000 GPU. Esta oportunidad es proporcionada por la propia supercomputadora basada en la nube de SberCloud, «Christophari». Lanzado en 2019, «Christofari» es ahora el clúster de computación ruso más poderoso y ocupa el puesto 40 en el ranking mundial de supercomputadoras TOP500

La plataforma ya es utilizada por los equipos de desarrollo del ecosistema Sberbank. Fue con su ayuda que se lanzó la familia de asistentes virtuales Salyut. Para crearlos, se entrenaron más de 70 modelos diferentes de ASR (reconocimiento automático de voz) y una gran cantidad de modelos de texto a voz utilizando Christofari y ML Space. ML Space ahora está disponible para todos los usuarios comerciales, organizaciones educativas y científicas.

“ML Space es un verdadero avance tecnológico en el campo del trabajo con inteligencia artificial. ML Space ya supera a las mejores soluciones del mundo en varios parámetros clave. Creo que ML Space es una de las mejores plataformas de aprendizaje automático basadas en la nube del mundo actual. Para los científicos de datos experimentados, proporciona nuevas herramientas convenientes, la posibilidad de trabajo distribuido, automatización de la creación, capacitación e implementación de modelos de IA. Para las empresas y organizaciones que no tienen una gran experiencia en ML, ML Space ofrece la primera oportunidad de utilizar la inteligencia artificial en sus productos, aplicaciones y flujos de trabajo ”, afirma Otari Melikishvili, líder de gestión de productos en la nube de IA, SberCloud.

Las nubes están ayudando al mercado a aprovechar cada vez más las plataformas de datos, ofreciendo una potencia informática ilimitada, confirman los analistas de Mordor Intelligence.

Según los expertos de Anaconda, la empresa y los propios especialistas tardarán un tiempo en madurar para el uso generalizado de las herramientas de DS y poder obtener resultados. Pero el progreso ya es evidente. «Esperamos que la ciencia de datos continúe avanzando para convertirse en una función comercial estratégica en muchas industrias durante los próximos dos o tres años» , predice la compañía.

A %d blogueros les gusta esto: