Habilidades de la Ciencia de datos en el 2021

Consultores estratégicos en Ciencia de Datos

Habilidades de la Ciencia de datos en el 2021

Habilidades de la Ciencia de datos en el 2021

Ciencia de datos

Ciencia de datos Diagrama de Venn

Dentro de la habilidades la Ciencia de datos en el 2021,  el profesional involucrado debe desarrollar al menos estas 10 .

  1. Utilizar inteligentemente las GPU

A día de hoy, se pueda ejecutar algoritmos de  aprendizaje profundo casi con cualquier computador.  Sin embargo, a la hora de trabajar entrenando por ejemplo redes neuronales, la configuración de la GPU ( Graphics  Processing Unit) que escoja, impactará en el costo , y el tiempo que tardará su red en aprender.

La GPU es el componente que realizará la mayoría de cálculos pesados cuando entrenas una red neuronal convolucional. (Son las redes neuronal utilizadas para leer  y aprtender de las imágenes médicas ( placas de Rayos X o imágenes del TAC o de RMI.)   Principalmente, estos procesos incluyen cálculos para crear las  convoluciones, multiplicaciones de matrices, y funciones de activación

El uso de las GPU ha pasado de moda a necesidad.  La forma más fácil de comenzar con las GPU para el aprendizaje es comenzar con un servicio de GPU en la nube. A continuación, se incluye una breve lista de algunas opciones que pueden ser adecuadas para sus necesidades:

    • Colab– Google Colaboratory, o “Colab”

    • para abreviar, es un producto de Google Research. Colab permite que cualquiera escriba y ejecute código Python arbitrario a través del navegador y es especialmente adecuado para el aprendizaje automático. Específicamente, Colab es un servicio en la nube que permite ejecutar desde la nube notebooks de Jupyter, con la ventaja que desde su  computadora portátil acceda a  Jupyter sin necesidad de ninguna  configuración para su uso, al tiempo que brinda acceso gratuito a los recursos informáticos, incluidas las GPU.
    • Kaggle: Kaggle (propiedad de Google)

    • proporciona acceso gratuito a las GPU NVIDIA TESLA P100. Estas GPU son útiles para entrenar modelos de aprendizaje profundo; sin embargo, no aceleran la mayoría de los  flujos de trabajo, como las bibliotecas de Python, (pandas y scikit-learn.)  Puede usar hasta un límite de cuota por semana de GPU. La cuota se restablece semanalmente y es de 30 horas o, en ocasiones, más alta, según la demanda y los recursos.
    • NVIDIA NGC – El catálogo NGC ™

    • es un centro de software optimizado para GPU para aprendizaje profundo (DL), aprendizaje automático (ML) e informática de alto rendimiento (HPC) que acelera la implementación en los flujos de trabajo de desarrollo para que los científicos de datos, los desarrolladores y los investigadores puedan concentrarse en la creación de soluciones, la recopilación de conocimientos y la entrega de valor comercial.
    • Amazon SageMaker

    • Puede utilizar Amazon SageMaker para entrenar fácilmente modelos de aprendizaje profundo en instancias de Amazon EC2 P3, instancias de GPU rápidas en la nube. Con hasta 8 GPU NVIDIA V100 Tensor Core y un ancho de banda de red de hasta 100 Gbps por instancia, puede iterar más rápido y ejecutar más experimentos al reducir los tiempos de entrenamiento de días a minutos.
    • GPU en la nube en Google Cloud Platform

    • GPU de alto rendimiento en Google Cloud para aprendizaje automático, computación científica y visualización 3D.
    • Lambda GPU Cloud para aprendizaje profundo

    • Lambda ofrece Lambda GPU Cloud, un servicio en la nube de GPU dedicado para Deep Learning.
  1. Mejorar en el proceso de visualización de los datos (datos creativos y bien narrados)

Otra importante de las Habilidades del científico de datos para el 2021,  es la visualización de datos junto con la narración de datos sigue siendo una de las principales habilidades que debemos cultivar los científicos de datos. Este paso es fundamental en el proceso de la ciencia de datos, y es una habilidad que distingue a los científicos de datos de sus colegas de ingeniería de datos o Ingenieros de Machine Learning .

Los científicos de datos asumen el papel importante y único de interactuar con las partes interesadas del proyecto al entregar los resultados de un proyecto de ciencia de datos de una forma dinámica, creativa y que se explique por si mismo.

Narrando datos

Además de los informes típicos y los resultados numéricos, una visualización de datos convincente y bien pensada es la mejor manera de mostrar los resultados que provienen de un algoritmo de aprendizaje automático. También es un ingrediente principal de la etapa final de narración de datos del proyecto, donde el científico de datos se esfuerza por llegar a una descripción concisa y no técnica de los resultados, donde los hallazgos clave se logren entender fácilmente.

Esta es un área que siempre ha sido deficiente. Es importante estar atento a nuevas técnicas de visualización de datos utilizando paquetes dentro de R recién descubiertos y bibliotecas de Python para hacer que el resultado sea cada vez más convincente.

  1. Utilizar intensamente Python

Aunque R siempre ha sido la herramienta por excelencia mayoría de los experimentos con datos, sin duda Python se usa cada vez más.  Es difícil ignorar Python ya que la mayoría de los artículos de blogs y materiales de aprendizaje geniales usan Python como el lenguaje de elección:  o sea que la mayoría de los artículos de aprendizaje profundo que aparecen en arXiv se refieren a repositorios de GitHub con código Python utilizando los frames y librerías de de  Keras, TensorFlow y Pytorch, ( bibliotecas de aprendizaje profundo)  y casi todo lo que sucede en Kaggle involucra Python.

R solía tener la ventaja con los 16.891 paquetes disponibles para complementar el lenguaje base, pero Python  afirma tener un orden de magnitud mayor que eso. Por muchas razones, Python será el idioma principal en 2021. Un conocimiento sólido de Python es una habilidad importante de la ciencia de datos para aprender.

  1. Utilizar las Bases de datos y sus lenguajes . El “SQL”

No me gusta cuándo las publicaciones relacionadas con la ciencia de datos incluyen el SQL junto con R y Python entre las habilidades del científico de datos para el 2021. A pesar de SQL es un excelente lenguaje de consulta de datos, no es un lenguaje de programación de propósito general. Muchas veces, los conjuntos de datos para un proyecto de ciencia de datos provienen directamente de una base de datos relacional empresarial, por lo que SQL es el conducto para adquirir datos. Además, puede usar SQL directamente en R y Python como una excelente manera de consultar datos en un dataframe.

  1. Incorporar los algoritmos  GBM sobre Deep Learning

La inteligencia artificial y el aprendizaje profundo continúan estando en la cima del “ciclo publicitario” de la industria y sospecho que 2021 no será diferente y son sin duda una tendencia de la Ciencia de datos en el 2021. El aprendizaje profundo es la herramienta perfecta para muchos dominios de problemas, como clasificación de imágenes, vehículos autónomos, Programación de Lenguaje Natural y muchos otros. Pero cuando se trata de datos tabulares, es decir, datos típicos, el aprendizaje profundo puede no ser la opción óptima. En cambio, GBM (máquinas impulsadas por gradientes) es el algoritmo de aprendizaje automático que generalmente logra la mejor precisión en datos estructurados por encima de otros algoritmos, como las conocidas redes neuronales de aprendizaje profundo. Algunos de los principales GBM incluyen XGBoost, LightGBM, H2O y catboost.

  1. Transformación de datos

A menudo se menciona que los científicos de datos gastamos más tiempo en el proceso de ELT (Me refiero al nuevo proceso de extracción – transformación y carga por el nuevo donde se invierte la transformación, ya que se realiza automáticamente en el servidor destino como Hadoop, Casandra o Spark )  y gastamos más tiempo y recursos que en el que en el proceso de Minería o Machine Learning propiamente.

 Transformar datos no es el trabajo bonito ni fácil, y es tan importante que puede significar éxito o fracaso en el futuro con el aprendizaje automático. Para una tarea tan importante, un científico de datos debe asegurarse de construir su caja de herramientas de ciencia de datos con código para abordar muchas necesidades comunes. Si usa R, eso significa usar dplyr y si usa Python, entonces Pandas es su herramienta de elección.

Para los equipos de ciencia de datos, también puede considerar una herramienta de transformación de datos de clase empresarial como Trifacta y Matillion.

  1. Uso de las Matemáticas y estadística

Mantener un conocimiento firme de los fundamentos de los algoritmos de aprendizaje automático requiere una base en matemáticas y estadística. Esta área suele ser el esfuerzo de aprendizaje final para muchos científicos de datos porque las matemáticas / estadísticas pueden no estar en su lista de prioridades . Pero creo que una comprensión fundamental de los fundamentos matemáticos del aprendizaje automático es fundamental para evitar simplemente adivinar los valores de los hiperparámetros al ajustar los algoritmos. Las siguientes áreas de las matemáticas son importantes: cálculo diferencial, ecuaciones diferenciales parciales, cálculo integral (curvas AUC-ROC), álgebra lineal, estadística y teoría de la probabilidad. Todas estas áreas son importantes para comprender cómo funcionan los algoritmos de aprendizaje automático.  ( Acá es donde usualmente le pido ayuda a mis colegas…. )

 8. Trabajar con datos reales y siempre con muchos, muchos datos

¡Siempre insisto en los estudiantes que busquen nuevos conjuntos de datos y experimenten, experimenten, experimenten! Los científicos de datos nunca podemos practicar lo suficiente trabajando con fuentes de datos desconocidas anteriormente.  Si está planeando hacer una investigación NO se conforme con únicamente sus datos, corrobore si hay otras personas trabajando con datos similares y complete su dataset con nuevos datos.   Afortunadamente, el mundo actualmente hay tanta BIG DATA en todas las áreas que  ahora el problema es separar los buenos datos de los malos y estructurarlos de la forma adecuada y creativa.

  1. Conocimiento del dominio

No se puede ser experto en todas las áreas, siempre antes de abordar un proyecto busque información alrededor del tema específico.  Adquirir el conocimiento de dominio necesario para un proyecto de ciencia de datos determinado, puede ser de gran ayuda incluso si no tiene la intención de seguir trabajando en esa área, ya que se sorprenderá de lo mucho que los diferentes dominios tienen en común. Por lo tanto, aprender mucho sobre un dominio, de seguro le ayudara en el futuro en otros.  Ésta es una de las Habilidades, no sólo  de la  Ciencia de datos en el 2021, sino en muchas áreas de trabajo

  1. Aprendizaje automático ético

El científico de datos también de saber decir en ciertos caso “no” sobre todo cuando se le pide que use sus habilidades para fines poco éticos o inmorales

Me refiero a crear imágenes y videos falsos que vayan a perjudicar personas o grupos, o crear datos o impulsar tendencias en los datos que afecten determinada actividad.  Hay muchos ejemplos de esto y por ello debemos ser cautos en el desarrollo de tecnologías que vayan en estas líneas.

Habilidades de la Ciencia de datos en el 2021 . Escrito y adaptado por el Dr. Juan I. Barrios

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

HTML Snippets Powered By : XYZScripts.com