Tidyverse
Tydiverse
es una colección de paquetes diseñados para la ciencia de datos. La ciencia de datos fue un término que surgió en 2008 para referirse a los métodos, procesos, algoritmos y sistemas científicos para organizar y analizar cantidades masivas de datos.
La siguiente figura representa un proceso sugerido por Hadley Wichkam y Garrett Grolemund para la ciencia de datos y consta de varios pasos.
- Lo primero que se debe de hacer es importar sus datos en R. Una ves que los datos están en R es recomendable ordenarlos, esto significa que cada columna es una variable y cada fila es una observación.
- Una vez ordenados, un siguiente primer paso común es transformar los datos. La transformación incluye reducir las observaciones de interés, crear nuevas variables que sean funciones de variables existentes y calcular un conjunto de resumen estadísticas.
- El siguiente paso es la generación de conocimiento: visualización y modelado. La visualización es una actividad fundamentalmente humana. Una buena visualización le mostrará cosas que no esperaba o planteará nuevas preguntas sobre los datos. Los modelos son herramientas complementarias a la visualización. Una vez que haya hecho sus preguntas lo suficientemente precisas, puede usar un modelo para responderlas.
- El último paso de la ciencia de datos es la comunicación, una parte absolutamente crítica de cualquier proyecto de análisis de datos. No importa qué tan bien sus modelos y visualización lo hayan llevado a comprender los datos, a menos que también pueda comunicar sus resultados a otras personas.
El proceso antes descrito suele ocupar aproximadamente el 80% del tiempo de un análisis de datos. Algunos pensaran que es demasiado tiempo, pero, en cualquier caso, es una tarea que ocupa tiempo y puede ser tediosa y frustrante si no cuenta con los conocimientos necesarios para llevarla a cabo. No es necesario ser un programador experto para ser un científico de datos, pero aprender más sobre programación vale la pena porque convertirse en un mejor programador le permite automatizar tareas comunes y resolver nuevos problemas con mayor facilidad.
Literatura
Hadley Wickham and Garrett Grolemund. 2017. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (1st. ed.). O'Reilly Media, Inc.