Septiembre, 2017

Temas

  • Buenas prácticas
  • Tipos de formatos
  • Fuentes de datos
  • Variables necesarias
  • Ejemplos

Buenas prácticas

  • Todo nuestro esfuerzo es para obtener datos, hay que cuidarlos
  • Nombres de columna
    • Sin espacios (usar snake_case, CamelCase o dot.case)
    • Sin caracteres especiales
    • Sin unidades
  • Metadatos
  • Almacenamiento online (e.g. mySQL, KoBo Toolbox, Open Data Kit)
  • Sistemas de control de versión (e.g. GitHub, SVN, Mercurial)
  • Aprovechar todas las opciones "OpenScience" Lowndes et al. (2017)
  • Crear capacidad de manejo de datos más allá de Excel / Access

Tipos de formato

  • Casi cualquier base de datos puede tenerse en dos formatos
  • Formato ancho
    • Una variable ocupa varias columnas (la base tiende a ser ancha)
    • Cada una de estas columnas tiene valores de otra variable
  • Formato largo
    • Una variable por columna, una fila por registro

Tipos de formato

Ejemplo largo

Producción pesquera de 2 recursos en 3 años
Recurso 2015 2016 2017
Mero 10 15 22
Barracuda 20 28 18
  • Se lee "fácil"
  • Difícil hacer gráficas, prueba de hipótesis, análisis
  • No sabemos lo que se reporta las celdas
  • Bueno para reportar datos en forma tabular (e.g. tabla en un reporte)

Formato de datos

Ejemplo largo

Producción pesquera de 2 recursos en 3 años
Recurso Año Arribos
Mero 2015 10
Barracuda 2015 20
Mero 2016 15
Barracuda 2016 28
Mero 2017 22
Barracuda 2017 18
  • No es tan fácil de leer para nosotros
  • Ideal para hacer análisis (lm(Arribos ~ Año + Recurso))
  • Formato requerido por muchos softwares de análisis y visualización (e.g. Tableau, miniTab, Statistica, SPSS)
  • Permite orden jerárquico

Formato de datos

Ejemplo largo

library(ggplot2)

ggplot(df2, aes(x = Ano, y = Arribos, color = Recurso)) +
  geom_line(size = 2) +
  geom_point(size = 3, color = "black") +
  theme_bw()

Fuentes de datos

Una comunidad costera

Variables mínimas necesarias: Biológicos

  • Año
  • Comunidad
  • Sitio
  • Zona
  • RC
  • Transecto
  • Profunidad
  • Visibilidad
  • Temperatura
  • GeneroEspecie
  • Talla
  • Abudnancia
  • Historia de vida (a, b, NT, Lm)
  • Ejemplo

Ejemplo biológico

Variables mínimas necesarias: Socioeconómico

  • Año
  • Comunidad
  • GeneroEspecie
  • Arribos
  • Ingresos
  • CPI
  • Ejemplo

Ejemplo socioeconómico

Variables mínimas necesarias: Gobernanza

  • Base muy larga (64 columnas)
  • Code, Interviewer, Date, Community, Interviewee, Gender, Age, Occupation, TimeOnCommunity, Education, Diver, TimeOnJob, WorkFreq, Q1, Q2_Name, Q2_Year, Q2_Reason, Q3, Q4_1, Q4_2, Q4_3, Q5, Q5_1, Q5_2, Q6, Q7, Q8, Q9, Q10Bef, Q10Aft, Q11, Q12, Q12_1, Q13, Q14_11, Q14_12, Q14_21, Q14_22, Q15, Q16, Q17, Q18Bef, Q18Aft, Q19Bef, Q19Aft, Q20_1, Q20_2, Q20_3, Q21_11, Q21_12, Q21_13, Q21_14, Q21_15, Q21_21, Q21_22, Q21_23, Q21_24, Q21_3, Q22, Q23, Q24_Action, Q24_Why, Q24_How, Q25
  • Forma de Access para captura de datos
  • Ejemplo

Forma de Access

Forma de Access

Extensiones

  • MAREA requiere que todos los datos estén en formato *.csv:
    • Valores coma-separados
    • Elimina fórmulas, validaciones y funciones en celdas
    • Elimina espacios en blanco antes y después de palabras ("Mero rojo" vs. "Mero rojo ")
    • Elimina filas en blanco al final del archivo
    • Archivos más ligeros

Convertir *.xls a *csv

Referencias

Lowndes, Julia S. Stewart, Benjamin D. Best, Courtney Scarborough, Jamie C. Afflerbach, Melanie R. Frazier, Casey C. O’Hara, Ning Jiang, and Benjamin S. Halpern. 2017. “Our Path to Better Science in Less Time Using Open Data Science Tools.” Nat. Ecol. Evol. 1 (6): 0160. doi:10.1038/s41559-017-0160.

Bloque 4