Carga de datos

Importar datos a R

Una vez descargados los archivos de datos, vamos a ubicarlos al interior de una carpeta llamada data que a su vez crearemos dentro del directorio de nuestro proyecto.

Paquetes para importar datos

# Instalación del paquete tidyverse
install.packages("tidyverse")
# Si hay problemas de compatibilidad
# install.packages("tidyverse", dependencies=TRUE, INSTALL_opts = c("--no-multiarch"))
# Instalación del paquete DBI
install.packages("DBI")
# Instalación del paquete RMariaDB
install.packages("RMariaDB")

install.packages("readxl")
# Cargamos los paquetes
library("tidyverse")
library("DBI")
library("RMariaDB")
library("readxl")

Note que tidyverse es una colección de paquetes ampliamente usada en la ciencia de datos en R, por lo que al instalarlo se instalan a su vez numerosos paquetes que son útiles para cargar, manipular, limpiar, procesar, modelar y visualizar datos.

Veamos cómo cargar datos en distintos formatos.

Archivos de texto plano (.txt)

# Una forma de declararlo usando la función read_delim
read_delim(
  file = "01_data/programacion/DataObesidad.txt",
  delim = "|", 
  locale=locale(decimal_mark = ".")
) -> data_txt

# Otra función para leer los datos usando la función read.table
read.table(
  file =  "01_data/programacion/DataObesidad.txt",
  sep =  "|",
  header = TRUE,
  dec = ".",
  fileEncoding = "UTF-8"
  ) -> data_txt
# Herramientas para examinar los datos
str(data_txt)
# Herramientas para examinar los datos
glimpse(data_txt)

Al importar archivos de texto plano revisar:

  • Símbolo separador
  • Símbolo decimal
  • Codificación

Archivo de valores separados por comas (.csv)

read.csv(
  file = "01_data/programacion/DataObesidad.csv"
) -> data_csv

str(data_csv)

Al importar archivos separados por comas revisar:

  • Símbolo separador (no siempre se separan con comas)
  • Símbolo decimal
  • Codificación

Archivos de Excel (.xls .xlsx)

read_excel(
  path = "01_data/programacion/DataObesidad.xls"
) -> data_xls

str(data_xls)

read_xlsx(
  path = "01_data/programacion/DataObesidad.xlsx", 
  sheet= "Obesidad"
) -> data_xlsx

str(data_xlsx)

Al importar datos desde Excel, asegúrese de especificar el nombre exacto de la hoja que contiene sus datos brutos.

Archivos de STATA (.dta)

library("haven")
read_dta(
  file = "data/DataObesidad.dta"
) -> data_dta

str(data_dta)

Archivos de bases de datos de SPSS

library("haven")
read_sav(
  file = "data/DataObesidad.sav"
) -> data_sav

str(data_sav)

Hojas de cálculo en Google Sheets

Podemos leer desde R hojas de cálculo públicas o privadas.

  • Hojas públicas
library("googlesheets4")
# Comando para leer sin autenticación
gs4_deauth()
# Declaro el enlace
link = "https://docs.google.com/spreadsheets/d/1iM7i0nd3EPMzH79oZEo48nIcWbyT14ThsJ8ZO9r3F4Y/edit?usp=sharing"
# Lectura de datos
data_gs <- read_sheet(link)

str(data_gs)
  • Hojas privadas
# library("googlesheets4")
# Comando para realizar la autenticación vía web
gs4_auth()
# Declaro el enlace
link = "https://docs.google.com/spreadsheets/d/1iM7i0nd3EPMzH79oZEo48nIcWbyT14ThsJ8ZO9r3F4Y/edit?usp=sharing"
# Lectura de datos
data_gs <- read_sheet(link)

str(boston_housing_gs)

Usando la interfaz de RStudio

Ya sabemos importar datos.