Intro a R

qué es R?

  • Es un lenguaje de programación para estadística y gráficos desarrollado en 1970 (sucesor de “S”) por Ross Ihaka y Robert Gentleman. Desde 1997 lo lleva “R Core Team”
  • Como lenguaje de programación, permite crear funciones, loops, trabajar en módulos, etc.
  • Su diseño facilita la implementación de técnicas estadísticas (regresión, test, modelamiento, series de tiempo, etc.) y gráficos, así como la manipulación controlada de datos.
  • Orientado a objetos
  • Permite ampliar sus funcionalidades mediante los paquetes

por qué usar R?

  • gratuito

  • código abierto: los usuarios tienen la libertad de ejecutar, copiar, distribuir, estudiar, modificar y mejorar el software.

  • en crecimiento

The Popularity of Data Science Software, Muenchen (2023)
  • permite trabajar (manipulación y limpieza) con estructuras de datos complejas (multinivel, espacial, temporal, etc.)

  • extensa variedad y facilidad para visualización de datos

cómo se ve R?

R tiene una interfaz de usuario propia, pero no es sencilla de usar

interfaz de R Base

Por ello existen otros IDEs (entornos integrados de desarrollo) que facilitan el uso de R, como por ejemplo RStudio (existen otras como VSCode o JupyterLab)

De esta manera es más sencillo organizar el flujo de trabajo

  • en la sección 1 se escribe y almacena el código en formato “script”. Es una sintáxis de las acciones y parámetros del proyecto

  • en la sección dos se muestra el “entorno” (environment) donde se listan los objetos creados y los datos que se utilizan para trabajar

  • en la sección 3 se muestra la ejecución de el código. Aquí NO se almacena el código, solo se muestra su ejecución. También muestra los posibles errores

  • En la sección 4 se muestran los resultados (en caso de ser necesario) de las operaciones realizadas con los objetos (gráficos, visualizaciones), así como la ayuda y la lista de archivos del proyecto, entre otros.

cómo se instala R?

dado que es más útil trabajar con IDEs complementarios a R, es necesario instalar ambas instancias:

  1. R se descarga de la web del CRAN de R-project

  2. RStudio también de su web oficial

Una vez instaldos, solo es necesario abrir RStudio (R se ejecuta automáticamente)

cómo funciona R?

calculadora

  • al ser una herramienta principalmente para trabajo estadítico, las funciones de base son como las de una calculadora estándar:
1+1
[1] 2
14*31
[1] 434

orientado a objetos

  • la mayoría de las acciones que ocurren se aplican a los objetos

  • los objetos son “nombrados” (generados, creados, manipulados)

  • generan resultados, que pueden ser almacenados como nuevos objetos

Paradis, 2003

por ejemplo, podemos crear el objeto “x” que podría ser el producto de:

x <- 20*12

x
[1] 240

y luego operar con x:

x/14
[1] 17.14286

de hecho podemos crear un nuevo objeto con la última operación que aplicamos a “x”

q <- x/14

q
[1] 17.14286

et voilà…! de esto se trata “orientado a objetos” (obvio que se pone más complicado, pero la idea básica es esta)

un par de tips

  1. para ejeecutar el código podemos dar click en “run code” o la combinación “ctrl+enter”

  2. si queremos evitar que se ejecute una parte es posible usar “#”

#esta parte del código no se ejecutará, se lo considera un "comentario" y es útil para anotar información extra al código. lo que no se encuentra dentro del comentario se ejecuta:
#
x+q
[1] 257.1429
  1. como pudiste notar, los objetos se crean o asignan usando los símbolos “<-” o “=” (más el primero). Es buena costumbre dejar espacios entre las dos partes de la operación

  2. R es “case sensitive”, lo que significa que “Julian” y “julian” no son consideradas equivalentes. Debes tener cuidado al asignar nombres a los objetos. Del mismo modo es recomendable no usar acentos, tildes o caracteres especiales en la asignación de nombres de objetos.

  3. existen algunos nombres que están reservados y no se recomienda usarlos como nombres de objetos. Esto es porque corresponden a funciones que se les aplica a los mismos. Por ejemplo, para obtener la media de x y q utilizo la función:

mean(x, q)
[1] 240

por lo que asignar a un objeto ese nombre causaría problemas.