Análisis espaciales y multivariantes con R (AEMeR) aplicados a estudios de biodiversidad

Ejercicios de análisis multivariante

Autor/a

Diego Nieto Lugilde

Fecha de publicación

16 de octubre de 2024

Nota

Los ejercicios tendréis que entregarlos para la evaluación del curso. Para ello, crea un script de R con RStudio. Ponle el nombre ejercicios_t3_[nombre]_[apellido].R. Dicho script deberá estar organizado con comentarios en castellano (poniendo una almohadilla # delante) y justo detrás el código necesario para realizar el ejercicio (ver ejemplo debajo). Además, si el ejercicio pide reflexionar sobre el resultado use los comentarios (con la #) para indicar sus reflexiones debajo del código. Una vez los tengáis completos podéis mandármelos por email.

# Ejercicio 1.
# Parte 1
seq(1, 40, by = 2)

# Parte 2
seq(1, 40, by = -2)
# Este código da error porque especifiqué algo mal :)

Parte 1. Análisis de ordenación

1. Carga los datos que os he dejado en la página web (muchas gracias Michelle :). Se trata de dos tablas de excel. Una con variables abióticas (ambiente) y otra de variables bióticas (especies) tomados en las zonas de desembocaduras de varios ríos entre Bahía Blanca y Mar de Plata. A la primera llámala env y a la segunda llámala com.

Nota

He modificado los datos originales de Michelle en varios sentidos. Por un lado, he rellenado/inventado varios datos de las variables ambientales que no se habían podido medir. Por otro lado, había varios puntos de muestreo que no presentaban ningún individuo de las especies estudiadas. En estos casos, he seleccionado una especie al azar y le he añadido un individuo. Ninguna de las dos cosas es correcta, pero los análisis de ordenación no aceptan puntos sin observación alguna, ni datos ausentes. Lo he hecho intencionadamente para que los datos de Michelle no estén en bruto y podamos realizar los ejercicios sin preocuparnos de los datos NA o sin observaciones.

Pista

Aquí vas a necesitar la función read.xlsx, además, deberás especificar el argumento row.names = 1 para asegurarte que lee correctamente los nombres de las filas y los carga como tales. Así no te tendrás que preocupar de eliminar la columna 1 con los nombres de los sitios de muestreo.

Solución: Mirar sólo en caso de extrema necesidad.

library(xlsx)
env <- read.xlsx("data/sciberras_ambiente.xlsx", 1, row.names = 1)
com <- read.xlsx("data/sciberras_especies.xlsx", 1, row.names = 1)

2. Vamos a preparar un poco los datos. Los datos de comunidades son abundancias, por lo que tienen una distribución muy sesgada hacia la izquierda (muchos valores próximos a cero). En estos casos, es frecuente aplicar una transformación para reducir dicho sesgo. Utiliza la función log1p() sobre la matriz com. El resultado puedes llamarlo comm. Además, la tabla (data frame) env tiene varias columnas y sólo 3 de ellas son variables ambientales. Las otras dos son información que caracteriza el punto de muestreo (información del río, mes de muestreo y ubicación con respecto a la desembocadura: 100 metros al norte, 100 metros al sur, o en la misma desembocadura). Partiendo de este data frame, genera dos data frame distintos; uno llamado sites que tenga la información de caracterización del punto de muestreo (río, sitio y mes) y otro llamado envm con los datos de las variables ambientales medidas (materia_org, temperatura, salinidad y ph).

Pista

Aquí deberás usar los corchetes ([]), tal y como hemos aprendido en días anteriores.