RESOLVIENDO PROBLEMAS BIOLÓGICOS TÉCNICAS DE MANIPULACIÓN DE DATOS Muchas veces los datos no se encuentran organizados en un sólo archivo. Entonces debemos combinar los datos para obtener un conjunto utilizable para nuestro análisis COMBINANDO CONJUNTOS DE DATOS Para este ejercicio tenemos varios archivos de datos: - gene.expression.txt: Contiene los valores de la expresión de genes - gene.description.txt: Información de los genes - cancer.patients.txt: Información de pacientes OBJETIVOS - Buscar un gen específico en los datos - Buscar genes en una región genómica - Ejecutar una verificación para ver si un gen previamente conocido muestra una diferencia en el conjunto de datos - Crear un mapa para agrupar las muestras y revelar sub grupos en los datos 1) SELECCIONAR LOS DATOS valoresNormalizados <- read.delim("gene.expression.txt") head(valoresNormalizados) Una fila por gen. Cada fila es nombrada de acuerdo a la tecnología utilizada para realizar la medida. Una columna por paciente anotacionGen <- read.delim("gene.description.txt",stringsAsFactors = FALSE) head(anotacionGen) Una por cada gen. Contiene el mapeo entre el identificador del manufacturador y el nombre del gen metadataPaciente <- read.delim("cancer.patients.txt",stringsAsFactors = FALSE) head(metadataPaciente) Una fila por cada paciente. Una columna por cada característica del paciente Por ejemplo, si un paciente es ER positivo (1) o negativo (0) table(metadataPaciente$er) 2) ORDENANDO LOS DATOS R provee algunos filtros para ordenar y agrupar los datos. Por ejemplo, obtener la información de los pacientes que son ER positivos metadataPaciente$ER == 0 Podemos realizar una comparación pacientesERnegativo <- metadataPaciente[metadataPaciente$er == 0,] head(pacientesERnegativo) También se puede visualizar de la siguiente manera View(pacientesERnegativo) Para ordenar, ejecute sort(pacientesERnegativo$grade) La funcion "order" muestra la posición de acuerdo al valor del vector vector <- c(90,100,40,30,80,50,60,20,10,70) vector order(vector) Esta función también trabaja sobre valores de caracteres firstName <- c("Adam", "Eve", "John", "Mary", "Peter", "Paul", "Joanna", "Matthew", "David", "Sally") order(firstName) Podemos construir un vector ordenado utilizando esta función vector.ord <- vector[order(vector)] vector.ord Estas funciones las podemos utilizar en los datos dados pacientesERnegativoPorEdad <- pacientesERnegativo[order(pacientesERnegativo$age),] head(pacientesERnegativoPorEdad) Podemos cambiar la dirección de ordenamiento pacientesERnegativoPorEdad <- pacientesERnegativo[order(pacientesERnegativo$age,decreasing = TRUE),] head(pacientesERnegativoPorEdad) 3) EJERCICIO Se quiere conocer la información del cromosoma 8 que hayan sido medidos a) Cree un data frame con la información de los genes del cromosoma 8 b) Ordene la información del data frame de acuerdo a la posición de inicio y escríbalo en un archivo