Cómo convertir un archivo TXT a FASTA (En 6 Pasos)

Por maureen bruen
Cómo convertir un archivo TXT a FASTA (En 6 Pasos)
DNA image by chrisharvey from Fotolia.com

Se realizan estudios clínicos para analizar los datos de las secuencias de proteínas y encontrar tratamientos para enfermedades. Los datos de secuencias de proteínas se colocan en el formato FASTA (formato rápido) de manera que los programas entiendan cómo procesar la línea de datos y utilizar el código estándar IUB/IUPAC (International Union of Biochemistry/International Union of Pure and Applied Chemistry - Unión Internacional de Bioquímica / Unión Internacional de Química Pura y Aplicada). Convertir un archivo TXT (texto simple) a FASTA requieres editar o añadir secuencias de datos en formato FASTA a un archivo de texto existente con líneas de datos de secuencias de proteínas. Los editores de texto como Bloc de Notas hacen que esto sea fácil de realizar.

Paso 1

Abre el archivo de texto con la secuencia de proteínas que quieres editar en un programa de edición de texto como Bloc de Notas.

Paso 2

Edita o añade la línea de descripción para seguir el formato FASTA. Por ejemplo, >gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) es una línea de descripción FASTA válida. Esta línea provee una descripción única para la secuencia de datos que le sigue. El formato FASTA requiere el uso del símbolo mayor que (>) para que el programa pueda identificar la información descriptiva única y para evitar procesar la descripción como una línea de los datos de la secuencia de proteínas.

Paso 3

Presiona "Enter" para insertar un salto de línea una vez que hayas editado la línea de la descripción.

Paso 4

Edita o añade el formato de la línea de datos de la secuencia de proteínas para ajustarte a los códigos estándar de IUB/IUPAC. El estándar IUB/IUPAC usa letras del alfabeto para representar códigos aceptables o secuencias de interrogación para los aminoácidos o ácidos nucleicos en el formato FASTA. Por ejemplo, QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE representa una línea secuencia de datos válida ya que empieza con la letra "Q", representando la glutamina, y termina con la letra "E", que representa el glutamato.

Paso 5

Añade más líneas de secuencias de datos, editando las existentes o añadiendo saltos de línea luego de 80 caracteres como es necesario. Añadir estándares de línea y saltos de línea a la secuencia de datos FASTA asegura que el programa siga las instrucciones relacionadas a la glutamina, el glutamato y otros códigos de letras. Las letras en el estándar IUB/IUPAC son simplemente instrucciones para el programa que procese los datos en formato FASTA.

Paso 6

Haz clic en "Archivo", selecciona y haz clic en el botón "Guardar". Tu archivo TXT ya se encuentra en formato FASTA.