Sei sulla pagina 1di 5

INSTITUTO TECNOLOGICO SUPERIOR DE LERDO

Administracin y Organizacin de Datos

Ensayo: Formatos de archivos de secuencias

Maestro: Ricardo de Jess Bustamante Gonzlez Alumna: Diana Sarai Jurez Vargas

N de ctrl. 10231020 Grupo: A

8-Feb-12

Un registro en un archivo puede accederse en forma secuencial o aleatoria. En el acceso secuencial, cada registro debe accederse en secuencia, uno despues de otro, de principio a fin. En el acceso aleatorio, un registro puede accederse sin tener que recuperar ningn registro antes que el. Pero la direccin del registro debe conocerse. En el archivo secuencial se puede acceder a los registros de forma secuencial, es decir, uno despues de otro, de principio a fin. Los registros se almacenan uno depuse de otro en un dispositivo de almacenamiento auxiliar. La actualizacin de un archivo secuencial requiere un archivo maestro nuevo, un archivo maestro viejo, un archivo transaccin y un archivo de informe de errores. Ventajas: evidentemente la organizacin secuencial es la que mejor se adapta al procesamiento secuencial, en particular para la elaboracin de reportes que estn en el mismo orden secuencial del archivo y para la obtencin de archivos histricos. Los archivos secuenciales son muy adecuados para los trabajos de lote, ya que se logran muy buenos tiempos de lectura de archivos e incluso simultaneidad en lecturas y escritas. Por ejemplo: en los discos los tiempos de posicionamiento de las cabezas se pueden minimizar. La organizacin secuencial permite aprovechar eficientemente el espacio y si el archivo es multivolumen no es necesario que todos los volmenes estn forzosamente en lnea. Adems permite un procesamiento fcil de los registros.

Existen dos tipos de archivos bsicos: Archivos ASCII: este cdigo utiliza 7 bits para representar los caracteres, casi todos los sistemas actuales de informacin utilizan este cdigo. El cdigo ASCII es una representacin numrica de un carcter como a o @, es un mtodo para una correspondencia entre cadenas de bits y una serie de smbolos (alfanumricos y otros), lo cual permite la comunicacin entre dispositivos digitales as como su procesado y almacenamiento. El cdigo ASCII define una relacin entre caracteres especficos y secuencias de bits; adems de reservar unos cuantos cdigos de control para el procesador de textos, y no define ningn mecanismo para describir la estructura o la apariencia del texto en un documento; estos asuntos estn especificados por otros lenguajes como los lenguajes de etiquetas. 1. Archivos ASCII: Archivos fuente: .f, .c, .p Formatos de texto: .tex, .txt, .html Formatos de intercambio: .rtf, .ps, .uu Dentro de los archivos ASCII de uso comn por los programas de bioinformtica estn los siguientes: De secuencias: .seq

De secuencias mltiples: .aln, .msf (Multiple Sequence Format, secuencias alineadas), .rsf (Rich Sequence Format, estos archivos pueden incluir una o ms secuencias relacionadas o no).

2. Archivos binarios: Un archivo binario es una coleccin de datos almacenados en el formato interno de la computadora. Los datos pueden ser enteros, flotante, carcter o cualquier otra informacin estructurada. Los archivos binarios contienen datos que son significativos, solo si son interpretados adecuadamente por un programa. Por ejemplo: cuando usted lee o escribe un entero, dos bytes se interpretan como un entero. Archivos binarios: De imagen: .jpg, .gif, .tiff, .bmp (Portable bitmap), .wmf (Windows Meta File), .png (Portable Network Graphics), .pcx (Paintbrush); entre muchos otros De video: .mpg, .mov, .avi, .gif Comprimidos o empaquetados: .zip, .Z, .gz, .tar, .lhz Ejecutables o compilados: .exe, .com, .cgi, .o, .a Procesadores de palabras: .doc

Formatos archivos de secuencias: Formato PHYLIP: es un formato de secuencias de nucletidos y de residuos de aminocidos que se utiliza frecuentemente como formato de entrada de diferentes programas o paquetes de anlisis tales como: PHYLIP (el cual le dio el nombre), LARD, PLATO, SPOT; entre otros. GenBank: este formato es el utilizado para los reportes de secuencias tanto de nucletidos como de aminocidos que se encuentran almacenados en el GenBank. Principalmente se caracteriza por proporcionar al usuario una informacin bastante completa sobre la secuencia. EMBL: los archivos en este formato son reportes generados por la base de datos de secuencias de nucletidos y de protenas respaldada por el EMBL (European Molecular Biology Laboratory). PIR: (Protein Identification Resource) este es el formato con el que son generados los archivos provenientes de la base de datos PIR. FASTA: es uno de los formatos ms empleados en la actualidad. Puede incluir una o ms secuencias lineales de nucletidos o aminocidos no alineadas. CLUSTAL: es uno de los muchos formatos para archivos de secuencias alineadas ms utilizados por los programas de anlisis de secuencias. MSF: (multiple sequence file) es un formato para dos o ms secuencias alineadas, donde el "." representa un gap, los nucletido o aminocidos son representados en su cdigo de una letra, y la secuencia es escrita en columnas de diez (10) letras cada una.

MSF del GCG: los programas de GCG, para poder utilizar como archivo de introduccin de datos uno con este formato, las siguientes caractersticas requieren ser especificadas: tipo de archivo (AA_MULTIPLE...!!), comienzo de la seccin correspondiente a la secuencia (... ", comienzo de secuencia (" // "). RSF: (Rich Sequence File) este tipo de formato de archivos de secuencias de nucletidos o aminocidos es utilizado por algunos programas del GCG y permite introducir una o ms secuencias para llevar a cabo un anlisis.

Los archivos son datos que tienen entre si algo en comn, es decir, que los datos poseen un criterio de pertenencia que les permite ser identificados como elementos o miembros del conjunto que constituye el archivo.

Bibliografa http://www.slideshare.net/luismy_martinez/archivo-secuencial http://books.google.com.mx/books?id=xu4jcMBih8QC&pg=PT292&dq=introduccion+ a+los+formatos+de+archivos+secuenciales&hl=es&sa=X&ei=PiUzT5yfLaeLsgKHlpD 2AQ&ved=0CDMQ6AEwAA#v=onepage&q&f=false http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html http://www.google.com.mx/#hl=es&cp=54&gs_id=6b&xhr=t&q=diferentes+tipos+de+f ormatos+de+archivos+de+secuencias&pf=p&sclient=psyab&source=hp&pbx=1&oq=diferentes+tipos+de+formatos+de+archivos+de+secuencia s&aq=f&aqi=&aql=&gs_sm=&gs_upl=&bav=on.2,or.r_gc.r_pw.,cf.osb&fp=22e09807f ba3a629&biw=990&bih=598

Potrebbero piacerti anche