Sei sulla pagina 1di 41

Introduo Disciplina

Francisco Couto
Processamento de Dados
2015/16

Pgina Disciplina
http://moodle.ciencias.ulisboa.pt/course/view.php?id=2177

Quantidade
Growth of entries in DNA-sequence databases

Fonte: http://www.nature.com/nrg/journal/v5/n11/fig_tab/nrg1474_F1.html

Artigos cientficos
MEDLINE
over 21 million citations in total

809,636 citations added in 2013


reading 10 articles per day,
takes more than 221 years to read those articles

Fonte: http://www.nlm.nih.gov/bsd/medline_cit_counts_yr_pub.html

Variedade
EBI: a data hub for bioinformatics in Europe

Source: http://www.slideshare.net/saymaztoma/emblebi

Multidisciplinariedade

Fonte: http://dbdmg.polito.it/twiki/bin/view/Public/Bioinformatics

Objetivo da Disciplina

Vantagens Extra
An Explosion Of Bioinformatics Careers
in Science of June 13, 2014 DOI
http://dx.doi.org/10.1126/science.opms.r1400143

Global Bioinformatics Market Will reach USD


12,542.4 million in 2020
in Finances, December 31, 2014

http://www.finances.com/analyses-and-opinions/analysis-opinions/49771-global-bioinformatics-market-will-reach-usd-12542-4-million-2020.htm

Bioinformticos so muito requisitados e so


poucos

Testemunhos
Experts agree that
the most successful bioinformaticians (and the ones
who land the jobs) are those who have a multitude of
skills

At Roche,
we offer continuous training in various areas and
encourage our staff to attend conferences, publish, or
pursue higher degrees
In An Explosion Of Bioinformatics Careers in Science of June 13, 2014

Docentes
Francisco Couto
Cordenador, T12, T11, TP11, TP12, TP15, TP16, TP17a
e TP17b
Sala 6.3.23
Horrio de Dvidas: Quintas, 15h30 - 16h30
http://www.di.fc.ul.pt/~fjmc

Joo Ferreira

TP13, TP14, TP18 e TP110


Sala 6.3.33
Horrio de Dvidas: Segunda, 13h30 - 14h30
http://www.lasige.di.fc.ul.pt/user/55

Planeamento Tericas
1.
2.
3.
4.
5.
6.
7.

Manipulao de Texto
Manipulao de Ficheiros
Listas e Ciclos
Condies
Expresses Regulares
Bases de dados
Linguagens de Interrogao s Bases de
Dados (SQL)

Planeamento TPs
1.
2.
3.
4.
5.

Dados de vias metablicas


Seleo simples e guardar informao em disco
UniProt como servio web
Cruzamento de dados
Seleo de informao com expresses
regulares
6. Criar uma base de dados SQL
7. Inserir e consultar a informao na base de
dados

Funcionamento das TPs


Ter conta FCUL para aceder aos PCs
podem usar portteis

Os trabalhos so individuais
Submeter todas as semanas um zip com o
material produzido
Faam os tutorias do Codecademy antes
Ferramentas:
Python e Access

Codecademy python

Bibliografia
Livros
Python for Biologists, by Dr. Martin Jones, 2013
Database Management Systems (third edition), R.
Ramakrishnan and J. Gehrke, McGraw-Hill, 2007
Introduction to Bioinformatics by Arthur M. Lesk, 2008

Tutorials:
Python from scratch
http://userpages.fu-berlin.de/digga/
W3Schools
http://www.w3schools.com/
Codeacademy
https://www.codecademy.com/

Avaliao
Trabalhos nas TPs
Peso 30% na nota final;
Nota individual de 0 a 2 em cada TP.
Avaliao periodica, ou seja no est disponvel na
poca especial.

Exame Escrito
Peso 70% nota final;
Nota individual de 0 a 20;
Nota mnima 8,5

Exame
Ideia
Conjunto de perguntas (tericas e prticas) de
resposta mltipla
Mais um ou dois exerccios de desenvolvimento

PYTHON

O que o Python?
Linguagem popular de programao
Muito usada na bioinformtica
Python (interpretador) tambm uma aplicao que
se instala no computador:
Freeware
traduz as instrues do python para instrues que o
computador entende e executa.

20

O que um programa?
Conjunto de instrues escritas numa linguagem
(python) que pode ser interpretada pelo computador
Pode ser to simples como imprimir uma sequencia
de DNA no ecr:
print ('ACCTGGTAACCCGGAGATTCCAGCT');

21

O que uma linguagem de


programao?
Um conjunto de regras de como escrever programas
de computador
Semelhante s lnguas faladas (portugus)
Mas mais bem definida sem ambiguidades

Pode ser compilada ou interpretada


Python interpretada

22

Vantagens do Python
Linguagens de programao esto sobre-valorizadas
se depois precisar de usar Perl a adaptao ser fcil

os problemas mais simples de Biologia podem ser resolvidos em


qualquer linguagem

Fcil iniciao
Syntax consistente
Paragrafao obrigatria
Biblioteca de funes extensa
Tem uma forma obvia de se resolver
Muito usada em biologia e no s
23

Instalar o Python
https://www.python.org/getit/
Verso 2.7
Mac OSX e Linux
Na maior parte dos casos j est instalado

Editor de texto
Notepad++
No usar Word
Usam caracteres especiais
24

DICAS DE PROGRAMAO

Edite Execute - Corriga


como andar de bicicleta, s ir aprender a
programao se tentar muitas vezes e apreender
com os erros
Comece com programa simples que funcione e v
adicionando funcionalidades passo a passo
Grave os programas e faa backups
Os discos no duram para sempre

26

Erros sintticos
Erros tipogrficos como esquecer de um
Numa receita culinria: aroz em vez de arroz

Simples de corrigir
Leia as mensagem de erro com ateno e corrija
Verifique apenas os primeiros erros deixe os outros
para a prxima execuo

27

Erros Semnticos
O interpretador consegue executar o programa mas
no devolve o que estava espera
Numa receita culinria: acar em vez de arroz

Verifique os resultados intermdios at encontrar o


erro

28

DADOS

Armazenamento de Dados

DBMS
Uma base de dados uma coleco de dados
SGBD (Sistema de Gesto de Base de Dados)
DBMS (Database Management System)
Aplicao que apoia a manuteno e acesso a
grandes coleces de dados

Bases de Dados Relacionais


Classe dominante de SGBD

Vantagens do SGBD (1)


Independncia dos dados
Aplicaes no esto expostas aos detalhes de
como os dados esto representados e
armazenados
SGBD disponibiliza uma viso abstracta dos dados

Acesso Eficiente aos Dados:


O SGBD utiliza uma variedade de tcnicas
sofisticadas para armazenar e recolher dados de
uma forma eficiente

SGBD Vantagens (2)


Integridade dos Dados e Segurana
O SGBD pode aplica restries de integridade
durante o acesso aos dados

Administrao dos dados:


Profissionais experientes podem organizar a
representao dos dados por forma a minimizar a
redundncia e melhorar o armazenamento e
recolha dos dados

SGBD Vantagens (3)


Acesso Concorrente e Recuperao de Falhas
Acesso aos dados como fosse acedido por um
utilizador de cada vez
Minimiza os efeitos de falhas no sistema

Reduo do tempo de desenvolvimento de


aplicaes
Disponibiliza funes de acesso comuns
Interface de alto nvel para os dados
Mais robusto:
Tarefas executadas pelo DBMS no precisam de ser
verificadas

SGBD Desvantagens
Aplicaes complexas de software
Desempenho inaceitvel para algumas
aplicaes
Aplicaes de tempo-real

No disponibiliza anlise flexvel dos dados em


texto
Nem sempre os benefcios dos SGBD so
necessrias

Modelo Relacional
Composto por relaes
O esquema para uma relao especifica:
O seu nome
O nome de cada atributo (ou campo)
O tipo de cada atributo

Exemplo:
Students( sid: string, name: string, login: string, age:
integer, gpa: real)
* Age est incorrecto usado apenas para no complicar

Instncia de uma relao

Cada linha na relao Students um registo


que descreve um aluno
Cada linha segue o esquema da relao
Students

Interrogaes ao SGBD
Exemplo:
Qual a fraco de estudantes na disciplina CS564 que
obteve uma nota superior a B7?

Traduo para a linguagem de interrogao do


SGBD
Nos SGBD relacionais usa-se o SQL
DDL
create, drop, alter o esquema conceptual

DML
insert, delete, update, select os dados

O SGBD tenta executar as interrogaes da forma mais


eficiente

EXCEL vs CSV
EXCEL
Formato proprietrio
acesso restrito

CSV
Menos opes (formulas, formatao)
Mas acesso universal (qualquer editor de texto)

Converter de EXCEL para CSV e vice versa


simples

Porqu o Microsoft Access

Tem o SQL
Est includo no Microsoft Office
Interface fcil
um SGBD muito limitado

ODBC (Open Database Connectivity)


Fonte: https://commons.wikimedia.org/wiki/File:ODBC_Driver_Architecture.png

Potrebbero piacerti anche