Sei sulla pagina 1di 3

Biostatistica: analisi rivelatrici di Erika Check Hayden (riprodotto con il permesso di Macmillan Publishers Ltd: Nature 482, 263-265

(8 February 2012) | doi:10.1038/nj7384-263a, copyright 2012) Il lavoro di David Alexander non esisteva dieci anni fa. Lavora per la Pacific Biosciences a Menlo Park, in California, scrivendo software che pu analizzare i dati generati dagli enzimi della DNA polimerasi, che sequenziano il DNA in tempo reale. Una decina di anni fa, gli scienziati perdevano settimane a sequenziare il DNA, una base alla volta, usando un serie apparentemente infinita di reazioni. All'epoca, pensavano anche che sarebbero stati capaci di trovare le cause delle principali malattie identificando le varianti genetiche comuni condivise dagli individui affetti da tali patologie. Sia la tecnologia che le ipotesi sono enormemente cambiate da allora. Nella seconda met del primo decennio di questo secolo, mentre Alexander lavorava alla sua tesi di dottorato, gli scienziati usavano gli studi di associativit del genoma (genome-wide association studies, GWAS), alla ricerca di genomi per varianti genetiche conosciute che fossero condivise da persone con una particolare malattia o tratto tipico. Ma da quando Alexander si addottorato, nel giugno scorso, la tecnica GWAS stata per lo pi superata da tecniche che sequenziano l'intero genoma. Le macchina progettate per fare questo sequenziamento producono un'enorme quantit di dati, creando quindi un gran bisogno di esperti di matematica e statistica. Cos Alexander, e molti altri che lavorano in statistica genetica, hanno ora pi opportunit di lavoro. Scientificamente, ci sono problemi molto pi interessanti da porsi, e ci sono ancora molte scoperte importanti da fare; un momento veramente interessante, dice. Il suo curriculum lavorativo mostra quanto le opportunit lavorative in questo campo siano cambiate. Cambiamenti nella carriera. Non per mancanza di tentativi che il metodo GWAS non ha funzionato. Il completamento del progetto Genoma Umano nel 2003 ha spinto i finanziatori di tutto il mondo a investire milioni di dollari per costruire una mappa internazionale degli aplotipi, ossia un catalogo di tutte le varianti umane comuni su di una singola base, chiamato polimorfismo singolo del nucleotide (SNP), per usarli nel GWAS. La mappa SNP avrebbe aiutato i ricercatori ad identificare i geni che sono associati con una certa malattia. Invece, venuto fuori che la mappa SNP non riusciva a tenere conto dell'ereditariet di molte malattie. I ricercatori pensano ora che molte varianti rare abbiano un ruolo nel causare le malattie, ma le varianti rare sono molto pi difficili da trovare de lle SNP comuni. Per questo motivo, la statistica genetica sta ora lavorando sui dati del sequenziamento, alla ricerca di mutazioni direttamente causali, piuttosto che per le SNP. E i genetisti stanno cominciando a combinare dati da diversi tipi di studi, usando un metodo chiamato genomica integrativa per esempio, studiando combinazioni di SNP, i geni codificatori di proteine osservati negli studi di esomica, i fattori epigenetici (informazione ereditabile che non si trova nella sequenza del DNA), fattori di espressione genica e interazioni ambientali. Questo settore di ricerca emerso ed cambiato in modo incredibile negli ultimi dieci anni, a causa di varie ondate di rivoluzione tecnologica, dice Gilean McVean, un'esperta di statistica genetica presso l'Universit di Oxford, UK. La genomica si sta integrando sempre di pi all'interno delle cure mediche, per cui la situazione cambier ancora e nuove opportunit si apriranno. un ottimo momento per occuparsi di genetica statistica. La scatola dei trucchi Gli statistici saranno impegnati per anni dai problemi posti dall'analisi di questi enormi insiemi di dati. Dovranno trovare il modo migliore per venire a capo di studi che combinano diversi metodi, ognuno dei quali produce milioni di dati. La vera sfida consiste nel trovare delle reali connessioni all'interno di questo enorme volume di dati, senza farsi confondere dagli errori che spesso si registrano per insiemi di dati di queste dimensioni, dice Lucia Hindorff, un'epidemiologa dell'US National Human Genome Research Institute (NHGRI) di Bethesda, nel Maryland. Le risposte non sono banali, dice. una delle ragioni per cui gli statistici hanno un sacco di lavoro da fare. E i genetisti statistici servono nelle universit, nei centri di genomica e anche nelle industrie. Tuttavia, un'ndagine sui genetisti statistici condotta da un gruppo di lavoro dell'US National Institutes of Health di

Bethesda ha messo in evidenza la difficolt di reclutare un numero sufficiente di persone da formare in questi programmi. Alexander Wilson, responsabile di genometria presso il NHGRI, che ha organizzato l'indagine, dice che, nonostante il numero di varianti genetiche disponibili per l'analisi sia cresciuto in modo significativo dagli anni '80, il numero di persone in grado di analizzare questi dati rimasto relativamente costante. Secondo Suzanne Leal, un'epidemiologa genetica del Baylor College of Medicine di Houston, Texas, molti biologi evitano una seria formazione statistica. E poich solo un numero limitato di genetisti statistici sono formati ogni anno, questi posti sono difficili da ricoprire, dice Michael Boehnke dell'University of Michigan ad Ann Arbor. Per questo motivo, bench le richieste di lavoro superino l'offerta in molti settori, il mercato rimane promettente per gli specialisti in statistica, anche perch possono aiutare gli enti finanziatori a guadagnare con gli investimenti in ricerca. E, al contrario di altri settori, molte posizioni accademiche in genetica statistica richiedono solo il titolo di dottorato, per cui, chi possiede un dottorato non si trover bloccato nella macina di una molteplicit di contratti PostDoc. Avrete molte possibilit di lavoro: non come per le altre scienze biologiche, dove ti aspettano sei o sette anni di PostDoc, dice Leal. Se sei una persona capace ti pu capitare di fare un paio d'anni di PostDoc e poi avere un posto all'Universit. Con il ridursi dei costi della strumentazione, il sequenziamento sta diventando molto pi fattibile per molti laboratori. Tuttavia, le difficolt di analisi stanno diventando cos complesse e costose, che i centri che studiano le singole malattie stanno cominciando a creare dei posti di analista aggiunto per aggregati pi grandi di esperti di genomica. In questo momento, la biologia una scienza in cui i grandi insiemi di dati sono centrali, ma la bioinformatica e la genetica statistica stanno per arrivare ad un punto in cui ci sono molti ruoli specializzati gestione dei dati, elaborazione, controllo di qualit, interpretazione che non possono pi essere gestiti da una sola persona, dice McVean, Gli analisti che lavorano a introdurre le tecnologie genomiche nelle cure mediche presso il Centro di Ricerche Biomediche dell'Universit di Oxford, per esempio, sono diventati membri onorari di un gruppo di bioinformatica e genetica statistica al Wellcome Trust Centre for Human Genetics a Oxford, condotto dallo stesso McVean. Hanno accesso alle linee di sequenziamento dei dati e anche alle conoscenze in bioinformatica e genetica statistica, ma sono finanziati separatamente dal Centro. Bench gli statistici che ricoprono questi posti possono aspettarsi di avere i loro propri studenti e sviluppare nuovi metodi, questi ruolo sono per la loro natura molto pi collaborativi di molti lavori accademici, dice McVean. Non il percorso accademico tradizionale che consiste nel muoversi per formare il tuo piccolo gruppo e lavorare in isolamento, ma piuttosto muoversi per sostenere i diversi gruppi del centro. McVean si sta preparando per assumere nuove persone su posti di questo tipo presso l'Istituto Ludwig for Cancer Research e il Kennedy Institute of Rheumatology, entrambi a Oxford. Entrambe queste istituzioni, dice McVean, avrebbero difficolt a mettere insieme il personale necessario al supporto bioinformatico indipendente e dedicato. L'aumento della competizione tra nuove tecnologie di sequenziamento con le aziende che sperano di dare un senso ai dati vuol dire nuove opportunit per esperti di calcolo e genetica statistica nell'industria. Aziende come la Pacific Biosciences, Illumina di San Diego, California, e la Life Technologies a Carlsbad, California, stanno sviluppando nuovi metodi di sequanziamento e hanno bisogno di persone che possono fornire metodi per analizzare le nuove forme di dati che saranno prodotte. Un altro percorso, che potrebbe essere chiamato di genomica clinica, relativamente piccolo, ma in grande crescita. Le aziende in questo settore stanno sviluppando nuove tecniche per interpretare i dati genomici degli individui, sia per scopi medici che farmaceutici, e stanno cercando persone con un una serie di competenze. Per esempio, Omicia, attiva nell'area della Baia di San Francisco in California, sta sviluppando una piattaforma per aiutare i fisiologi ed i laboratori clinici ad interpretare i dati genomici. In pochi mesi hanno gi assunto tre persone: un ingegnere della Silicon Valley, specializzato in analisi veloci di grandi insiemi di dati; un ingegnere applicativo per aiutare l'azienda a sviluppare interfacce che siano veloci e facili da usare per gli utenti; a un ricercatore medico che ha una laurea triennale in genetica e spera di entrare in una scuola di medicina. Il capo esecutivo e co-fondatore di Omicia, Martin Reese, dice che la sua azienda sta cercando per assumere pi persone con queste specializzazioni, specialmente analisti. Rowan Chapman, uno dei partner di Mohr Davidow, un'impresa a capitale di rischio di Menlo Park che finanzia aziende come la Pacific Biosciences, dice che le imprese sono alla ricerca di analisti esperti. C' un'enorme quantit di data che vengono generati, in particolare dalle piattaforme di sequenziamento di prossima generazione, e il costo dell'analisi oramai superiore al costo della generazione dei dati, dice. Trovare le persone giuste per analizzare questi dati una vera sfida.

Solidi prerequisiti Per avere successo in genetica statistica bisogna avere delle buone basi sia di statistica che di genetica, un percorso che pu compiersi presso un'universit che abbia un programma di dottorato che permetta agli studenti di seguire corsi in entrambe le discipline. Ma ci sono altre due competenze che stanno diventando sempre pi necessarie: una buona conoscenza di linguaggi di programmazione concepiti per manipolare grandi insiemi di dati, come R, Perl o Python, con la capacit di usare questi linguaggi per analizzare velocemente grandi quantit di dati. E una conoscenza di calcolo distribuito e scrittura di codici in diversi sistemi operativi particolarmente desiderabile. Molti ricercatori dicono che queste competenze si possono acquisire con l'esperienza pratica di lavoro con grandi insiemi di dati, durante il lavoro di tesi di dottorato o durante il PostDoc su progetti specifici. E che questo lavoro non deve necessariamente essere nel settore biologico. Stefano Lise, un analista assunto recentemente presso l'Oxford Biomedical Research Centre, si laureato, ha preso il dottorato e poi ha avuto esperienze di PostDoc in fisica prima di passa alla bioinformatica e al sequenziamento di prossima generazione; McVean vede arrivare molte persone provenienti dal settore bancario e dalla finanza. L a statistica Yun Li ha cominciato a lavorare presso l'University of North Carolina a Chapel Hill dopo aver preso un dottorato in biostatistica alla University of Michigan nel 2009. Per laurearsi, ha anche acquisito competenze di tipo informatico. Mentre lavorava alla tesi di dottorato, Li ha sviluppato un metodo di analisi dei dati per il progetto Genoma 1000, uno studio internazionale in cui pi di 1000 genomi individuali sono stati sequenziati. Dice che l'esperienza diretta di lavorare con quelli che lei chiama dati sporchi dati grezzi le cui caratteristiche e limitazioni non sono state pienamente esplorate dai ricercatori stata inestimabile per il suo incarico attuale. Uno studio genetico tipico dei giorni nostri avr bisogno di analizzare milioni o anche decine di milioni di varianti in decine di migliaia di individui, dice Li, che adesso sta sviluppando dei metodi per lavorare con grandi insiemi di dati e applicando questi e altri metodi a ricerche direttamente applicate sulle malattie. Questo comporta la capacit di identificare i possibili problemi che importante perch molti aspetti sono tipicamente non ben definiti per dati che vengono da ricerche di punta e anche la capacit di risolverli. Se le persone in formazione sono interessate a un lavoro universitario o in azienda, sono le competenze informatiche che le aiuteranno a trovarlo. I migliori candidati sono di gran lunga coloro che non solo sanno scrivere software, ma che sono anche capaci di lavorare con sistemi di calcolo distribuiti, e sistemi operativi come Linux e Unix, dicono le persone nel settore. Pi capisci il software e l'informatica, e meglio sei piazzato; scrivere programmi il 90% di ci che facciamo, dice Alexander. Per una disciplina che destinata a rapidi e continui cambiamenti, l'unica cosa sicura che gli insiemi di dati continueranno a crescere, e coloro che sapranno come maneggiarli saranno i pi richiesti. Erika Check Hayden scrive per Nature da San Francisco.

Potrebbero piacerti anche