Sei sulla pagina 1di 2

Questo tutorial è progettato per due scopi.

Innanzitutto, illustra le fasi del processo iniziale dell'analisi di


lettura paired-end, fino al punto in cui le fasi di analisi sono identiche all'analisi di lettura single-end. Ciò
include le fasi di importazione, demultiplexing e denoising e i risultati in una tabella di caratteristiche e le
sequenze di feature associate. In secondo luogo, si tratta di un esercizio autoguidato che può essere
eseguito dopo il tutorial sulle immagini in movimento per acquisire maggiore esperienza con QIIME 2. Per
questo esercizio, forniamo alcune domande che possono essere utilizzate per guidare l'analisi, ma non
forniscono comandi che ti permetteranno di indirizzarli. Invece, dovresti applicare i comandi che hai
imparato nel tutorial sulle immagini in movimento.

In questo tutorial userete QIIME 2 per eseguire un'analisi dei campioni di suolo del deserto di Atacama nel
nord del Cile. Il deserto di Atacama è uno dei luoghi più aridi della Terra, con alcune aree che ricevono
meno di un millimetro di pioggia ogni decennio. Nonostante questa estrema aridità, ci sono microbi che
vivono nel terreno. I microbiomi del suolo profilati in questo studio seguono due transetti est-ovest,
Baquedano e Yungay, attraverso i quali l'umidità relativa del terreno è positivamente correlata con
l'elevazione (gli aumenti più alti sono meno aridi e quindi hanno un'umidità relativa del suolo media più
elevata). Lungo questi transetti, sono stati scavati pozzi in ogni sito e campioni di terreno sono stati raccolti
da tre profondità in ogni fossa.

Ottenere i dati

Inizia creando una directory in cui lavorare.



Prima di iniziare l'analisi, esplora i metadati dei campioni per familiarizzare con i campioni utilizzati in
questo studio. I metadati dei campioni sono disponibili come un Google Sheet. Questo file di un campione -
metadata.tsv viene utilizzato nel resto del tutorial.

Successivamente, scaricherete le letture multiplexate. Dovrai scaricare tre file fastq.gz, corrispondenti alle
letture avanti, indietro e barcode (i.e., indice). Questi file contengono un sottoinsieme di letture nel set di
dati completo generato per questo studio, che consente di eseguire i seguenti comandi in modo
relativamente rapido. Se si sta solo pianificando di eseguire i comandi qui presentati per acquisire
esperienza con i primi passaggi dell'analisi di lettura paired-end, è possibile utilizzare il set di dati del
sottocampione 1% in modo che i comandi vengano eseguiti rapidamente. Se hai intenzione di esaminare le
domande presentate alla fine di questo documento per acquisire maggiore esperienza con l'analisi QIIME e
l'interpretazione dei dati, dovresti utilizzare il set di dati del sottocampione del 10% in modo che i risultati
dell'analisi siano supportati da più dati di sequenza.

1% di dati di sottocampione

10% di dati di sottocampione

Analisi e comandi della lettura paired-end

Per analizzare questi dati, le sequenze che hai appena scaricato devono prima essere importate in un
artefatto di tipo EMPPairedEndSequences.

Successivamente puoi demultiplexare le letture della sequenza. Ciò richiede il file metadati dei campioni e
devi indicare quale colonna in quel file contiene i codici a barre per campione. In questo caso, il nome della
colonna è BarcodeSequence. In questo set di dati, le letture del codice a barre sono il complemento inverso
di quelle incluse nel file di metadati dei campioni, quindi includiamo anche il parametro --p-rev-comp-
mapping-barcode. Dopo la demultiplexing, possiamo generare e visualizzare un riepilogo di quante
sequenze sono state ottenute per campione.

Dopo aver demultiplexato le letture esamineremo la qualità della sequenza sulla base di dieci campioni
selezionati casualmente e quindi elimineremo i dati. Quando si visualizzano i grafici di qualità, si nota che,
contrariamente ai grafici corrispondenti nel tutorial delle immagini in movimento, ora ci sono due grafici
per campione. La trama sulla sinistra presenta i punteggi di qualità per le letture in avanti e la trama sulla
destra presenta i punteggi di qualità per le letture inverse. Useremo questi grafici per determinare quali
parametri di trimming vogliamo utilizzare per il denoising con DADA2, e quindi eliminare le letture usando
dada2 denoise-paired.

In questo esempio abbiamo 150 letture avanti e indietro. Poiché abbiamo bisogno che le letture siano
abbastanza lunghe da sovrapporsi quando si uniscono alla paired-end, le prime tredici basi delle letture
avanti e indietro vengono tagliate, ma non viene applicato alcun taglio alle estremità delle sequenze per
evitare di ridurre anche la lunghezza di lettura. In questo esempio, gli stessi valori sono forniti per --p-trim-
left-f e --p-trim-left-r e per --p-trunc-len-f e --p-trunc-len- r, ma non è un requisito.

A questo punto, avrai degli artefatti contenenti la tabella delle caratteristiche e le sequenze di funzioni
corrispondenti. È possibile generare riassunti come i seguenti.

Inoltre, puoi visualizzare le statistiche di riduzione del rumore eseguendo:

Da questo punto, l'analisi paired-end si evolve allo stesso modo dell'analisi dei dati single-end. È quindi
possibile continuare le analisi di questi dati seguendo i passaggi che sono stati eseguiti nell'esercitazione
delle immagini in movimento.

Domande per guidare l’analisi

1. Quale valore sceglieresti di far passare per -p-sampling-depth? Quanti campioni saranno esclusi
dalla tua analisi in base a questa scelta? Approssimativamente, quante sequenze totali andrai ad
analizzare nel comando filogenetico-metrica?
2. Quali metadati o combinazioni di metadati dei campioni sono maggiormente associati alle
differenze nella composizione microbica dei campioni? Queste associazioni sono più forti con
UniFrac non pesato o con Bray-Curtis? Sulla base di ciò che sai su queste metriche, cosa suggerisce
questa differenza? Per esplorare le associazioni tra metadati continui e composizione del
campione, i comandi qiime metadata distance-matrix in combinazione con qiime diversity mantel e
qiime diversity bioenv saranno utili. Questi non erano presenti nel tutorial di Moving Pictures, ma
puoi conoscerli eseguendoli con il parametro –help.
3. Cosa ne pensi delle associazioni tra i metadati di campioni continui e la ricchezza e l'uniformità di
questi campioni? Per esplorare le associazioni tra metadati continui e ricchezza o uniformità, sarà
utile il comando qiime diversity alpha-correlation. Questo non è stato trattato nel tutorial di
Moving Pictures, ma puoi conoscerlo eseguendolo con il parametro --help.
4. Quali colonne di metadati dei campioni categoriali sono maggiormente associate alle differenze di
ricchezza o uniformità della comunità microbica? Queste differenze sono statisticamente
significative?
5. Nei grafici delle barre di composizione tassonomica, ordinare i campioni in base all'umidità relativa
del suolo medio e visualizzarli a livello di phylum. Quali sono i phyla dominanti in questi campioni?
Quali phyla aumentano e quali diminuiscono all'aumentare dell'umidità relativa del suolo?
6. Quali phyla differiscono in abbondanza tra i siti vegetati e non coltivati?

Potrebbero piacerti anche