Automi Cellulari

LAUREA MAGISTRALE
IN
BIOTECNOLOGIE INDUSTRIALI
A.A 2011-2012
AUTOMI CELLULARI
APPLICAZIONI DEI SIMULATORI NELLO
STUDIO DI SEQUENZE BIOLOGICHE E
MALATTIE INFETTIVE
DANILO COMINO
GIORGIA DRERA
MARIANA DUMITRIU
MATTIA SALVATORE
1 Automi cellulari
Molti sistemi del mondo fisico, socioeconomico, urbanistico e biologico sono definibili come
sistemi complessi, ad esempio il moto dei fluidi, la trasformazione economica di una regione,
la crescita di un centro urbano, la vita di un organismo, la diffusione di malattie e molti altri.
Lo studio di sistemi complessi stato affidato a strumenti alternativi alla tradizionale
matematica, tra cui gli automi cellulari, ovviando cos a due problemi condotti dal calcolo
infinitesimale di Newton e Leibnitz: la complessit delle equazioni e lapprossimazione
computazionale la quale pu influire fortemente sullo sviluppo del sistema. Il concetto di
automa cellulare stato introdotto nel 1947 da Von Neumann durante i suoi studi sui
fenomeni biologici descritti come modalit di mutua interazione tra entit elementari
chiamate appunto automi. Secondo Von Neumann, considerato un insieme di molti automi
dotati della capacit di interagire in maniera opportuna, il sistema, nella sua globalit, si
mostrer capace di comportamenti complessi e differenti, come se fossero finalizzati ad un
obiettivo globale. Quindi, un sistema complesso pu essere definito come un insieme di
entit semplici, gli automi, i quali interagiscono tra loro e questa mutua interazione genera,
nellinsieme, il comportamento globale del sistema complesso. A fronte di quanto appena
menzionato, si potrebbe asserire che lidea degli automi cellulari quella di descrivere un
sistema complesso tramite semplici regole che descrivono le interazioni tra i componenti in
cui si suddiviso il sistema stesso. In matematica e logica un automa un formalismo che
consente di descrivere il comportamento di una macchina; lautoma una sorta di scatola
chiusa che riceve informazioni dallesterno (input), compie azioni, e restituisce altre
informazioni (output). Le azioni si basano su regole che definiscono le relazioni tra ingresso,
stato interno e uscita, ovvero associano input e output. Gli stati interni rappresentano la
situazione del sistema ad un dato istante e costituiscono la memoria del sistema. Pi automi
possono essere connessi in modo che loutput di un automa sia linput di un altro automa,
formando cos una rete di automi. Un automa caratterizzato da un reticolo (o griglia) e un
intorno.
1.1 Reticolo
!"!#$%&'()(

Nello spazio
Rd (dove d la dimensione dello spazio nel quale si trova lautoma cellulare, ove
solitamente"#$$%&'()*%+,-,%.#,/$(,*0#1&*%1#,#$$%&'()*%1#$23($#&*45%.($6(34%0(7#$$3$(5#8%.#
d = 3 quindi spazio tridimensionale) viene considerato un insieme di cellule (o
celle), &%$*4(0#14#,9:23*1,*&'()*%45*,*0#1&*%1($#;.*#1#7%1&*,#5(4%31*1&*#0#,*7#$$3$#-%7#$$#;8
disposte in genere su un reticolo .
,*&'%&4#*1<#1#5#&3315#4*7%$%=
Se d = 1 le celle dellautoma sono solitamente disegnate nel seguente modo:

>#,9?$#7#$$#,#$$6(34%0(&%1%&%$*4(0#14#,*&#<1(4#1#$&#<3#14#0%,%@

A*<35(?@!"#$%!%$&$'(%)&*($&!+)+(&)!,)

>#,9B$#7#$$#'%&&%1%#&&#5#,*.(5*%4*'%@
2

A*<35(?@!"#$%!%$&$'(%)&*($&!+)+(&)!,)
>#,9B$#7#$$#'%&&%1%#&&#5#,*.(5*%4*'%@
>#,9B$#7#$$#'%&&%1%#&&#5#,*.(5*%4*'%@
d=2 le celle possono essere di vario tipo:

A*<35(B@)*)%-('(*#,"##",)'(!"#$%(.('(%)&*($&!+(
A*<35(B@)*)%-('(*#,"##",)'(!"#$%(.('(%)&*($&!+(
>#,9:$#7#$$#&%1%&%$*4(0#14#5(''5#&#14(4#7%173C*%'(5($$#$#'*'#,*=
Se d=3 le celle sono solitamente rappresentate con cubi o parallelepipedi.
>* 1%4* 7D# %<1* 7#$$3$( '3E #&&#5# 31*.%7(0#14# *1,*.*,3(4( (&&#<1(1,%$# , 130#5* *14#5*
>#,9:$#7#$$#&%1%&%$*4(0#14#5(''5#&#14(4#7%173C*%'(5($$#$#'*'#,*=
Si noti che ogni cellula pu essere univocamente individuata assegnandole d numeri interi
*1,*7(1,% $( $%5% '%&*)*%1# 1#$$( <5*<$*( *?8F8*, G@ 1#$ 7(&% 0%1%,*0#1&*%1($#8 '#5 #&#0'*%8
la loro
posizione
nella griglia
i1,...,id *1,*.*,3(4(
Z: nel caso
monodimensionale,
>* indicando
1%4* 7D# %<1*
7#$$3$(
'3E #&&#5#
31*.%7(0#14#
(&&#<1(1,%$#
, 130#5*per
*14#5*
esempio,
basta
stabilire
quale
cella
etichettare
con
0
e
in
quale
direzione
mettere
i numeri
C(&4(&4(C*$*5#23($#7#$$(#4*7D#44(5#7%1H#*123($#,*5#)*%1#0#44#5#*130#5*'%&*4*.*@
*1,*7(1,%
positivi: $( $%5% '%&*)*%1# 1#$$( <5*<$*( *?8F8*, G@ 1#$ 7(&% 0%1%,*0#1&*%1($#8 '#5 #&#0'*%8

C(&4(&4(C*$*5#23($#7#$$(#4*7D#44(5#7%1H#*123($#,*5#)*%1#0#44#5#*130#5*'%&*4*.*@

"#$7(&%C*,*0#1&*%1($#C(&4(*1.#7#&4(C*$*5#23($#7#$$(#4*7D#44(5#7%1-H8H;#23($*&%1%$#,3#
Nel caso bidimensionale basta invece stabilire quale cella etichettare con (0,0) e quali sono le
due direzioni positive (come in un sistema di assi cartesiani). La posizione di una cella viene
,*5#)*%1* '%&*4*.# -7%0# *1 31 &*&4#0( ,* (&&* 7(54#&*(1*;= I( '%&*)*%1# ,* 31( 7#$$( .*#1# ,3123#
dunque indicata con due
indici (i,j), per cui la cella a sinistra sar (i,j i), quella a destra (i, j
"#$7(&%C*,*0#1&*%1($#C(&4(*1.#7#&4(C*$*5#23($#7#$$(#4*7D#44(5#7%1-H8H;#23($*&%1%$#,3#
"#$"%&'& %(# $)* "#$"%" +",-., /*0 %)" 1& %*11& & 2"#"2'0& 2&03 +",- "., 4)*11& & $*2'0& +", - 5". * 6"& $"
+i) e via di seguito. Se2*7)"'(8
il reticolo = Zd, e quindi con un numero infinito di punti e senza
,*5#)*%1*
'%&*4*.#
*1
31 &*&4#0(
bordi, si
devono-7%0#
fare le9*"10*'"%(1(:;<$,*4)"#$"%(#)##)=*0("#>"#"'($"/)#'"*2*#?&@(0$",2"$*6(#(>&0*1*
seguenti
scelte:,* (&&* 7(54#&*(1*;= I( '%&*)*%1# ,* 31( 7#$$( .*#1# ,3123#
!
2*7)*#'"2%*1'*A
,+-"&A #*1 %&2( =(#($"=*#2"(#&1* 1* %*11* 2(#( 0&//0*2*#'&'* 2) )#
Identificazione dei9 !"#$%&'&()*&+$#
bordi: nel"#&caso
monodimensionale le celle sono rappresentate su un
%"1"#$0(,=*#'0*#*1%&2(@"$"=*#2"(#&1*2))#'(0("$*+6*$">"7)0*.
cilindro, mentre nel caso bidimensionale su un toroide (vedi figure)
!

B"7)0&CA-)..-#/#$%)*&+$#)(&0&$"-+"&1$)1%+2)2+$+"&2#$/&+$)0#

B"7)0&DA-)..-#/#$%)*&+$#)%+-+&"#"&1$)1%+2),&"&2#$/&+$)0#
Riflessione delle celle

di bordo: Consideriamo per esempio il caso monodimensionale
9 3&'0#//&+$#"#00#(#00#"&,+-"+AE(#2"$*0"&=(/*0*2*=/"("1%&2(=(#($"=*#2"(#&1*;<8
= Z. Nel caso di riflessione
delle celle del bordo distinguiamo tra celle interne e celle
F*1%&2($"0">1*22"(#*$*11*%*11*$*1@(0$($"2'"#7)"&=('0&%*11*"#'*0#**%*11*$"@(0$(A
di bordo: nel seguente
caso
la cella 1 interna mentre le celle 0 e 2 sono di bordo.
#*12*7)*#'*%&2(1&%*11&G:"#'*0#&=*#'0*1*%*11*H*I2(#($"@(0$(8E(=**2/0*22("#
=($(2"=@(1"%($&11&>"7)0&1(2'&'($*11*%*11*&2"#"2'0&$*11&%*11&H&60&##(2*=/0*1(
Come espresso in modo
simbolico dalla figura lo stato delle celle a sinistra della cella
2'*22( 2'&'( $*11& %*11& $" @(0$( H * 1( 2'&'( $*11* %*11* & $*2'0& $*11& %*11& I &60&##(
2*=/0*1(2'*22(2'&'($*11&%*11&$"@(0$(I8
3

9 4+-"+ (+/%)$%#A 2" 2'&@"1"2%* %J* 1( 2'&'( $*1 @(0$( : %(2'&#'*, %"(: #(# J& #*22)#&
*6(1)?"(#*'*=/(0&1*8
F*1%&2($"0">1*22"(#*$*11*%*11*$*1@(0$($"2'"#7)"&=('0&%*11*"#'*0#**%*11*$"@(0$(A
#*12*7)*#'*%&2(1&%*11&G:"#'*0#&=*#'0*1*%*11*H*I2(#($"@(0$(8E(=**2/0*22("#
=($(2"=@(1"%($&11&>"7)0&1(2'&'($*11*%*11*&2"#"2'0&$*11&%*11&H&60&##(2*=/0*1(
2'*22( 2'&'( $*11& %*11& $" @(0$( H * 1( 2'&'( $*11* %*11* & $*2'0& $*11& %*11& I &60&##(
0 avranno sempre lo stesso stato della cella di bordo 0 e lo stato delle celle a destra
della cella 2 avranno sempre lo stesso stato della cella di bordo 2.
2*=/0*1(2'*22(2'&'($*11&%*11&$"@(0$(I8

9
4+-"+
2" 2'&@"1"2%*
%J* 1(
$*1 @(0$(
: %(2'&#'*,
%"(:
(+/%)$%#A
Bordo costante:
si stabilisce
che2'&'(
lo stato
del bordo
costante,
cio#(#
nonJ&ha#*22)#&
nessuna
!"#$%&'(%'
!"#$%&'(%'
evoluzione temporale.
*6(1)?"(#*'*=/(0&1*8

1.2 Intorno
"#$%%&'()*(&+$,&$-%#$%#)(--$#*#+.(/$0#%)$%1-1)1+&+)(/.1#+%#('(23#45#$-./()(--(
"#$%%&'()*(&+$,&$-%#$%#)(--$#*#+.(/$0#%)$%1-1)1+&+)(/.1#+%#('(23#45#$-./()(--( !
3$5(%('6#1,&(--(#''(5#$.$'(+.(7#)#+(489+.$-)$%123#4:;#<=#=#><?=517(<@&++&'(/1
3$5(%('6#1,&(--(#''(5#$.$'(+.(7#)#+(489+.$-)$%123#4:;#<=#=#><?=517(<@&++&'(/1
Si assume che una qualsiasi cella i interagisca solo con un certo insieme U (i) di altre
celle (ad esempio quelle immediatamente vicine). In tal caso U (i) = {i k,i,i + k}, dove k un
)1%.$+.()*((%6/#'(-A1/5#+(5(--A#+.1/+13B23#4B:C48
)1%.$+.()*((%6/#'(-A1/5#+(5(--A#+.1/+13B23#4B:C48
numero costante che esprime lordine dellintorno (|U (i)| = K).
D(- )$%1 '1+15#'(+%#1+$-( 3)1+ * : E4 $%%&'(+51 5# $7(/( 2 3#4 : ;# F=#=# > F?= G$)(+51
D(-Nel
)$%1
'1+15#'(+%#1+$-(
5# avere
$7(/(U2(i)3#4= :
F=#=#
> F?=
G$)(+51
caso
monodimensionale3)1+
(con*:= E4
Z) $%%&'(+51
assumendo di
{i ;#
1,i,i
+ 1},
facendo
/#G(/#'(+.1$5&+/(.#)1-1)1+-$%(0&(+.(%./&..&/$H
riferimento ad un reticolo con la seguente struttura:
/#G(/#'(+.1$5&+/(.#)1-1)1+-$%(0&(+.(%./&..&/$H

lintorno assume i valori U (2) = {1,2,3}. Si noti che U (i) contiene sempre la cella stessa, cio
-A#+.1/+1$%%&'(#7$-1/#23I4:;F=I=J?8"#+1.#)*(23#4)1+.#(+(%('6/(-$)(--$%.(%%$=)#1@#2
i U (i). I tipi di intorno maggiormente considerati sono quelli di von Neumann e di Moore,
3#489.#6#5##+.1/+1'$00#1/'(+.()1+%#5(/$.#%1+1,&(--#5#71+D(&'$++(5#K11/(=5#%(0&#.1
-A#+.1/+1$%%&'(#7$-1/#23I4:;F=I=J?8"#+1.#)*(23#4)1+.#(+(%('6/(-$)(--$%.(%%$=)#1@#2
di seguito rappresentati per il caso bidimensionale per due valori del raggio (r=1 e r=2):
/$66/(%(+.$.#6(/#-)$%1L#5#'(+%#1+$-(6(/5&(7$-1/#5(-/$00#13/:F(/:I4H
3#489.#6#5##+.1/+1'$00#1/'(+.()1+%#5(/$.#%1+1,&(--#5#71+D(&'$++(5#K11/(=5#%(0&#.1
/$66/(%(+.$.#6(/#-)$%1L#5#'(+%#1+$-(6(/5&(7$-1/#5(-/$00#13/:F(/:I4H
M#0&/$NH!"#$%"!&!'$"()*+,"")-$$%)")./,0$&!,*#$+!1!&!+)"0!$",.!
Se = Zd, ogni cella rappresentata da d numeri interi. La definizione generale degli intorni
"(*:E5=10+#)(--$@/$66/(%(+.$.$5$5+&'(/##+.(/#8
di von Neumann
:
M#0&/$NH!"#$%"!&!'$"()*+,"")-$$%)")./,0$&!,*#$+!1!&!+)"0!$",.!

O$5(G#+#P#1+(0(+(/$-(5(0-##+.1/+#5#)'%*+,-.%%@H
U (i1,...,id) = {(j1,...,jd) : |j1 i1|+...+|jd id| r}

23#F=Q=#54:;3RF=Q=R54HBRFS#FB>Q>BR5S#5B/?
Mentre quella degli intorni
di Moore :
U (i1,...,id) = {(j1,...,jd) : |j1 i1| r e ... e |jd id| r}
"(*:E5=10+#)(--$@/$66/(%(+.$.$5$5+&'(/##+.(/#8
K(+./(,&(--$5(0-##+.1/+#5#/''(+@H
23#F=Q=#54:;3RF=Q=R54HBRFS#FB/(Q(BR5S#5B/?
O$5(G#+#P#1+(0(+(/$-(5(0-##+.1/+#5#)'%*+,-.%%@H
Nel caso monodimensionale d =1 essi quindi coincidono. Abbiamo detto in precedenza che
ad ogni cella attribuito uno stato che esprime una sua qualit . Gli stati sono per ipotesi in
23#F=Q=#54:;3RF=Q=R54HBRFS#FB>Q>BR5S#5B/?
numero
finito.
D(-)$%1'1+15#'(+%#1+$-(5:F(%%#,&#+5#)1#+)#51+18
K(+./(,&(--$5(0-##+.1/+#5#/''(+@H
!(i) =i !S dove S linsieme degli stati (detto anche spazio degli stati) e ! lo stato
TLL#$'15(..1#+6/()(5(+P$)*($510+#)(--$@$../#L&#.1&+1%.$.1)*((%6/#'(&+$%&$,&$-#.U8
della cella i.
23#F=Q=#54:;3RF=Q=R54HBRFS#FB/(Q(BR5S#5B/?
V-#%.$.#%1+16(/#61.(%##++&'(/1G#+#.18

!
D(-)$%1'1+15#'(+%#1+$-(5:F(%%#,&#+5#)1#+)#51+18

4

TLL#$'15(..1#+6/()(5(+P$)*($510+#)(--$@$../#L&#.1&+1%.$.1)*((%6/#'(&+$%&$,&$-#.U8
V-#%.$.#%1+16(/#61.(%##++&'(/1G#+#.18
V "#$%V# &'()*&+,-#./#*0*'*1,#/232#"'*22(3.45*/637#('*1,#/232#$*V +,(/232('*,,34*,,3

#8

&#639,3#.)*4*'#!"#$%&'()*%"#+,"!),+4(0*,36(//#:#,*'#/29#:;7#(.*'*1,#/232#'*,,*4*,,*#.;.
#.2(9.(*'+;.3<;.7#(.*293,*4*,,*'*,,-#.2(9.(*,-#./#*0*'*1,#/232#8=32(;.#./#*0*'#/232#&>
Si parla invece di configurazione locale come la possibile distribuzione degli stati delle celle in
un intorno ed una funzione tra le celle dellintorno e linsieme degli stati. Dato un insieme
/;66(.*.'(45*3,,-#.2*9.('#&4#/#3.(//232#>?;#.'#@&@%/,-(9'#.*AB'*,,34(.<#1;937#(.*,(43,*
di stati S, supponendo che allinterno di S ci siano s stati, quindi |S|=s lordine CL della
configurazione locale per un intorno |U(i)| = k definito dalla seguente espressione: |CL| =
3;2(033';.3'#0*./#(.*4(.#.2(9.('#9311#(G>,-(9'#.*D'*,,-#.2(9.(+;1;3,*3H*,-#.2(9.(+
|S| |U,i| = sk. Nel caso di un automa ad una dimensione con intorno di raggio 1, lordine k
dellintorno uguale a 3 e lintorno U (i) = {i 1,i,i +1}. Per un insieme degli stati S = {0,1},
C"#$%I#G>#>#JGK8L*9;.#./#*0*'*1,#/232#&%IM>GK>';.?;*/%N>/#(22#*.*;.3AB4(06(/23'3/D
dunque s=2, si ottiene una CL composta da sk = 2*3 = 8 combinazioni. La distribuzione
%NOH%P4(0:#.37#(.#8B3'#/29#:;7#(.*'*1,#/232#+,3/*1;*.2*E
degli stati la seguente:
6*9;.#.2(9.(@C"#$@%D+'*<#.#2('3,,3/*1;*.2**/69*//#(.*E@AB@%@&@@C>#@%/D8F*,43/('#;.

Esistono'*,,*
delle(+&",+
regole-%di+.",'*%"#+>
evoluzione,
cio
delle
regole
descrivono
gli'*,,*
stati4*,,*
delle celle
Q/#/2(.(
4#(+
'*,,*
9*1(,*
45* che
'*/49#)(.(
4(0*come
1,# /232#
evolvono nel tempo ovvero la dinamica del modello. Le regole di evoluzione descrivono il
*)(,)(.(
2*06(
'#.30#43
'*,cella
0('*,,(8
B* 9*1(,*
*)(,;7#(.*
'*/49#)(.(
passaggio.*,
dallo
stato())*9(
i (t) ,3
= stato
della
i al tempo
t a '#
quello
i (t+1)
al tempo#,t+1. Si
63//311#('3,,(/232(#"2$%R/232('*,,34*,,3#3,2*06(2S3?;*,,(#"2JG$3,2*06(2JG8&#.(2#>
noti, quindi, che il tempo in un AC per ipotesi discreto t = 0,1,2,3,... Infine la regola di
evoluzione viene assunta dipendere solo dagli stati j (t) per j U (i), cio solo dagli stati
?;#.'#>45*#,2*06(#.;.TA+6*9#6(2*/#'#/49*2(2%M>G>N>H>UV.<#.*,39*1(,3'#*)(,;7#(.*)#*.*
delle celle j vicine a i , nel senso di appartenenti allintorno prefissato U (i) di i.
3//;.23'#6*.'*9*/(,('31,#/232#W"2$6*9WC"#$>4#(+/(,('31,#/232#'*,,*4*,,*W)#4#.*3#>.*,
Concretamente se gli intorni sono tutti costituiti da n celle, allora le regole di evoluzione di
un AC'#sono
date da una
funzione:
/*./(
366392*.*.2#
3,,-#.2(9.(
69*<#//32( C "#$ '# #8 A(.49*230*.2* /* 1,# #.2(9.# /(.( 2;22#
:SnS
4(/2#2;#2#'3.4*,,*>3,,(93,*9*1(,*'#*)(,;7#(.*'#;.TA/(.('32*'3;.3<;.7#(.*E
che agli stati delle n celle presenti nellintorno di una cella fa corrispondere lo stato
E&.&
successivo.
45*31,#/232#'*,,*.4*,,*69*/*.2#.*,,-#.2(9.('#;.34*,,3<34(99#/6(.'*9*,(/232(
/;44*//#)(8
1.3 Caratteristiche di un automa cellulare
Le caratteristiche fondamentali di un automa cellulare sono le seguenti:

Parallelismo: le celle si aggiornano simultaneamente (in parallelo) elaborando ognuna le

informazioni ricevute e passando nello stato conseguente.

Localit: il nuovo stato cui giunge la cella al tempo t+1 dipende solo dal suo stato e da quello
delle celle appartenenti al suo intorno e al tempo t.

Omogeneit: ogni cella aggiornata in base alle stesse regole.
!
Si definisce invece legge locale una funzione tra linsieme di tutte le possibili configurazioni
locali e linsieme degli stati. Se la cella locale si trova in mezzo a una certa configurazione,
passa ad uno stato dato da f con f : CL S. Si definisca s(t) lo stato f (s(t) S) in cui si
trova una cella data c al tempo t. Se al tempo t la cella c nello stato 0, s(t) = 0, al tempo
(t+1) il nuovo stato della cella sar: s(t+1) = f(x).
Se prendiamo pi automi e diamo loro una localizzazione spaziale possibile stabilire le
connessioni in base alla distanza. In altre parole automi vicini saranno connessi in qualche
modo e automi lontani non saranno connessi. Questo aspetto rimanda al calcolo della

distanza e quindi alla definizione di una metrica sullo spazio. Lo spazio pu avere diverse
dimensioni, zero, una, due o tre.
Gli automi cellulari sono particolarmente efficaci per descrivere fenomeni complessi che
hanno luogo nello spazio. Un automa cellulare pu essere visto come una matrice di celle
quadrate che evolvono in un dato tempo; ad ogni istante ciascuna cella si trova in uno stato
che appartiene ad un insieme finito di stati possibili. Al tempo (t+1) il cambiamento di stato
di una cella dipende dallo stato delle celle vicine al tempo precedente (t) e il contenuto di
una cella viene aggiornato in base ad una regola fissata che dipende dal contenuto della cella
stessa e dal contenuto delle celle con cui pu comunicare (quello che stato precedentemente
definito intorno della cella). Ad ogni passo (ciclo) il contenuto di tutte le celle viene
aggiornato
simultaneamente
in,))#
parallelo.
Il modo
pi semplice
comprendere
la dinamica
"# $%
&$'($' &))*#
$%& )'#'& #+
#))&-*#'&.
/$((&%*#0&
-",per
1$,)'&
)'#'& (&))#
#))$0,2, *
spazio temporale quello di utilizzare uno spazio ad una dimensione. Gli automi sono
3#4&2*5,2&&$%&6*%-$*$%&-&22*)(&%+,#-,44#,+*7*-#'#82&))#9,5,2&#-,44#4*:,2#8#55$22#9.;<%*
localizzati lungo questo spazio. Questa situazione si rappresenta , come s detto in
precedenza, con una fila di celle. Ogni cella un automa e quindi ha un output ossia uno
-,44#(,20&+*7*-#2,*4)$&)'#'&"#:*)&<%&+*$%*%($'-",(2&3*,%,+#44,-,44,3*-*%,6*%1$,)'&
stato ad essa associato. Supponiamo che questo stato possa assumere i valori zero o uno, in
-#)&+#44#-,44#+*+,)'2#,+#1$,44#+*)*%*)'2#.=,+$,-,44,2#((2,),%'#%&4>*%'&2%&+,44#-,44#.?4
cui uno corrisponde a cella edificata (rossa) e zero a cella libera (azzurra). Ogni cella per
il suo stato
ha bisogno -&0,
di un input
proviene
dalle celle
in questo
caso #4
4&2&modificare
)'#'& #4 ',0(&
! 3*,%,$'*4*55#'&
*%($'che
+#44#
-,44# -,%'2#4,
(,2vicine,
-#4-&4#2,
*4 )$& )'#'&
dalla cella di destra e da quella di sinistra. Le due celle rappresentano lintorno della cella. Il
',0(&!"#.
loro stato al tempo t viene utilizzato come input dalla cella centrale per calcolare il suo stato
al tempo t+1.

@*<$2#AB$%&'()*&+$,*(+-(!&.-.&+&,*.$+/*&+-'$
Il modo in cui viene calcolato usualmente lo stato dell'automa al tempo successivo spiegato
nell'esempio seguente. Rappresentandolo con il suo stato, l'automa della figura precedente si
?4 0&+& *% -$* 3*,%, -#4-&4#'& $)$#40,%', 4& )'#'& +,44C#$'&0# #4 ',0(& )$--,))*3& D )(*,<#'&
presenta nel modo seguente:
%,44C,),0(*& ),<$,%',. E#((2,),%'#%+&4& -&% *4 )$& )'#'&6 4C#$'&0# +,44# 7*<$2# (2,-,+,%', )*
123456789
(2,),%'#%,40&+&),<$,%',B
000101000
FGHIJAKL!
La regola che permette di calcolare lo stato dell'automa al tempo la seguente: si considerano
MMMFMFMMM
per ogni cella di posizione (x), gli stati delle due celle confinanti con la cella in questione, di
posizione (x1, x+1) e se almeno una delle due celle dell'intorno ha valore 1, allora la cella in
questione prender valore 1; invece se tutte e due le celle dell'intorno hanno valore zero,
=#2,<&4#-",(,20,'',+*-#4-&4#2,4&)'#'&+,44C#$'&0##4',0(&D4#),<$,%',B)*-&%)*+,2#%&(,2
allora la cella centrale prender valore zero. Quindi, tralasciando le due celle al bordo, (la 1 e
la 9) si inizia dalla numero 2. Si vede che questa ha due celle confinanti con uno stato uguale
&<%*-,44#+*(&)*5*&%,8N96<4*)'#'*+,44,+$,-,44,-&%7*%#%'*-&%4#-,44#*%1$,)'*&%,6+*(&)*5*&%,
a zero e, quindi, essa prender al tempo t+1 il valore zero. Questo valore viene memorizzato,
8NF6
), #40,%&
+,44,
+$,stato
-,44,delle
+,44C*%'&2%&
"#perch
3#4&2,queste
F6 #44&2#
4# -,44# *%
maNOF9
non,influisce
sul $%#
calcolo
dello
altre celle,
reagiscono
allo1$,)'*&%,
stato
delle
celle
al
tempo
t.
Quindi
si
passa
alla
cella
3
e
si
vede
che
ha
una
cella
a
sinistra
uguale
a
(2,%+,2P 3#4&2, FQ *%3,-, ), '$'', , +$, 4, -,44, +,44C*%'&2%& "#%%& 3#4&2, 5,2&6 #44&2# 4# -,44#
1. Quindi al tempo t+1 prender il valore 1. Con lo stesso metodo la cella 4 ha due celle
-,%'2#4,(2,%+,2P3#4&2,5,2&.R$*%+*6'2#4#)-*#%+&4,+$,-,44,#4:&2+&684#F,4#!9)**%*5*#+#44#
confinanti in stato zero e quindi al tempo t+1 prender valore zero. Si continua cos sino alla
%$0,2&G./*3,+,-",1$,)'#"#+$,-,44,-&%7*%#%'*-&%$%&)'#'&$<$#4,#5,2&,61$*%+*6,))#
(2,%+,2P #4 ',0(& 'OF *4 3#4&2, 5,2&. R$,)'& 3#4&2, 3*,%, 0,0&2*55#'&6 0# %&% *%74$*)-, )$4

6
-#4-&4&+,44&)'#'&+,44,#4'2,-,44,6(,2-"S1$,)',2,#<*)-&%&#44&)'#'&+,44,-,44,#4',0(&'.
R$*%+*)*(#))##44#-,44#H,)*3,+,-","#$%#-,44##)*%*)'2#$<$#4,#F.R$*%+*#4
#$%%&'( )*+,'-,'& #(+%)( .&' /& #0(##& #0,0& 12&)3* .&#0,'0*45 6/ 0(+%& #$..(##*7& #* 8, /,
#(-$('0(3*#0)*2$9*&'(3*#0,0*:
!;<=>?@AB
"""!"!"""0
cella 8. ""!"!"!""0C!
Le celle del bordo si suppone rimangano sempre con lo stesso stato (bordi costanti).
Al tempo successivo si ha la seguente distribuzione di stati:
"!"!"!"!"0C;

123456789
D0*/*99,'3&-/*#0,0*,/0(+%&#*.,/.&/,'&.&'/&#0(##&+(0&3&-/*#0,0*,/0(+%&0C;5
000101000
t
001010100
t+1
E&*.8FG$(#0&+(0&3&
%)(7(3(3*,--*&)',)(-/*#0,0*3*0$00(/(.(//(,/+(3(#*+&*#0,'0(7*('(
010101010
t+2
3(00&#*'.)&'&5H(I,/.&'0),)*&I,7(##*+&,--*&)',0&/&#0,0&3(//,.(//,
,%%(', .,/.&/,0&I ,7)(++& ,7$0& $' +(0&3& 3* .,/.&/& ,#*'.)&'&5 J' G$(#0& #(.&'3& .,#& K
Utilizzando gli stati al tempo si calcolano con lo stesso metodo gli stati al tempo t+2. Poich
(7*3('0(.8(*/)*#$/0,0&L*',/(K*'L/$('9,0&3,//M&)3*'(.&/G$,/(#*#.(/-&'&/(.(//(5N('(),/+('0(
questo metodo
prevede di aggiornare gli stati di tutte le celle al medesimo istante viene detto
7*('(#.(/0&$'&)3*'(.,#$,/(5
sincrono.
Se, al contrario, avessimo aggiornato lo stato della cella appena calcolato, avremmo
O(/.,#&3(//&#%,9*&,3$(3*+('#*&'*$',$0&+,I.&+(#PK7*#0&I7*('(),%%)(#('0,0&.&'.(//(
avuto un
metodo di calcolo asincrono. In questo secondo caso evidente che il risultato
finale G$,3),0(3*#%&#0(#$$',-)*-/*,5Q-'*.(//,I,'.8(*'G$(#0&.,#&I8,$'#0,0&.8(3*%('3(3,//&
influenzato dall'ordine col quale si scelgono le celle. Generalmente viene scelto un
ordine casuale.
Nel caso dello spazio a due dimensioni un automa, come s visto, viene
#0,0&3(//(.(//(*'0&)'&5R$(#0&*'0&)'&17&'O($+,''&S&&)(4%$T(##()(3(L*'*0&*'7,)*+&3*:
rappresentato con celle quadrate disposte su una griglia. Ogni cella, anche in questo caso, ha
=.(//(IA.(//((&/0)(56##$+('3&.8('&'.*#*,3*LL()('9,0),/(.(//(%&#0(*',/0&&*'2,##&I,
un stato che dipende dallo stato delle celle intorno. Questo intorno (von Neumann o Moore)
3(#0),&,#*'*#0),I#%(##&#*#&++,'&-/*#0,0*3(//(.(//('(//M*'0&)'&5R$(#0,#&++,3*7*('($'
pu essere
definito in vari modi: 4 celle, 8 celle e oltre. Assumendo che non ci sia differenza
$'*.&*'%$0%()/,.(//,.('0),/(.8(I*'2,#(,3(##&I(3(7('0$,/+('0(,'.8(,/%)&%)*&#0,0&,/
tra le celle
poste in alto o in basso, a destra o a sinistra, spesso si sommano gli stati delle celle
nell'intorno.
somma
diviene
un0C!
unico
per
la cella
centrale
che, in base
3(//,
.(//, #* .&'L)&'0,
G$(#0,ad esso,
0(+%&Questa
0I #0,2*/*#.(
/& #0,0&
,/ 0(+%&
5 E()input
#0,2*/*)(
/& #0,0&
ed eventualmente
anche al proprio stato al tempo t, stabilisce lo stato al tempo t+1 . Per
#&++,.&'$',#&-/*,#0,2*/*0,(I#(/,#&++,)*#$/0,+,--*&)(I,//&),/,.(//,%)('3($'&#0,0&!I
stabilire lo stato della cella si confronta questa somma con una soglia stabilita e, se la somma
,/0)*+('0*"5R$(#0&0*%&3*,$0&+*7('-&'&3(00*0&0,/*#0*.*5R$(#0&),%%&)0&0),#&++,(#0,0&
risulta maggiore, allora la cella prende uno stato 1, altrimenti 0. Questo tipo di automi
.(//,
#* %$T #*'0(0*99,)(
$'-),L*.& ,
#.,/*'&
'(/ G$,/(
#$//(della
,#.*##(
K )*%&)0,0,
#&++,
vengono3(//,
detti
totalistici.
Questo*'rapporto
tra
somma
e stato
cella
si pu/,sintetizzare
in
3(-/*#0,0*3(//M*'0&)'&3*&00&.(//(,/0(+%&0(#$//(&)3*',0(/&#0,0&3(//,.(//,.('0),/(,/0(+%&
un grafico
a scalino nel quale sulle ascisse riportata la somma degli stati dell'intorno di otto
celle al tempo
t e sulle ordinate lo stato della cella centrale al tempo t+1.
0C!5

U*-$),@!"#$%&'()#*"%'$+%$("#,#$$%-(..%,#/$'-*%*',#$$0')*(")(1%-2'--%3#$(-*%*(,#$$%2#$$%1(",')%*%3
!"
Un caso molto interessante quello dei modelli basati sulla diffusione delle infezioni. In

"# $%&'
(')*'+#*,-,&&%#*,
. /0,))'
2%&%*+ &0))%
1+330&+'#, 1,)),
+#3,4+'#+5
6# /0,&*'con cui si trovi a
questo caso,
se una
cella
malata,
pu1,+ ('1,))+
infettare
qualsiasi
cella
vicina
$%&'7&,0#%$,))%.(%)%*%7809+#3,**%-,/0%)&+%&+$,))%:+$+#%$'#$0+&+*-':+%$'#*%**'5;<#+$,))%
contatto. Ogni cella sana ha probabilit di essere contagiata. Se non viene contagiata per uno
=% 8-'2%2+)+*> 1+ ,&&,-, $'#*%<+%*%5 ?, #'# :+,#, $'#*%<+%*% 8,- 0#' ' 8+@ 8,-+'1+ &+ 809
o pi periodi si pu&%#%
supporre
che non sar pi contagiata.
&088'--,$=,#'#&%->8+@$'#*%<+%*%5

A+<0-%BC!"#$%&'&(&%)*+&$*!,&-./&,"00$(&"*1,"+#)20)21$*#!3&$42$++$1$*#!3&!#$5/)2()*$*1$*#!3&!#$6

2 Automi cellulari per lo studio di sequenze

biologiche e DNA
2.1 Using cellular automata to generate image
representation for biological sequences
2.1.1 Sommario
E' stato sviluppato, un nuovo approccio sulla base degli automi cellulari per la visualizzazione
delle sequenze biologiche (Wolfram, S. Natura 1984, 311, 419-424), I CA sono insiemi di
sistemi dinamici in cui spazio e tempo sono discreti ovvero sono sistemi isolati.
Trasformando la sequenza dei codici simbolici in codici digitali, e utilizzando alcune ottime
regole sull'evoluzione spazio-tempo degli automi cellulari, una sequenza biologica pu essere
rappresentata come un'unica immagine, la cosiddetta cellular automata image. Molte
caratteristiche importanti, che sono originariamente nascoste in una sequenza biologica lunga
e complicata, possono essere chiaramente rivelate attraverso la sua cellular automata image.
Con l'aumentare del numero delle informazioni nelle banche dati nel periodo della postgenomica, stato previsto che la cellular automata image diventer un mezzo molto utile per
analizzare le caratteristiche principali, identificare la funzione, nonch rivelare l''impronta
digitale'' delle sequenze biologiche in esame. Si prevede che, utilizzando il concetto della
pseudo aminoacid composition (Chou, KC Proteine: Structure, Function, and Genetics,
2001, 43, 246-255), la cellular automata image pu essere utilizzata per migliorare le
caratteristiche previste delle proteine, come la classe strutturale e la localizzazione
subcellulare.
2.1.2 Introduzione
Il successo del progetto genoma umano ha generato un importante numero di informazioni
sulle sequenze. Banche dati delle sequenze, come GenBank e EMBL, sono cresciute ad un
tasso esponenziale (Venter et al, 1996;. Chou, 2002; Chou, 2004). In generale, le sequenze
genetiche sono memorizzate nel database del sistema informatico in forma di stringhe lunghe
di caratteri. E' impossibile per gli esseri umani leggere queste sequenze. Inoltre, molto
difficile estrarre le caratteristiche principali direttamente leggendo le sequenze. Tuttavia, se
possono essere convertite in diagrammi e schemi (vedi, ad esempio, Chou e Zhang, 1992;
Zhang e Chou, 1994), alcune caratteristiche importanti delle sequenze diventerebbero
facilmente visibili.
Come visualizzare le sequenze geniche un argomento attuale (Hu et al, 2003;. Kashuk et al,
2002;. Liu et al, 2002;. Sindaco et al, 2000;. Nandy, 1996; Randic et al. , 2000). Lo sforzo
nella visualizzazione delle sequenze biologiche si concentrato sulla rappresentazione di una
singola sequenza. Circa 20 anni fa, stata proposta la prima 3D H curve per rappresentare
una sequenza di DNA (Hamori, 1985; Hamori e Ruskin, 1983). Successivamente, una
rappresentazione grafica delle sequenze di DNA stata proposta utilizzando la funzione
interattiva Barnsley (Jeffrey, 1990). Pi tardi, stato proposto un altro metodo attraverso
l'utilizzo della funzione di un altro sistema interattivo (romano-Roldan et al, 1994;. Tino,
1999). Estrapolando il lavoro di Hamori e Jeffrey, stato presentato un diverso metodo
interattivo chiamato W-curve (Wu et al., 1993). Gates (1985) ha proposto una
rappresentazione grafica 2D che pi semplice della curva H. Tuttavia la rappresentazione
grafica di Gates ha elevate probabilit di errore. Guo ha compiuto un passo ulteriore e ha
proposto una nuova rappresentazione grafica 2D di sequenze di DNA con basse probabilit
di errore (Guo et al., 2001). Nel 2003, Yau ha presentato una rappresentazione senza
possibilit di errori (Yau et al., 2003).
Parallelamente allo sviluppo sopra citato, sono stati proposte varie rappresentazioni per le
sequenze proteiche. Williams et al. (1995) hanno utilizzato cinque spazi verticali per
rappresentare ogni posizione amminoacidica, con gli spazi riempiti secondo le propriet
chimiche dei residui. Questo porta a sequenze simili al Morse, con alcune caratteristiche
strutturali evidenziate dal pattern risultante pattern di punti. Le propriet degli amminoacidi
di una proteina possono anche essere visualizzate sotto forma di grafico a linee, ad esempio,
la proteina rodopsina rappresentata mediante la scala idrostatica (Alston et al., 2003). Chou
et al. (1997) hanno introdotto lo '' Wenxiang schema'' per evidenziare la caratteristica tipica
della sequenza delle eliche antipatiche delle proteine.
Vi una caratteristica comune nei metodi suddetti per la rappresentazione genica, infatti il
punto della curva corrispondente ad un certo acido nucleico collegato solo con la base prima
di esso, mentre tutte le basi dietro ad esso sono totalmente ignorate. Questo coerente con il
fatto che tutte le basi di un gene sono accoppiati tra loro come un'entit in natura. In
considerazione di quanto detto, qui sar introdotto un metodo completamente nuovo e
diverso per l'immaging delle sequenze geniche. Il nuovo metodo basato sugli automi
cellulari, come sar illustrato pi avanti
2.1.3 Metodi
Gli automi cellulari sono sistemi dinamici discreti il cui comportamento completamente
specificato in termini di relazione locale. Un automa cellulare pu essere pensato come un
universo stilizzato costituito da una griglia regolare di celle, ciascuna delle quali pu essere di
un numero finito di stati possibili k, aggiornate in modo sincrono in time step discreti
secondo un locale, secondo una regola d'interazione identica ( Wolfram, 1986). Gli automi
cellulari forniscono un sistema per modellare complessi fenomeni dinamici, ridefinendo il
comportamento macroscopico in regole microscopiche e mesoscopiche che sono discrete
nello spazio e nel tempo. Un insieme di regole specifica l'evoluzione del tempo e dello spazio
nel sistema, che discreto in entrambe le variabili. Questi sistemi hanno suscitato un grande
interesse negli ultimi anni, perch anche con regole molto semplici gli automi cellulari sono
in grado di dimostrare l'evoluzione di modelli molto complessi. L' applicazione di semplici
regole pu portare a comportamenti estremamente complessi in grado di emulare sistemi
fisici, sociali e biologici.
La dimensione di un automa cellulare costituita da una raccolta di variabili tempodipendenti Sit, vale a dire gli Stati locali, disposti su un reticolo di N siti (o celle), i= 0,1,2, ...,
N-1. Intendiamo ciascuno di questi come una variabile booleana: Sit = (0, 1). Come
visualizzazione considerato come automa a 2 stati, ciascuna delle celle pu essere nero o
bianco. La raccolta di tutti gli Stati locali chiamata configurazione: St = S0t S1t --- SNt -1, in
cui S0 indica una configurazione iniziale. La regola F degli automi cellulari pu essere
espressa come una tabella di ricerca che elenca, per ciascun intorno locale, lo stato che viene
assunto dalla cella dell'intorno centrale al passaggio successivo. Un intorno comprende una
cella e i suoi intorno r su entrambi i lati, dove r chiamato raggio degli automi cellulari. Il
corso dell'evoluzione di stato pu essere rappresentato come: Sit+1= F(Sit-rSitSi+rt). Se r 1,

ogni cella pu essere sia bianca che nera, questo permette 23 = 8 possibili combinazioni di
colori lungo le prime tre celle. Poich ciascuna di queste combinazioni former una cella che
pu essere sia nera che bianca e ci sono otto possibili combinazioni cromatiche superiori ci
saranno 28 = 256 possibilit in totale. In generale, se ci sono stati K e se ogni cella ha vicini N
intorni (compreso se stesso), allora ci sono KN regole. Si pu facilmente utilizzare un byte
binario per codificare questi insiemi di regole in numeri decimali tra i numeri 0 e 255. Ad
esempio, la regola numero 184 corrisponde alla fig. 1.
X. Xiao et al.
t al. (1995) used five vertical spaces to repreamino acid position, with the spaces filled
o the chemical properties of the residues. This
equences resembling Morse code, with some Fig. 1. Rule number 184. The string of eight zeros and ones create one
features highlighted by the resulting pattern binary byte, which can represent a decimal number between 0 and 255
he properties of a proteins amino acids may
sualized in the formCodifica
of a line
graph,per
foraminoacidi
digitale
e l'acido
these combinations
will ribonucleico
cause a cell to be either black or white and there
rotein rhodopsin is showed using the hydro- are eight possible upper color combinations then there will be 28 256
e (Alston et al., 2003). Chou et al. (1997) first possibilities in total. In general, if there are K states and if each cell is
I biologi molecolari cercano di determinare i geni nelle celluleN degli organismi, la
the elegant wenxiang diagram to highlight taken to have N neighbors (including itself), then there are K rules. We
can easily utilize questi
a binary byte
to encode
these rule queste
sets into decimal
delle proteine che codificano
geni
e come
proteine sono
sequence feature of the amphiphilic helices in numbers between the numbers 0 and 255. For example, rule number 184
funzione
correlate
evolutivamente tra i diversi
organismi. Il genoma composto da RNA che rappresentato da
would correspond to Fig. 1. The global equation of motion ! maps a
configuration
at one time
step tobasi.
the next;
St1 FS
the
sequenze
di
acidi
nucleici,
chiamate
anche
I i.e.,
quattro
acidi
nucleici
sono adenina (A),
t , where
a common characteristic in the aforementioned
local function ! is applied simultaneously to all lattice sites.
citosina i.e.,
(C),theguanina
(G), uracile (U). Con un computer, la sequenza nucleotidica
hods for the gene representation,
point
codificata
come
segue: Digital coding for amino acid and ribonucleic acid
cial curve corresponding
to a certain
nucleic
ligated only with the base prior to it, while

Molecular biologists seek to determine the genes in the cells of organof all the bases behindA=00,
it are C=01,
totally ignored.
G=10; U=11
isms, the function of(1)
the proteins that these genes encode, and how
onsistent with the fact that all the bases in a these proteins are related evolutionarily across organisms. Genes, comupled with each other as an entity in nature. In posed of RNA, is represented by sequences of nucleic acids, also called
Le proteine sono rappresentate
unaacids
sequenza
di amminoacidi,
chiamati anche residui. Ci
The 4 da
nucleic
are adenine(A),
cytosine(C), guanine(G),
s, here a completely new and different method bases.
deal withMediante
it in a computer,
nucleotide della
sequencesimilitudine,
is coded
sono 20 amminoacidiuracil(U).
acidi To
nativi.
la a regola
la regola della
oduced to image the gene sequences. The novel as follows:
complementarit,
la teoria del riconoscimento molecolare e la teoria dell'informazione, sono
based on Cellular Automata,
as will be illusA 00; C 01; G 10; U 11
1
formulati un insieme di
codici digitali per rappresentare gli amminoacidi,
come mostrato
w.
Proteins are represented riflette

by sequences
of aminoleacids,
also called chimico fisiche degli
nella Tabella 1. La rappresentazione
meglio
propriet
residues. There are 20 native amino acids. By means of the similarity
amminoacidi, cos come
loro struttura
la degenerazione
et al., 2004).
rule,lacomplementarity
rule, e
molecular
recognition theory(Xiao
and information
automata images
for biological
sequences
theory, a set of digital codesCellular
are formulated
to represent
amino
acids, as
shown
in
Table
1.
The
representation
can
better
reflect
the
chemical
Table 1. Binary notation of amino acid coding language
mata
physical properties of amino acids, as well as their structure and degeneracyamino
(Xiao
codon is
acidet al., 2004).
binary notation
codon
amino acid
binary notation
mata are discrete dynamical systems whose behavior
ecified in terms of a local relation. A cellular automaton
ccu ccc
P
00001
cuu cuc
L
00011
ht of as a stylised universe consisting of a regular grid
Space-time evolution of gene sequencecua cug
cca of
ccg
which can be in one of a finite number of k possible
uua uug
A gene
by bases00101
or
Q sequence is always
00100 a 1D string regardless
cau cac it is denoted
H
d synchronously in discrete time steps accordingcaato cag
a
digits.
It
is
very
difficult
to
find
vector
particgu cgc by binary
R
00110
ucu its
ucccharacteristic
S
01001
al interaction rule (Wolfram, 1986). Cellular automata
cga cgg cularly when it is very long. To cope with
uca this
ucg situation, we resort to the
n access to model complex dynamical phenomena
aga by
agg
images derived from the 1D sequence agu
thru agg
the space-time evolution of
the macroscopic behavior into microscopic and uau
mesouac
Y
01100
uuu uuc
F
01011
cellular
cellular automatauguwe ugc
adopt here
ugg
W automata. The
01110
C is a simple two01111
hat are discrete in space and time. A set of rules specifies
acu acc
10000
auc
10010
cellular automata,auuconsisting
of Ia line of cells with
space evolution of the system, which is discrete in
both state,T one-dimensional
aca acg
aua
of 0 or 1. The rule is simply implemented
as that the nearest cells
se systems have attracted a great deal of interest in aug
recent the value
M
10011
aaa aag
K
10100
around
the one we focus
will decide its next
state. Because
many genes are
even with very simple rules cellular automata canaau
show
aac
N
10101
gcu gcc
A
11001
circular,
we
adopt
the
circulating
boundary
condition
with
the
iterative
gca
gcg
evolution patterns. It is recognized that repeated applicaguu guc formula
V given by: 11010
gau gac
D
11100
e rules can lead to extremely complex behavior that can
31
gua gug
ical, social and biological systems.

gaa gag
ensional cellular automata consists a collection of timeuaaof uag
iables Sit , namely the local states, arrayed on a lattice
N
uga
), i 0; 1; 2; . . . ; N " 1. We take each of these to be a
ble: Sit f0; 1g. As visualization is considered in a twoon, each of the cells can be either black or white. The
all local states is called the configuration: St
where S0 denotes an initial configuration. The rule F of
ata can be expressed as a lookup table that lists, for each
hood, the state that is taken on by the neighborhoods central
t step. A neighborhood comprises a cell and its r neighbors
where r is called the cellular automata radius. The course of
can be represented as: Sit1 FSi"r
# # # Sit # # # Sir
t
t . If the r
can be either black or white, then this will allows 23 8
combinations along the top three cells. Because each of
gguDiggc
Di; Ej FDi " 1;11101
j " 1; Di " 1; j;
" 1; j G1
end
1 ' i < n; 111111

' j < M(N " 1
gga ggg
Di; 0 FDi " 1; M(N " 1; Di " 1; 0; Di " 1; 1
11110
2
1 ' i < n
where (x0 ; y0 ) denote the coordinates of the pixel in the original image,
(x1 ;"
y1 )1;
the corresponding coordinates for the transformed image, fx
Di; M(N " 1 FDi " 1; M(N " 2; Di " 1;while
M(N
is the scaling along the horizontal axis, and fy the scaling along the vertical
4
axis. The inverse transformation is given by:
! " !
"! "
to presentx0 the gene
0
1=fx sequence
x1
6
0
1=fyof the
y1
time, andy0N the length
Di " 1; 0 1 ' i < n
where, Di; j is an element of 2D array

image, F the iterative rule, n the iterative
gene sequence. If the sequence is composed of RNA, the M 2; if the
i.e.,
sequence composed of amino acids, the M 5. For example, Rule 84 can
#
x0 x1 =fx
be illustrated by Fig. 2.
10
nd different method
equences. The novel
ata, as will be illus-
tems whose behavior is

on. A cellular automaton
sting of a regular grid of
e number of k possible
me steps according to a
986). Cellular automata
namical phenomena by
microscopic and mesoe. A set of rules specifies
which is discrete in both
deal of interest in recent
lular automata can show
ed that repeated applicamplex behavior that can
ms.
sts a collection of timearrayed on a lattice of N
e each of these to be a
is considered in a twoher black or white. The
he configuration: St
figuration. The rule F of
table that lists, for each
he neighborhoods central
a cell and its r neighbors
mata radius. The course of
i"r
# # # Sit # # # Sir
t
t . If the r
n this will allows 23 8
e cells. Because each of
uracil(U). To deal with it in a computer, a nucleotide sequence is coded

as follows:
A 00; C 01;
G 10; U 11
Proteins are represented by sequences of amino acids, also called

residues. There are 20 native amino acids. By means of the similarity
rule, complementarity rule, molecular recognition theory and information
theory, a set of digital codes are formulated to represent amino acids, as
Evoluzione
spazio-temporale della sequenza genica
shown in Table 1. The representation can better reflect the chemical
physical properties of amino acids, as well as their structure and degeneracy (Xiao
et al., 2004).
Una
sequenza
genica sempre una stringa 1D indipendentemente
e si indica con basi o cifre

binarie. E' molto difficile trovare il suo vettore caratteristico quando molto lungo. Per far
Space-time evolution of gene sequence
Cellular automata
for biological
fronte a questa situazione, si ricorre alle immagini derivate
dallaimages
sequenza
1Dsequences
attraverso
A gene sequence is always a 1D string regardless it is denoted by bases or
l'evoluzione
spazio-tempo
degli
automi
cellulari.
Gli
automi
cellulari
adottati
qui
sono
a due
by binary digits. It is very difficult
to find
its characteristic
Table
1. Binary
notation ofvector
aminopartiacid coding language
cularly semplici,
when it is veryunidimensionali,
long. To cope with this situation,
we resort
the linea di celle con valore 0 o 1. La regola
stati
costituiti
da touna
images derived from the 1D sequence
thru the space-time
evolution of
codon
amino
acid
notation
binary notation
semplicemente
applicata
alle
cellule
pi
vicine
abinary
quella
su cui ci codon
si focalizza, amino
verracidcos deciso
cellular automata. The cellular automata we adopt here is a simple twoilstate,
suoone-dimensional
stato successivo.
Datoconsisting
che molti
geni
sono
cellular automata,
of a line
of cells
with circolari, si adotta la condizione al contorno
ccu ccc
P
00001
cuu cuc
L
00011
the value of 0 or 1. The rule is simply implemented as that the nearest cells
ccainterattiva
ccg
cua cug
circolare
con
la
formula
data
da:
around the one we focus will decide its next state. Because many genes are
circular, we adopt the circulating boundary condition with the iterative
caa cag
Q
00100
formula given by:
cgu cgc
R
00110
cggDi " 1; j 1
Di; j FDi " 1; j " 1; Di cga
" 1; j;
1 ' i < n; 1 ' j < M(N aga
" 1 agg
2
uau uac
Y
01100
ugg
W
01110
Di; 0 FDi " 1; M(N " 1;acu
Di "acc
1; 0; Di "T1; 1 1 ' i < n 10000
3
aca acg
aug
M
10011
aau " aac
10101
Di; M(N " 1 FDi " 1; M(N
2; Di " 1; N
M(N " 1;
uua
cau
ucu
uca
agu
uuu
ugu
auu
aua
aaa
gcu
gca
gau
uug
cac
ucc
ucg
agg
uuc
ugc
auc
aag
gcc
gcg
gac
H
S
00101
01001
F
C
I
01011
01111
10010
K
A
10100
11001
Di " 1; 0 1 ' i < n

4
guu guc
V
11010
D
11100
where, Di; j is an element of 2D
gua array
gug to present the gene sequence
image, F the iterative rule, n thegaa
iterative
gag time, andE N the length of the
11101
ggu ggc
11110
dove,
D(i,j)If the
un
elemento
della
matrice
per
rappresentare
l'immagineG della sequenza
gene sequence.
sequence
is composed
of RNA,
the M 2D
2; if the
gga ggg
sequence composed
of amino
acids,
Mntempo
5. For example,
Rule 84 can
uaathe uag
endinterattivo,
11111
genica,
F regola
interattiva,
N la lunghezza della sequenza genica. Se la
be illustrated by Fig. 2.
uga
sequenza composta da RNA allora M= 2, se la sequenza composta di amminoacidi l'M

=5. Per esempio, la regola 84 pu essere illustrata in Fig. 2.
where (x0 ; y0 ) denote the coordinates of the pix

while (x1 ; y1 ) the corresponding coordinates for t
is the scaling along the horizontal axis, and fy the
! " !
"! "
0
1=fx
x0
x1
0
1=fy y1
y0
i.e.,
Fig. 2. Illustration of a one-dimensional, binary-state, nearest-neighbor
x0 x1 =fx
y0 y1 =fy
(r 1) cellular automata with N 10. Both the lattice and the rule table
Generazione dell immagine
F for updating the lattice are illustrated. The lattice configuration is

shown at two successive time steps. The cellular automaton has spa- III Results and discussion
periodic boundary
conditions: theinlattice
as a circle,
Quando si trasforma tially
la matrice
2D (matrice)
unais viewed
immagine
binaria con tecniche di
with the leftmost cell being the right neighbor of the rightmost cell, and The images of real and simulated gen
visualizzazione scelto
il
formato
bitmap
di
base
perch
la
sua
struttura facilmente
vice versa
sented as examples to show how thes
gestibile. In questo modo, se l'elemento della matrice zero, il colore del pixel bit
images provide useful information. T
corrispondente sar nero, altrimenti bianco.
gene sequences are all downloade
Image generation
http:==www.ncbi.nlm.nih.gov. To the
Compressione dellimmagine
When transforming the 2D array (matrix) into a binary image with visua- the evolving rules are different, the im
lization techniques, the basic bitmap format is chosen because its property That is to say, 256 different images c
is easily handled. In this way, if the matrix element was zero, the color of
same sequence
on cellular autom
totaletheottenuta
per bitalcune
sequenze
lunghe risulta
a volte based
troppo
counterpart pixel
will be black;
otherwise, molto
white.
La dimensione
can falldell'immagine
into 4 classes. The first class
grande, la compressione deve necessariamente evidenziare le caratteristiche
the
states
of cells been quickly resolv
interessata utilizzando Image
la seguente
compressionmappatura matematica:
The total size thus obtained are too large for some long sequences,
the compression of the image is needed that is actually to highlight
the characteristic of the image concerned the following mathematical
mapping:
! " !
"! "
f 0 x0
x1
x
5
0 f y y0
y1
figurations, e.g., all 0 or all 1. The se

odic. The third class is of chaos. The
disordered, but complex and sometim
evolution rule of the formulation imag
generate the features that can be easily
whether the gene concerned are ho
11
aua
aaa
gcu
gca
gau
aag
gcc
gcg
gac
ggu ggc
gga ggg
K
A compression
Image
10100
11001
The total size thus obtained are too large for some long sequences,
D
the compression
of the 11100
image is needed that is actually to highlight
the characteristic of the image concerned the following mathematical
G
11110
mapping:
! " !
"! "
f 0 x0
x1
x
5
0 f y y0
y1
can fall into 4 classes. The first class is named balanced,

the states of cells been quickly resolved into boring configurations, e.g., all 0 or all 1. The second class is periodic. The third class is of chaos. The fourth class is not
disordered, but complex and sometimes long-lived. The
evolution rule of the formulation image that we need must
generate the features that can be easily used to distinguish
whether the gene concerned are homologous to each
dove (x0, y0) indicano le coordinate del pixel dell'immagine originale, mentre (x1, y1) le
where (x0 ; y0 ) denote the coordinates of the pixel in the original image,
coordinate
corrispondenti per l'immagine trasformata, fx la scala lungo l'asse orizzontale, e
while (x1 ; y1 ) the corresponding coordinates for the transformed image, fx
fyis the
la scaling
scalaalong
lungo
l'asse verticale.
trasformazione
the horizontal
axis, and fy theLa
scaling
along the vertical inversa data da:
! " !
"! "
0
1=fx
x0
x1
0
1=fy y1
y0
i.e.,
ry-state, nearest-neighbor
lattice and the rule table
e lattice configuration is
lular automaton has space is viewed as a circle,
of the rightmost cell, and
binary image with visuahosen because its property

ent was zero, the color of
e, white.
or some long sequences,

is actually to highlight
following mathematical
x0 x1 =fx
y0 y1 =fy
2.1.4
Risultati
III Results
and discussione discussione
The images of real and simulated gene data will be pre-
Le immagini di dati reali e simulati del gene saranno utlizzati come esempi per mostrare le
sented as examples to show how these cellular automata
cellular
automata images possano fornire informazioni utili. Le sequenze geniche citate sono
images provide useful information. The aforementioned
tutte
scaricate
da Genbank:
Per la stessa sequenza, se le
gene state
sequences
are all
downloaded http://www.ncbi.nlm.nih.gov.
from Genbank:
regole
d'evoluzione
sono
differenti,
le
immagini
saranno
differenti.
Vale a dire che 256
http:==www.ncbi.nlm.nih.gov. To the same sequence, if
immagini
possono
createareper
la stessa sequenza utilizzando gli automi cellulari.
the evolvingdiverse
rules are
different,essere
the images
different.
That is toimmagini
say, 256 different
images
can beclassificate
created for ain 4 classi. La prima classe chiamata
Queste
possono
essere
same sequencegli
based
on delle
cellularcellule
automata.
These
images
equilibrata,
stati
sono
rapidamente
risolti in configurazioni di base, per
can
fall
into
4
classes.
The
first
class
is
named
balanced,
esempio, tutti 0 o tutti 1. La seconda classe definita periodica. La terza classe quella del
the states
cells been
quickly
into boring
caos.
La of
quarta
classe
non resolved
disordinata,
ma concomplessa e a volte di lunga durata. La regola
figurations, e.g., all 0 or all 1. The second class is perid'evoluzione per la formulazione dell'immagine che dobbiamo generare pu essere facilmente
odic. The third class is of chaos. The fourth class is not
utilizzata
per distinguere se i geni in questione sono omologhi tra loro. In questo modo, le
disordered, but complex and sometimes long-lived. The
basi
di un
i residui image
di una
devono essere accoppiati tra loro come entit.
evolution
rulegene
of theoformulation
thatproteina
we need must
Durante
il features
processamento
del gene, lo stato della cella corrispondente ad un
generate the
that can bedell'immagine
easily used to distinguish
certo
acido
collegato
sia con la base
prima e che con la base successiva. Grazie alle
whether
the nucleico
gene concerned
are homologous
to each
caratteristiche suddette, l'immagine del gene pu rivelare alcune caratteristiche implicite della
sequenza, e queste caratteristiche sono difficili da individuare con l'utilizzo di altri sistemi per
la visualizzazione dei geni. E stato scoperto che tra le 256 regole d'evoluzione possibili
questa la migliore per la costruzione dell'immagine del gene. Ad esempio, la regola 184
pi adatta per i virus corona, mentre la regola 84 la migliore per costruire unimmagine di
sequenze amminoacidiche.
Se regola e tempo d'evoluzione sono immutabili, la sequenza genica e l'immagine prodotta
sar corrispondente uno a uno. Poich la codifica digitale di aminoacidi e nucleotidi
degenerativa, le immagini risulteranno in celle diverse almeno per la prima fila. La figura 3
mostra l'immagine comparativa tra il gene TGFA di topo P01134 e il suo gene
ricombinante. Il gene ricombinante ha una sola differenza P01134 nell'amminoacido 61,
fenilalanina in lisina. Il metodo di generazione dell'immagine comparativa utile per
confrontare il corrispondente bit tra due parti di immagini generate precedentemente: se il
colore lo stesso, il punto di pixel corrispondente dell'immagine comparativa sar del colore
originale, altrimenti la controparte dell'immagine comparativa verr rappresentata come un
punto rosso.
12
dures are generally too large for analysis. After the images
are zoomed out with the compression ratio 14:2 as showed
in Fig. 4, the images of SARS-CoVs are mainly with the
V-shaped cross-lines pattern, whereas those of non-SARS
Fig. 3. Comparative image between mouse TGFA gene (P01134) and its
recombine gene. The recombine gene only has one different to P01134 in
61th amino acid, phenylalanine to lysine. The Rule 84 was used for the
evolutive
and UUUU. Therefore, such a uniqu

CoV can be defined as its fingerprin
found that the number of individual
region of some SARS gene sequenc
equal to the number of individual U
statistic result. These segments are fro
5703 to 7195 nt, 12128 to 14470 nt,
and 17928 to 21803 nt in the SARS5-terminal. There is no such a feature
naviruses, as will be elaborated elsew
Besides, the gene cellular automata
following features as illustrated below
the cellular automata image for a C
virus (HBV) built by the Rule 84. Fro
see that the image of HBV C gene ha
tern and character. Because the circul
dition was used, the image can be a c
Sono state applicate regole diverse per analizzare il corona virus 90, ma solo applicando la
regola 184 sono state ottenute immagini di SARS-CoVs differenti da quelli di altri
coronavirus (Wang et al., 2005). Le immagini ottenute direttamente dalle suddette
procedure sono generalmente troppo grandi per l'analisi. Dopo le immagini sono state
rimpicciolite con un rapporto di compressione 14:2 come mostrato in Fig. 4, le immagini di
SARS-CoVs sono principalmente con la V trasversale a forma di linee modello, mentre le
immagini del virus non SARS sono caratterizzate da linee parallele. Analizzando l'intera
immagine delle sequenze di RNA stato trovata un'impronta notevole di SARS-CoV . E' in
alcune di queste regioni del SARS-CoV vicino al 5' (Chou et al, 1996;. Zhang e Chou,
1996) che le frequenze del carattere ripetuto 'A' (vale a dire,'AA' , 'AAA' , e 'AAAA' ) sono
ovviamente maggiori di quelle con carattere ripetuto 'U' (vale a dire,'UU' , 'UUU' , e
'UUUU'). Tuttavia, per tutti gli altri corona-virus, la frequenze di 'AA', 'AAA', e 'AAAA'
sono ovviamente inferiori a quelli di 'UU', 'UUU' , e 'UUUU'. Pertanto, una caratteristica
unica di SARS-CoV pu essere definita come la sua impronta digitale. In realt, si
riscontrato che il numero di 'A' nella forma V di alcuni SARS approssimativamente uguale
al numero di 'U' secondo il risultato statistico. Questi segmenti vanno dal 3232 al 5624 nt,
dal 5703 al 7195nt, dal 12.128 al 14470nt, dal 16.444 al 19231nt, e dal 17928 al 21803 nt
della sequenza SARS-CoV vicino al 5' terminale. Non c' una caratteristica simile nel corona
virus non-SARS,
come verr elaborato altrove.
X. Xiao et al.
his way, the bases in a gene or residues in a

st be coupled with each other as an entity.
process of producing the gene image, the state
sponding to a certain nucleic acid is colligated
he base prior to it and bases behind it. Because
entioned characteristics, the gene image can
implicit sequence features, and these features
to be displayed by other gene visualizations.
und that among the 256 evolving rules some is
the others in building gene image for a given
xample, Rule 184 is most suitable for coronaRule 84 is the best for building the image of
sequences.
e and time for the evolution are all changeless,
quence and image thus produced will be oneespondence. Because digital coding for amino
ucleotide are degeneracy, the images will aperent cells for the first row at least. Figure 3
omparative image between mouse TGFA gene
nd its recombine gene. The recombine gene
e difference to P01134 in the 61th amino acid,
of generating comne to lysine. The method
age is for comparing the corresponding bit
e previously generated two pieces of images:
Fig. 4. Sample images obtained by applying the Rule 184 on the SARS
coronal virus and non-SARS coronavirus: (a) BJ01(AY278488), and (b)
AF208066_Murine. The time of evolving was 2400, the compression
ratio is 14:2. the SARS image is with a V-shaped cross-lines pattern, a
token for SARS coronal viruses; and the non-SARS coronavirus image is
with a parallel slash-lines pattern, a remarkable distinction with the
SARS coronal virus
virus RNA sequences are mainly with the parallel slashlines pattern. By analyzing the different parts of the fulllength RNA sequence visualized images, a remarkable
fingerprint for the SARS-CoV has been found. It is in
0
13
Cellular automata images for biological sequences
It can be seen by comparing the tw

images are quite different and there is
Inoltre la cellular automa image del gene ha anche le seguenti caratteristiche
come illustrato
larity at all. In molecular biology, the
in Fig. 5 ed la cellular automa image di un gene C del virus dell'epatiterities
B (HBV)
costruito
in their functions and appearance
Cellular
automata
for biological
33
con l'utilizzo della regola 84. Dalla
figura
si images
pu vedere
chesequences
l'immagine del
gene CThe
di HBV
sequences.
sequences of Tra
ha un suo particolare pattern. Poich stata utilizzata la condizione del confine
circolante, segenes are exam
Factor-Alpha
It can be seen by comparing
the two (TGFA)
images that both
i bordi destro e sinistro sono collegati tra loro l'immagine
pu
risultare
come
un
cerchio.
Ci simi-AAH0
homo
sapiens
(AAA61157,
images are quite different and there is no significant
CAA49806),
Capreolus
(AAF7322
sono due grandi e tre piccole aree triangolari nelle
della figura.
Molti
piccoli
larityimmagini
at all. In molecular
biology,
there are
many simila(CAE30382),
Sheep
(P98135),
triangoli sono presenti nel triangolo pi grande e questi
triangoli
sono
tutti
invertiti.
rities
in their
functions
among homologyRhesus
Cellular
automata
imagesand
for appearances
biological sequences
Mus
musculus
(AAB50554),
sequences. The sequences of Transforming
GrowthRabbit
(NP_001001614),
Norway
rat (NP_0
Factor-Alpha (TGFA) genes
are be
examined.
include
It can
seen byThey
comparing
the tw
familiaris
(AAR21186).
As shown
homo sapiens (AAA61157,
AAH05308,
AAH05309,
images
are quite different
and there is
Fig. 5. The cellular automota images of Hepatitis B virus C gene are
images
of humanDanio
and mouse
ve
CAA49806), Capreolus larity
(AAF73229),
rerioare the
at all. In molecular
biology,
generated by cellular automata Rule 84: the time of evolving is 300, and
they
are
from
three
different
kinds
of
(CAE30382),
Sheep
(P98135),
rities Rhesus
in their monkey
functions(P55244),
and appearance
the sequence is obtained from NCBI GenBank
(ab059661).
(a) The
words,
they (P98138),
do have some
common fe
original image, and (b) the compressed image
frommusculus
(a). The compression
Mus
(AAB50554),
Rabbit
Chicken
sequences. The sequences
of Tra
sequences,
which are
hard
to be id
ratio is 2:2
(NP_001001614), NorwayFactor-Alpha
rat (NP_036803),
Canis
(TGFA)and
genes
are exam
familiaris (AAR21186). As
shown
in Figs.
7, 8, twoAAH0
homo
sapiens
(AAA61157,
Fig. 5. The cellular automota images
of Hepatitis
B virus
C gene are
and left
edges are
connected
withimages
each other.
Thereand
are mouse
of human
are very similar
although
CAA49806),
Capreolus
(AAF7322
generated by cellular automata Rule
time of evolving
300,three
and small
two84:
bigthetriangular
areasisand
triangular
areasdifferent
in (CAE30382),
they are
from three
kinds of organisms.
In
other
Sheep (P98135), Rhesus
the sequence is obtained from NCBI GenBank (ab059661). (a) The
the images
of the
A lot of small
triangles
arehave
nested
words,
they do
someMus
common
features
in these twoRabbit
musculus
(AAB50554),
original image, and (b) the compressed
image from
(a).figure.
The compression
sequences,
are hard
to be identifiedNorway
from their
into big triangle, and these triangles
are allwhich
inverted.
ratio is 2:2
(NP_001001614),
rat (NP_0
Therefore, the current method provides a much more familiaris (AAR21186). As shown
intuitive
easier-to-be-identified
feature
for the
comFig. 5.with
The and
cellular
automota
images
B virus
C gene
are images of human and mouse are ve
and left edges are connected
each
other.
There
areof Hepatitis
generated by
cellular
automata
Rulethe
84: original
the time ofsymbolic
evolving issequen300, and
plicated
gene
sequence
than
they are from three different kinds of
two big triangular areas and
three small triangular areas in
Fig. 7. Compressed image of the mouse TGFA
the sequence is obtained from NCBI GenBank (ab059661). (a) The
tial
expression.
do have
some(P01134),
common
fe
the images of the figure. Aoriginal
lot of small
triangles
are nestedimage from (a). The compression words,
obtained they
from NCBI
GenBank
its le
image, and
(b) the compressed
Furthermore,
it
follows
by
analyzing
the
Rule
84
that
the
compression
ratio
is
2:2,
and
the
time
of
ev
sequences,
which
are
hard
to
be
id
ratio
is
2:2
into big triangle, and these triangles are all inverted.
Therefore, the current method
provides a much more
Di; j
!
intuitive
and
feature
for caratterizzazione
the comand 0;
left
edges
each other.
There
Pertanto, l'attuale metodo
fornisce
una
molto
piare
intuitiva e pi facile da
Di
$ 1;are
j $connected
1Di $ 1; with
j 00
plicated gene sequence than
the
original
symbolic
sequentwo
big
triangular
areas
and
three
small
triangular
areas
in
identificare rispetto la complicata
originale.
Regola
7.Di
Compressed
the mouse TGFAlagene.
The sequence is
!x; Di $ 1;sequenza
j $ 1Di $genica
1; j 6Fig.
00;
$ 1; Inoltre,
j image
1 xofanalizzando
tial expression.
images of the figure. A lot of small
triangles
are nested
obtained
from NCBI
GenBank (P01134), its length is 159 amino acids,
84 Furthermore,
risulta che:it follows the
8 and the time of evolving is 300
by analyzing
the Rule
that triangles
the compression
is 2:2,
into
big triangle,
and 84
these
are all ratio
inverted.
Therefore,
current
much
more
!x is theprovides
where
x the
f0; 1g,
and method
inversiona of
x. Thus,
Di; j
intuitive
and
feature
for
the
com!
according
0; Di $ 1; j $ 1Di $
1; j 00to Rule 84 we can derive the image for the
plicated
gene
sequence
than
the
original
symbolic
sequenWIAD
gene
Fig. 7. Compressed image of the mouse TGFA
!x; Di $ 1; j $ 1Di $
j 6
00; (Fig.
Di $6).
1; j 1 x
tial1;
expression.
from NCBI GenBank (P01134), its le
Different
types of the gene sequences from the same obtained
Fig. 8. Compressed image of the human TGFA
8
Furthermore,
it
follows
by
analyzing
the
Rule
84
that
the
compression
ratio is 2:2, and the time of ev
organism were used to test the method. The TGFA and
obtained from NCBI GenBank (AAH05308),
the di
compression
dove
e and
l'inversione
di
x. Cos,
la regola
84,functions.
siamo in acids,
grado
ricavareratio is 2:2, and the tim
major
genes
are
different
in their
!x beta-globin
wherex=x (0,1),
f0; 1g,
is the
of x.secondo
Thus,
Di;
j inversion
! derive
7 andthe
9 show
the two
mouse genes, respectively.
l'immagine
gene
WIAD
according to per
Ruleil 84
weFigures
can
image
thej
0; Di(Fig.
$ 1; j6).
$ 1Difor
$ 1;
00
WIAD gene (Fig. 6).

!x; Di $ 1; j $ 1Di $ 1; j 6 00; Di $ 1; j 1 x
Different types of the gene sequences from the same Fig. 8. Compressed image of the human TGFA gene. The sequence was
8
organism were used to test the method. The TGFA and obtained from NCBI GenBank (AAH05308), its length is 159 amino
the compression ratio is 2:2, and the time of evolving is 300
beta-globin major genes are
different
in 1g,
theirand
functions.
!x is the acids,
where
x f0;
inversion
of x. Thus,
Figures 7 and 9 show the according
two mousetogenes,
respectively.
Rule 84 we can derive the image for the
WIAD gene (Fig. 6).

Different types of the gene sequences from the same
organism were used to test the method. The TGFA and
Fig.
6. The cellular
automota
WIAD gene
periodic
beta-globin
major
genesimage
are of
different
in with
theirsome
functions.
sections:
the
time
of
evolving
is
300,
and
the
evolving
rule
is
the
Rule
84.
Figures 7 and 9 show the two mouse genes, respectively.
The compression radio is 2:2
Fig. 8. Compressed image of the human TGFA

obtained from NCBI GenBank (AAH05308),
acids,
compression
ratioofis the
2:2,mouse
and thebetatim
Fig.
9. the
Compressed
image
sequence was obtained from NCBI GenBank (J
ratio is 2:2, and the time of evolving is 300
Diversi tipi di sequenze geniche dello stesso organismo sono stati utilizzati per testare il
Compressed
image
of the
mouse
beta-globin major gene. The
Fig. 6. The cellular
automota
WIAD gene with
somebeta-globina
periodic Fig. 9.sono
metodo.
Il TGFA
e iimage
geniofprincipali
della
diversi
nelle
loro
funzioni.
sections: the time of evolving is 300, and the evolving rule is the Rule 84.
sequence was obtained from NCBI GenBank (J00413), the compression

14
Fig. 6. The cellular automota image of WIAD gene with some periodic
sections: the time of evolving is 300, and the evolving rule is the Rule 84.
Fig. 9. Compressed image of the mouse betasequence was obtained from NCBI GenBank (J
8
(CAE30382), Sheep (P98135), Rhesus monkey (P55244),
Mus
musculus
(P98138),
where
x f0;(AAB50554),
1g, and !x is Rabbit
the inversion
of Chicken
x. Thus,
(NP_001001614),
and for
Canis
according to RuleNorway
84 we rat
can (NP_036803),
derive the image
the
familiaris
(AAR21186).
As
shown
in
Figs.
7,
8,
two
WIAD gene (Fig. 6).
ages of Hepatitis B virus C gene are images
of human
mouse
very similar
Different
types and
of the
geneare
sequences
from although
the same Fig. 8. Compressed
automata images for biological
sequences image of the human TGFA gene. The sequence was
33
le 84: the time of evolving is 300, and they are from three different kindsCellular
of organisms.
In other
organism
were
used
to
test
the
method.
The
TGFA
and obtained from NCBI GenBank (AAH05308), its length is 159 amino
NCBI GenBank (ab059661). (a) The
acids, the compression ratio is 2:2, and the time of evolving is 300
they do
havegenes
some are
common
features
in these
two It can
beta-globin
major
different
in their
functions.
essed image from (a). The compression words,
be seen by comparing the two images that both
Le figure
7 e 9which
mostrano
itodue
differenti
geni
sequences,
are hard
be identified
from
theirdi un topo.
Figures 7 and
9 show
the two
mouse
genes, respectively.
images are quite different and there is no significant similarity at all. In molecular biology, there are many similaed with each other. There are
rities in their functions and appearances among homology
d three small triangular areas in
sequences. The sequences of Transforming Growth
lot of small triangles are nested
Factor-Alpha (TGFA) genes are examined. They include
se triangles are all inverted.
homo sapiens (AAA61157, AAH05308, AAH05309,
ethod provides a much more
CAA49806), Capreolus (AAF73229), Danio rerio
dentified feature for the com(CAE30382), Sheep (P98135), Rhesus monkey (P55244),
n the original symbolic sequenFig. 7. Compressed image of the mouse TGFA gene. The sequence is Mus musculus (AAB50554), Rabbit (P98138), Chicken
Fig. 9. Compressed image of the mouse beta-globin major gene. The
Fig. 6.sequences
The cellular
automota image
of WIAD
geneiswith
Cellular automata images for biological
33
obtained
from
NCBI GenBank
(P01134),
its length
159 some
aminoperiodic
acids,
Norway
ratGenBank
(NP_036803),
Canis
sequence was obtained
from NCBI
(J00413), theand
compression
the time
of evolving
is 300,
and the
is the Rule 84.(NP_001001614),
by analyzing the Rule 84 that
thesections:
compression
ratio
is 2:2, and
the time
of evolving
evolving rule
is 300
familiaris
As shown
ratio is 2:2,(AAR21186).
and the time of evolving
is 300 in Figs. 7, 8, two
It can be seen by comparing the two images that both
Fig. 5. The cellular automota images of Hepatitis B virus C gene are images of human and mouse are very similar although
images by
arecellular
quiteautomata
different
and
is of
noevolving
significant
generated
Rule
84:there
the time
is 300,simiand they are from three different kinds of organisms. In other
$ 1; j 00
sequence
obtained
from NCBI
GenBank
(a)
The
Sithelarity
pu
confrontando
le (ab059661).
due
immagini
che non c' una significativa somiglianza. In
atnotare
all.is In
molecular
biology,
there
are many
similawords, they do have some common features in these two
$ 1; j 6 00; Di $ 1; j 1 original
x
image,
and
(b) the compressed
image from (a).
The compression
rities
in
their
functions
and
appearances
among
homology
biologia
nelle funzioni
trahard
2 sequenze
omologhe.
which are
to be identified
from theirSono
ratio is 2:2 molecolare, ci sono molte similarit sequences,
8
sequences. The sequences of Transforming Growth
state
esaminate
le
sequenze
del
gene
TGF-alfa
(TGFA).
Essi
comprendono
homo
sapiens
Factor-Alpha (TGFA) genes are examined. They include
is the inversion of x. Thus,
and
left sapiens
edges areAAH05308,
connected with
each
other.AAH05309,
There CAA49806),
are
(AAA61157,
AAH05309,
Capreolus (AAF73229), Danio rerio
homo
(AAA61157,
AAH05308,
can derive the image for the
two
big triangular
areas
and three
small triangular
areasrerio
inRhesus (P55244), Mus musculus (AAB50554),
CAA49806),
Capreolus
(AAF73229),
Danio
(CAE30382),
Pecora
(P98135),
scimmia
the
images of the
figure.
A lot of Rhesus
small triangles
nested
(CAE30382),
Sheep
(P98135),
monkeyare
(P55244),
coniglio
(P98138),
pollo
(NP_001001614
), ratto della Norvegia (NP_036803), e Canis
ene sequences from the same
Fig.
8.triangle,
Compressedand
image
of the triangles
human TGFAare
gene.all
Theinverted.
sequence was
into
big
these
Mus
musculus
(AAB50554),
Rabbit
(P98138),
Chicken
t the method. The TGFA familiaris
and obtained (AAR21186).
from NCBI GenBank (AAH05308),
its
length
is
159
amino
Come
mostrato
nelle Fig. 7, 8, le immagini del gene umano e del
Therefore,
the current
method
provides
a much
(NP_001001614),
Norway
rat and
(NP_036803),
and ismore
Canis
acids, the compression
ratio is 2:2,
the time of evolving
300
re different in their functions.
intuitive
and
feature
for
the
comtopo
sono
molto
simili
anche
se
derivano
da tre diversi tipi di organismi. In altre parole, essi
familiaris (AAR21186). As shown in Figs. 7, 8, two
wo mouse genes, respectively.
plicated
gene
sequence
than
the
original
symbolic
sequenHepatitis B virus C gene are hanno
images alcune
of human caratteristiche
and mouse are verycomuni
similar although
difficiliFig.da
identificare
rispetto
alle
sequenze
7. Compressed
image of the
mouse TGFA
gene. loro
The sequence
is
he time of evolving is 300, and tial
theyexpression.
are from
three different
kinds
of organisms.
In
other obtained
from NCBI con
GenBank
(P01134),
its length
is 159 amino
acids,
geniche.
Questi
risultati
indicano
che
l'attuale
approccio
gli
automi
cellulari
davvero
GenBank (ab059661). (a) The
Furthermore,
follows
analyzing
the Rule
84 that
words,
they do ithave
somebycommon
features
in these
two the compression ratio is 2:2, and the time of evolving is 300
mage from (a). The compression
molto
utile per distinguere una sequenza di particolari geni fornendo un'immagine induttiva.
sequences, which are hard to be identified from their
Di; j
!
0; Di $ 1; j $ 1Di $ 1; j 00
th each other. There are
!x; Di $ 1; j $ 1Di $ 1; j 6 00; Di $ 1; j 1 x
e small triangular areas in
8
small triangles are nested
ge
of WIAD
some periodic Fig. 9. Compressed image of the mouse beta-globin major gene. The
angles
aregene
allwith
inverted.
where x f0; 1g, and !x is the inversion of x. Thus,
00, and the evolving rule is the Rule 84. sequence was obtained from NCBI GenBank (J00413), the compression
provides a much more according
can derive
ratio is to
2:2, Rule
and the84
timewe
of evolving
is 300 the image for the
fied feature for the com- WIAD gene (Fig. 6).
original symbolic sequenDifferent types of the gene sequences from the same
Fig. 7. Compressed image of the mouse TGFA gene. The sequence is Fig. 8. Compressed image of the human TGFA gene. The sequence was
organism
were
used
to test
the method.
TGFA
obtained from
NCBI
GenBank
(P01134),
its lengthThe
is 159
amino and
acids, obtained from NCBI GenBank (AAH05308), its length is 159 amino
the compression
ratio is
2:2, and
time of evolving
is 300
beta-globin
major
genes
arethedifferent
in their
functions. acids, the compression ratio is 2:2, and the time of evolving is 300
Figures 7 and 9 show the two mouse genes, respectively.
alyzing the Rule 84 that
00
Infine, chiaro che, con il concetto della pseudo composizione amminoacidica come
00; Di $ 1; j 1 x introdotto da Chou (Chou, 2001), l'attuale approccio con la cellular automata image pu
8 essere utilizzato anche per migliorare la previsione della classe strutturale delle proteine [see,
e inversion of x. Thus, e.g., (Chou

derive the image for the Chou and
and Zhang, 1993; Chou, 1993; Chou, 1995; Chou, 2000; Chou and Cai, 2004a;
Maggiora, 1998; Chou and Zhang, 1994; Chou, 1989; Luo et al., 2002;
Nakashima et al., 1986; Zhou, 1998)], protein subcellular location prediction [see, e.g.,
equences from the same Fig. 8. Compressed image of the human TGFA gene. The sequence was
Chou
and
Cai,
2002;
Chou
Cai,
2004b;
and Elrod,
1999b;
et al.,
2003;
Zhou
Fig. 9. Compressed
image of
the mousePan
beta-globin
major
gene. The
6. The
cellular
automota
image
of WIADand
gene with
some
periodic Chou
method. The TGFA and Fig.
obtained from NCBI GenBank (AAH05308), its length is 159 amino
sections: the time of evolving is 300, and the evolving rule is the Rule 84. sequence was obtained from NCBI GenBank (J00413), the compression
2003)],
and
membrane
type prediction [see, e,g., (Cai et al., 2003;
acids,Doctor,
the compression
ratio is 2:2,
and the
time of evolvingprotein
is 300
ferent in their functions. and
ouse genes, respectively. Chou and Elrod, 1999a; Wang et al., 2004a, b)], as demonstrated elsewhere (Xiao et al.,
2004).
2.1.5 Conclusioni
Si dimostra attraverso questo studio che il nuovo metodo sviluppato sulla base degli automi
cellulari molto utile per studiare complicate sequenze biologiche.
Fig. 9. Compressed image of the mouse beta-globin major gene. The
sequence was obtained from NCBI GenBank (J00413), the compression
WIAD gene with some periodic

the evolving rule is the Rule 84.
15
2.2 Cellular automaton model for the study of dna

sequence evolution
2.2.1 Sommario
Gli Automi cellulari vengono introdotti come modello per studiare la struttura, la funzione e
l'evoluzione del DNA. Il DNA modellato come un automa cellulare unidimensionale con
quattro stati per cella. Questi stati sono le quattro basi del DNA rappresentate A, C, T e G.
I quattro stati sono rappresentati da un numero del sistema numerico quaternario. Sono state
prese in considerazione le regole di evoluzione lineari, rappresentate da matrici quadrate.
Sulla base di questo modello stato sviluppato un simulatore d'evoluzione del DNA e nelle
pagine seguenti verranno presentati i risultati della simulazione. Questo simulatore ha una
semplice interfaccia di ingresso e pu essere utilizzato per lo studio dell'evoluzione DNA.
2.2.2 Introduzione
Biologi, informatici e ingegneri hanno recentemente unito i loro sforzi, dando vita alla
Bioinformatica. La Bioinformatica pu essere definita come una disciplina che genera
strumenti informatici, banche dati, hardware, algoritmi e metodi per sostenere la ricerca
genomica e post-genomica. Si utilizza per lo studio della struttura del DNA, la funzione,
l'evoluzione, l'espressione di geni e proteine, produzione di proteine, struttura e funzione,
sistemi di regolazione genetica e applicazioni cliniche.
I metodi utilizzati con successo in Informatica e Ingegneria sono stati recentemente utilizzati
per costruire i modelli per la simulazione della struttura, la funzione e l'evoluzione del DNA.
A causa della grande quantit di informazioni memorizzate nella struttura del DNA
dovrebbero essere sviluppati al pi presto nuovi modelli, algoritmi e processori con lo scopo
di migliorare la ricerca.
Lo scopo di questo lavoro quello di introdurre gli automi cellulari (AC) come modello per
studiare la struttura del DNA, la sua funzione e l'evoluzione. E' stato sviluppato un
simulatore con una interfaccia user-friendly di ingresso. Questo simulatore pu essere
utilizzato per lo studio dell'evoluzione del DNA. CA, originariamente sviluppato da John
von Neumann come modelli per riprodurre dei sistemi , sono stati ampiamente utilizzati per
modellare e simulare sistemi fisici e processi. Inoltre, CA sono stati utilizzati con successo
nella modellazione e simulazione di sistemi ambientali e biologici, come ad esempio la
diffusione di un incendio nelle foreste, il movimento e diffusione della marea nera, l'effetto
serra su insetti e distribuzione geografica e popolazione dinamica di alcuni microrganismi,
effetti del movimento di una popolazione e effetti della vaccinazione sulla propagazione
dell'epidemia, l'invasione e la crescita tumorale e le dinamiche diell' evoluzione dell'infezione
da HIV. CA sono stati utilizzati anche come simulatori delle prestazioni del sistema
immunitario.
Il presente documento organizzato come segue: Tutto il background necessario sugli AC
dato nella sezione 2. Nella sezione 3 il DNA modellato come un CA unidimensionale , e
nella sezione 4 questo modello viene utilizzato per simulare l'evoluzione del DNA. Nella
sezione 5, descritta l'interfaccia grafica e sono presentati alcuni esempi del suo uso. Le
conclusioni sono presentate nella sezione 6.
16
expected
to be[69].
developed
soon. CAs have been successfully used in modeling and simulations of
and processes
Furthermore
The aim of this
is to introduce
(CAs)
as a model
Environmental
andwork
Biological
systems,cellular
such asautomata
forest !re
spreading
[10], for
oil DNA
slick structure,
movementfuncand
tion
and
evolution.
A
simulator
with
a
user-friendly
input
interface
was
developed.
This
simulator
can
spreading [11], greenhouse e"ect on insect and microorganism geographical distribution and populabe
used
for
the
study
of
DNA
evolution.
CAs,
originally
developed
by
John
von
Neumann
as
models
tion dynamics [12], e"ects of population movement and vaccination on epidemic propagation [13],
of
self-reproducing
[5], haveand
been
extensively
used
to model
systems
tumor
invasion and systems
growth [14,15],
dynamics
of the
evolution
of and
HIVsimulate
infectionphysical
[16]. CAs
have
and
Furthermore
CAs
have been
in [17,18].
modeling and simulations of
also processes
been used[69].
as high
performance
simulators
of successfully
the immune used
system
Environmental
Biological
systems,All
such
forest !re
spreading in
[10],
This paper isand
organized
as follows:
theasnecessary
background
CAsoilisslick
givenmovement
in Sectionand
2.
2.2.3
Automi
cellulari
spreading
[11],
greenhouse
e"ect
on
insect
and
microorganism
geographical
distribution
and
populaIn Section 3, DNA is modeled as a one-dimensional CA, and in Section 4 this model is used to
tion
dynamics
e"ectsInofSection
population
epidemic
[13],
simulate
DNA [12],
evolution.
5, themovement
graphical and
user vaccination
interface is on
described
andpropagation
some examples
CA
sono
stati
originariamente
introdotti
da
von
Neumann
e
Ulam
come
una
possibile
tumor
invasion
and
growth
[14,15],
and
dynamics
of
the
evolution
of
HIV
infection
[16].
CAs
have
of its use are presented. The conclusions of this work are presented in Section 6.
also been
used as high
performance
simulators
the immune
system
[17,18]. modelli biologici. Da
idealizzazione
di sistemi
biologici,
con loofscopo
specifico
di riprodurre
This
paper
is organized
follows: Allpi
thevolte
necessary
background
CAs "spazi
is given
in Section
2.
allora
i CA
sono statiasreinventati
con nomi
diversi,income
cellulari",
"automi
2. Cellular
automata
In
Section
3,
DNA
is
modeled
as
a
one-dimensional
CA,
and
in
Section
4
this
model
is
used
to
tessellation", "strutture cellulari," e "iterative array". Nel corso degli ultimi due decenni i CA
simulate
In Section
5, the
graphical
user interface
is described
some examples
sonoDNA
statievolution.
ampiamente
utilizzati
come
idealizzazioni
matematiche
perandsistemi
fisici in cui
were
by von of
Neumann
[5]are
andpresented
Ulam [19]
a possible
idealization of
of CAs
its use
areoriginally
presented.introduced
The conclusions
this work
in as
Section
6.
spaziosystems,
e tempo
sono
interazioni
sono quantit
locali
e fisiche che assumono
biological
with
the discreti,
particularlepurpose
of modeling
biological
self-reproduction.
Since then un
di valori
discreti.
DNA
sar modellato
documento
come un CA
CAs insieme
have beenfinito
reinvented
several
timesIlunder
various
names suchinasquesto
cellular
spaces, tessellation
2.
Cellular
automata
unidimensionale
e
pertanto,
solo
i
CA
unidimensionali
saranno
presentati
in
questa
sezione.
automata, cellular structures, cellular spaces and iterative arrays [8]. During the last
two
decades
CAs unidimensionale
have been extensively
used as mathematical
idealizations
physical systems
in which
Il CA
costituito
da un reticolo
uniformeof regolare,
che pu
essere di
CAs
weretime
originally
introduced
by von
Neumann
[5]tridimensionale.
and
Ulam quantities
[19] as
a take
possible
space
and
are discrete,
are
local
physical
!nite reticolo
set of
infinite
dimensioni
e si interactions
espande
in uno
spazioand
Ogni
sitoondi aidealization
questo
biological
systems,
with
the
particular
purpose
of
modeling
biological
self-reproduction.
Since
then
discrete
values.
DNA
will
be
modeled
in
this
paper
as
a
one-dimensional
CA
and,
therefore,
chiamato cella. Ogni cella variabile assume valori da un insieme discreto. Il valore dionly
questa
CAs
have been reinvented
several
times in
under
various
names such as cellular spaces, tessellation
one-dimensional
CAs
will
be
presented
this
section.
variabile lo stato della cella. Fig. 1a mostra un CA unidimensionale. Il reticolo CA
automata,
cellular
structures,
spaces
andand
iterative
arrays
[8].
the
last two
A one-dimensional
CA consists
a regular
uniform
lattice,
which
may
beDuring
in size
and
G.Ch. Sirakoulis
et al.cellular
/ of
Computers
in Biology
Medicine
33 (2003)
439
in!nite
453
441
costituito
da
cellule
identiche,
,
i-3,
i-2,
i-1,
i,
i+1,
i+2,
i+3;,
e
gli
stati
corrispondenti
decades
CAs
have
been
extensively
used
as
mathematical
idealizations
of
physical
systems
in
which di
expands in a one-dimensional space. Each site of this lattice is called cell. At each cell a variable
cellule
Ci-3,
Ci-2,value
Ci-1,
Civariable
+1,
Ci+2
e Ci+3.
space
and time
are
discrete,
interactions
are
local
andand
physical
quantities
take
on
!niteshows
set441
ofa
takesqueste
values
from
a sono
discrete
set.
ofCi,
this
is the
state
of the439
cell.
Fig.a 1(a)
G.Ch.
Sirakoulis
et The
al. / Computers
in
Biology
Medicine
33 (2003)
453
discrete
values. DNA
willCA
be lattice
modeled
in this
as cells,
a one-dimensional
CA and,
therefore,
one-dimensional
CA. The
consists
of paper
identical
: : : ; i3; i2; i1;
i; i+1;
i+2; i+3;only
: : :,
one-dimensional
CAscella
will
be of
presented
in this
section.
Lo corresponding
stato della
iTh
assume
valori
daC
un
insieme
discreto:
and
the
states
these cells
are
; Ci2 ; Ci1 ; C
i3predefinito
i ; Ci+1 ; C
i+2 and Ci+3 .
A
of a from
regular
uniform lattice,
which
Theone-dimensional
state of the ith CA
cell consists
takes values
a prede!ned
discrete
set: may be in!nite in size and
expands in a one-dimensional space. Each site of this lattice is called cell. At each cell a variable
Ci {c1 ; c2 ; c3 ; : : : ; cn };
(1)
takes values
from a discrete set. The value of this variable is the state of the cell. Fig. 1(a) shows a
where c1 ; c2 ; c3 ; : :CA.
: ; cn The
are CA
the lattice
elements
of the
This cells,
set may
a i2;
set of
integers,
a seti+3;
of real
one-dimensional
consists
of set.
identical
: : : ; be
i3;
i1;
i; i+1; i+2;
: : :,
numbers,
a C1,
set ofC2,
atoms,
a ...
setofCn
ofthese
molecules,
or Ceven
aidell'insieme.
set
setCcontains
the un
dove
C3;
sono
gliare
elementi
insieme
essere
and
the
corresponding
states
cells
; Ci ; Ci+1Questo
; CIfi+2the
and
i 3 ; C
2 ; Cof
i1properties.
i+3 . puonly
two
binary
numbers,
i.e.
C
{0;
1},
the
CA
is
called
elementary.
i
The
state
of
the
ith
cell
takes
values
from
a
prede!ned
discrete
set:
insieme di numeri interi, un insieme di numeri reali, un insieme di atomi, un insieme di
Themolecole,
CA is a dynamic
whichdievolves
in time.
The CA evolves
discrete
time
steps and
o anche system,
un insieme
propriet.
Se l'insieme
contienein solo
i due
numeri
binari,
Ci {c1is; cmanifested
(1)
2 ; c3 ; : : : ; cn };
its evolution
by the change of its cell states with time. The state of each cell is a"ected
cio
Ci
{0,
1},
l'
CA
si
chiama
elementare.
where
: : ; cneighboring
of the
the cells
set. This
set may
a setofofthe
integers,
set ith
of real
by the cstates
cells. All
that a"ect
the be
change
state ofa the
cell
3 ; : its
n are the elements
1 ; c2 ; cof
Il CA
unofsistema
cheneighborhood
si evolve
nelaistempo.
IlasCA
si evolve
discreti
la sua
numbers,
a set
atoms,
adinamico,
setcell.
of molecules,
or even
set
of properties.
If the in
setpassi
contains
onlyethe
are the
neighborhood
of this
The
de!ned
follows:
evoluzione
si manifesta
con1},
il cambiamento
deielementary.
suoi stati cellulari nel tempo. Lo stato di ogni
two binary
numbers,
i.e. C {0;
the CA is called
N (i; r) = {Cir ; : : : ; Cii3 ; Ci2 ; Ci1 ; Ci ; Ci+1 ; Ci+2 ; Ci+3 ; : : : ; Ci+r }; r = 0; 1; 2; 3; : : : ; m;
(2)
dagli which
stati delle
celle The
vicine.
Tutte lein celle
chetime
influenzano
Thecella
CA is influenzato
a dynamic system,
evolvessue
in time.
CA evolves
discrete
steps and il
its evolution
is manifested
by della
the change
cell states
with time.diThe
statecella.
of each
is a"ected
cambiamento
di stato
cella of
iThitssono
lnell'intorno
questa
Lacell
zona
definita
by the
states
of
its
neighboring
cells.
All
the
cells
that
a"ect
the
change
of
the
state
of
the
ith
cell
come segue:
are the neighborhood of this cell. The neighborhood is de!ned as follows:
N (i; r) = {Cir ; : : : ; Ci3 ; Ci2 ; Ci1 ; Ci ; Ci+1 ; Ci+2 ; Ci+3 ; : : : ; Ci+r }; r = 0; 1; 2; 3; : : : ; m;
Fig. 1. (a) A one-dimensional CA, (b) the evolution of a one-dimensional CA.
(2)
dove r la dimensione
della zona. Se
= 1,
il caso
pi usuale dove
Fig. 1. (a) A one-dimensional
CA,r(b)
theche
evolution
of a one-dimensional
CA. l'intorno della cella
whereiTh
r isconsiste
the size nella
of thecella
neighborhood.
If rintorno
=1, which
is thee most
usual case then the neighborhood
stessa e suoi
sinistro
destro:
of the ith cell consists of the same cell and its left and right immediate neighbors:
where r is the size of the neighborhood. If r =1, which is the most usual case then the neighborhood
(i; 1)
{Ci1 ; Cof
(3)
i ; Cthe
i+1 }:
of theNith
cell=consists
same cell and its left and right immediate neighbors:
The state of the ith cell at time step t + 1 is a!ected by the states of its neighbors at the previous
N (i; 1) = {Ci1 ; Ci ; Ci+1 }:
(3)
Lo
stato
cella of
iTh
tempo
t +a 1time
passo
influenzato
stato
deiofsuoi
nel
time step
t, i.e.della
the state
thealith
cell at
step
is a functiondallo
of the
states
its intorni
neighbors
attime
statet of
thestep:
ith cell at
t +cella
1 is a!ected
the step
states ofinitsfunzione
neighborsdegli
at thestati
previous
theThe
previous
time
step
precedente,
lo time
statostep
della
iTh al by
time
dei suoi
time intorno
step
t, i.e.
the
state
the tith cell
at ta time
step
ist a function
of the states of its neighbors at
al time
stepoftprecedente:
t
t
t
t
t
Cit+1 = time
F(C
(4)
r ; : : : ; Ci3 ; Ci2 ; Ci1 ; Ci ; Ci+1 ; Ci+2 ; Ci+3 ; : : : ; Ci+r ):
i
the previous
step:
This function
is the
index
symbol denotes the time step.
t CA evolution
t
t rule.
t The
t upper
t
t
t in the state
t
C t+1 = F(C
(4)
ir ; : : : ; Ci3 ; Ci2 ; Ci1 ; Ci ; Ci+1 ; Ci+2 ; Ci+3 ; : : : ; Ci+r ):
Cit+1 is ithe state of
the ith cell at time step t + 1. If r = 1, Eq. (4) becomes
This function
is the
CA evolution
rule. The upper index in the state symbol denotes the time step.
t
t
Cit+1
F(C
; Cit ;ith
Ci+1
):
(5)
i1 the
Cit+1 Questa
is
the=state
of
at time
step t + 1. degli
If r =CA.
1, Eq.
(4) becomes
funzione
lacell
regola
d'evoluzione
L'indice
superiore nello stato simbolo
timet step.
Ct ti+1 1 of
lo stato
della cella iThCA.
al time
t+1. Seaxis
r = is
1, Eq.
diventa
Fig.indica
the t evolution
a one-dimensional
The step
horizontal
space(4)and
the
t+1 il
C1(b)
=shows
F(C
(5)
i
i1 ; Ci ; Ci+1 ):
vertical axis is time. Each row represents the CA at each time step and each column represents the
Fig.of 1(b)
showscell
theatevolution
of asteps.
one-dimensional CA. The horizontal axis is space and the
state
the same
various time
state of the same cell at various time steps.
17
3. Cellular automaton model of DNA
3. ACellular
automaton
model ofisDNA
schematic
DNA structure
shown in Fig. 2(a). DNA can be modeled as a one-dimensional
time step t, i.e. the state of the ith cell at a time step is a function of the states of its neighbors at
the previous time step:
t
t
t
t
Cit+1 = F(Citr ; : : : ; Cit3 ; Cit2 ; Cit1 ; Cit ; Ci+1
; Ci+2
; Ci+3
; : : : ; Ci+r
):
(4)
t
Cit+1 = F(Cit1 ; Cit ; Ci+1
):
(5)
This function is the CA evolution rule. The upper index in the state symbol denotes the time step.
Cit+1 is the state of the ith cell at time step t + 1. If r = 1, Eq. (4) becomes
Fig. 1(b) shows the evolution of a one-dimensional CA. The horizontal axis is space and the
vertical
axis
is time.
Each
row represents
the unidimensionale
CA at each time step
eachorizzontale
column represents
the lo
Fig.
1 (b)
mostra
l'evoluzione
di una
CA.and
L'asse
rappresenta
state of
the same
cellverticale
at variousrappresenta
time steps. il tempo. Ogni riga rappresenta il CA ad ogni passo e
spazio
e l'asse
ciascuna colonna rappresenta

lo stato della cella stessa in intervalli temporali diversi.
G.Ch. Sirakoulis et al. / Computers in Biology and Medicine 33 (2003) 439 453
441
A schematic DNA structure is shown in Fig. 2(a). DNA can be modeled as a one-dimensional
CA. In this model, the phosphate chain corresponds to the CA lattice and the deoxyribose sugars to
the CA cells. At each sugar molecule one of the four bases A, C, T and G may bind. These four
Fig. 1. (a) A one-dimensional CA, (b) the evolution of a one-dimensional CA.
where r is the size of the neighborhood. If r =1, which is the most usual case then the neighborhood
of the ith cell consists of the same cell and its left and right immediate neighbors:
2.2.4 Simulazione
sequenze di DNA
N (i; 1) = {Ci1 ; Ci ;delle
Ci+1 }:
(3)
The state of the ith cell at time step t + 1 is a!ected by the states of its neighbors at the previous
442
time step t, i.e. the state of the ith cell at a time step is a function of the states of its neighbors at
Una struttura
schematica del DNA mostrata in Fig. 2 (a). Il DNA pu essere modellato
the previous time step:
come unautoma
unidimensionale. In questo
t
t modello,
t
t la catena fosfato corrisponde al
Cit+1 = F(Citr ; : : : ; Cit3 ; Cit2 ; Cit1 ; Cit ; Ci+1
; Ci+2
; Ci+3
; : : : ; Ci+r
):
(4)
reticolo dell'automa
e
gli
zuccheri
desossiribosio
alle
celle
dell'automa
cellulare.
Ad ogni
This function is the CA evolution rule. The upper index in the state symbol denotes the time step.
molecola diCit+1
zucchero
A,becomes
C, G e T. Queste quattro basi
is the statepu
of thelegarsi
ith cell atuna
time delle
step t +quattro
1. If r = 1,basi
Eq. (4)
G.Ch. ai
Sirakoulis
al.t / Computers
Biology
andCA.
Medicine
(2003)
439 453
t
corrispondono
quattro
possibili
statiindella
cella
Fig. 33
2 (b)
mostra
il CA che
Cit+1
= F(Citet
(5) modella la
1 ; Ci ; Ci+1 ):
struttura
di
DNA
mostrata
in
Fig.
2
(a).
Fig.
1(b) Sirakoulis
shows the evolution
of a one-dimensional
horizontal
axis is space
and the
442
G.Ch.
et al. / Computers
in Biology CA.
and The
Medicine
33 (2003)
439 453
state of the same cell at various time steps.
A schematic DNA structure is shown in Fig. 2(a). DNA can be modeled as a one-dimensional
CA. In this model, the phosphate chain corresponds to the CA lattice and the deoxyribose sugars to
the CA cells. At each sugar molecule one of the four bases A, C, T and G may bind. These four
Fig. 2. (a) A schematic DNA structure, (b) the CA that models the DNA structure.
Fig. 2. (a) A schematic DNA structure, (b) the CA that models the DNA structure.
bases correspond to the four possible states of the CA cell. Fig. 2(b) shows the CA that models the
DNALo
structure della
shown in Fig.
2(a).questo CA assume valori dal gruppo discreto che comprende le
iTh
basesstato
correspondcella
to the
fourdipossible
states of the CA cell. Fig. 2(b) shows the CA that models the
The state of the ith cell of this CA takes values from the discrete set that comprises the four
DNA
structure
quattro
basi: shown in Fig. 2(a).
bases:
The state of the ith cell of this CA takes values from the discrete set that comprises the four
bases:
Ci {A; C; T; G}:
(6)
Ci {A;reproduction,
C; T; G}:
In non-sexual
the DNA molecule is passed from an individual to its o!spring, (6)
whereas in sexual reproduction, the DNA of the o!spring consists of parts of the parental DNA. We
In non-sexual reproduction, the DNA molecule is passed from an individual to its o!spring,
de"ne as an evolution event a change in state, which may occur in one or more CA cells. Therefore,
whereas in sexual reproduction, the DNA of the o!spring consists of parts of the parental DNA. We
mutation is an evolution event and it corresponds to cell state changes. In the case of non-sexual
de"ne
as an evolution event a change in state, which may occur in one or more CA cells. Therefore,

reproduction,
if a DNA strand is passed unaltered from one generation to the other, then no state 18
mutation is an evolution event and it corresponds to cell state changes. In the case of non-sexual
change occurs, and the CA does not evolve. The CA evolves if a change in one of its cells occurs,
reproduction, if a DNA strand is passed unaltered from one generation to the other, then no state
eitherchange
duringoccurs,
the reproduction
process or during the life of the individual carrying the DNA.
and the CA does not evolve. The CA evolves if a change in one of its cells occurs,
Durante la riproduzione non sessuale, la molecola di DNA passa da un individuo ai suoi

discendenti, mentre nella riproduzione sessuale, il DNA della prole consiste in varie parti del
DNA parentale. Definiamo come evento evolutivo un cambiamento di stato, che pu
verificarsi in una o pi celle del CA. Pertanto, la mutazione un evento evoluzionistico che
corrisponde alle variazioni di stato delle celle. In caso di riproduzione non sessuale, se un
filamento di DNA viene passato inalterato da una generazione all'altra, allora non ci sar
alcun cambiamento di stato, e il CA non si evolve. Il CA evolve se si verifica un
cambiamento in una delle sue celle, sia durante il processo riproduttivo che durante la vita del
soggetto portatore del DNA.
Il time step del CA in evoluzione l'intervallo di tempo tra due alterazioni cellulari del CA,
quindi il flusso di tempo non uniforme. Si consideri per esempio una specie che si
riproduce non sessualmente e la vita media dei suoi individui di 1 anno. Supponiamo che
un cambio di stato della cella CA (mutazione del DNA) si verifichi ora, la prossima si
verificher in 10 anni, la prossima in 3 anni e la prossima in 6 mesi. Il primo time step
rappresenta 10 anni di tempo reale, il secondo 3 anni e il terzo 6 mesi. Ma, nel modello CA
tutti i passi temporali sono equivalenti, cio la differenza in tempo reale tra la prima, la
seconda e la terza fase non diventano evidenti. Un risultato del modello di DNA come CA
che il filamento di DNA e gli individui che passano da una generazione all'altra possono
esistere in diverse scale temporali e, pertanto, l'evoluzione del DNA come tempo separato
dalla vita degli individui.
La domanda principale che sorge quando si cerca di creare un modello del DNA se le
mutazioni siano del tutto casuali o meno. Come spiegato sopra le mutazioni del DNA sono
rappresentati da cambiamenti del stato delle celle di CA. Se le mutazioni sono del tutto
casuali, allora per i CA che sono modelli di calcolo deterministici, non possibile simulare
l'evoluzione del DNA. In questo caso i metodi probabilistici, come catene di Markov
possono essere pi appropriati. Anche se la risposta a questa domanda non ben nota, ci
sono alcune indicazioni che evidenziano come le mutazioni e di conseguenza l'evoluzione del
DNA non sia del tutto casuale. L'evoluzione degli esseri viventi complessi in un periodo di
tempo relativamente molto breve rispetto alla nascita della terra un'indicazione che
l'evoluzione
non
completamente
casuale,
maandpu
essere33determinata
da alcune regole
G.Ch.
Sirakoulis
et al. / Computers
in Biology
Medicine
(2003) 439 453
443 di
evoluzione.
proceder
allathecostruzione
del modello
assumendo
che le mutazioni,
ciochanges
cambiamenti
WeSiwill
proceed to
model construction
by assuming
that mutations,
i.e. CA cell
are
delle celle random,
dei CA non
sono completamente
dipendono
stati di near
alcune
not completely
but depend
on the states ofcasuali,
some ma
of the
cells thatdagli
are located
by.delle
Neighbor-dependent
has been
studied using
Markov chains
revealed biases
mutation
cellule che si mutation
trovano nelle
vicinanze.
Supponiamo
che unandcambiamento
di instato
avvenga
rates nella
that depend
on
the
neighboring
bases
[22].
Suppose
that
a
state
change
at
the
ith
cell
occurs,
cella iTh, e viene preso come time step. Nel modello qui presentato si suppone che lo
and astato
time di
step
is taken.
model, apresented
here it is degli
supposed
state
of this
cell hasstato
questa
cellaIn the
cambiata
causa dell'effetto
statithat
deithe
suoi
vicini.
Il nuovo
changed as a result of the e!ect of the states of its neighbors. The new state of the ith cell at this
della cella iTh in questo time step (che generalmente il passo t + 1) data da:
time step (which is generally the t + 1 step) is given by
t
t
t
t
Cit+1 = M (Citr ; : : : ; Cit3 ; Cit2 Cit1 ; Cit ; Ci+1
; Ci+2
; Ci+3
; : : : ; Ci+r
):
(7)
Eq. (7) is a more general expression of the evolution rule given in Eq. (4), where the function F
Eq. replaced
(7) un'espressione
dell'evoluzione
rappresentata
in Eq. (4),
which is della
a moreregola
general
mathematical abstraction.
An operator
has been
by an operator,pi
M , generale
dove
la funzione Ffunction, a logic function, a matrix, etc. The operator operates on the state
may be
a mathematical
of the neighborhood
of the
at time M,
step che
t and
produces the state
of this cell
time step Un
stato sostituito
da ith
un cell
operatore
un'astrazione
matematica
piat generale.
t + 1.operatore pu essere una funzione matematica, una funzione logica, una matrice, ecc
In L'operatore
Eq. (7) cell agisce
states are
one
of the
four
bases
A,cella
C, TiTh
andalG.time
Operators
on numbers
anddella
sullo
stato
della
zona
della
step t eactproduce
lo stato
symbols that represent numbers. Therefore, the four bases must be represented by numbers. Since
cella nel passo tempo t + 1.
there are only four bases, the most appropriate way of representing them by numbers is to correspond
In Eq. (7) Gli Stati cellulari sono una delle quattro basi A, C, T e G. Gli operatori agiscono
each one of them to a respective number of the quaternary number system, which contains only four
su numeri
e simboli
altri with
numeri.
Pertanto,
le quattro basi devono essere
numbers,
i.e. 0, 1,
2 and 3. che
We rappresentano
represent the bases
numbers
as follows:
A 0; C 1; T 2; G 3:
(8)

19
A vast number of evolution rules can be applied to the CA that models DNA. Furthermore,
evolution rules that include base insertion and/or base deletion may be used. Usually, when a new
CA is proposed, the linear evolution rules are the "rst ones to be studied. The study of linear rules
and a time step is taken. In the model, presented here it is supposed that the state of this cell has
Eq. (7)
moreofgeneral
expression
of the of
evolution
rule given
Eq.state
(4), of
where
the cell
function
changed
as isa aresult
the e!ect
of the states
its neighbors.
The in
new
the ith
at thisF
time
step
(which
is
generally
the
t
+
1
step)
is
given
by
has been replaced by an operator, M , which is a more general mathematical abstraction. An operator
may bet+1
a mathematical
function,
a logic
function,
etc. t The operator operates on the state
t
t
t a matrix,
t
= M (Citr ; :of
: : ;the
Cit3ith
; Citcell
Cit ; Cstep
; Ci+3
; : : : ; Ci+r
): state of this cell at time step
(7)
2 Ciat
1 ;time
i+1 ; Cti+2
of theCineighborhood
and
produces
the
t+
1. (7) is a more general expression of the evolution rule given in Eq. (4), where the function F
Eq.
the four
In rappresentate
Eq. (7) cell states numeri.
are one of
bases A,
C,quattro
T and G.
Operators
act pi
on numbers
and
Poich
basi,
il abstraction.
modo
appropriato
, whichciis sono
a moresolo
general
mathematical
An
operator di
has been replaced by da
an operator, M
symbols
that
represent
numbers.
Therefore,
the
four
bases
must
be
represented
by
numbers.
Since
rappresentarle
come
numeri
deve function,
corrispondere
a ciascuno
loro unoperates
rispettivo
numero
may be
a mathematical
function,
a logic
a matrix,
etc. The di
operator
on the
state del
there sistema
are only numerico
four bases, quaternario,
the most appropriate
way of representing
them
by numbers
is
to1,correspond
che
contiene
solo
quattro
numeri,
cio
0,
2
e
3. Noi
of the neighborhood of the ith cell at time step t and produces the state of this cell at time step
each one of them to a respective number of the quaternary number system, which contains only four
t + 1. rappresentiamo le basi con i numeri come segue:
numbers, i.e. 0, 1, 2 and 3. We represent the bases with numbers as follows:
In Eq. (7) cell states are one of the four bases A, C, T and G. Operators act on numbers and
symbols
that0; represent
the four bases must be represented by numbers. Since
A
C 1; T numbers.
2; G Therefore,
3:
(8)
there are only four bases, the most appropriate way of representing them by numbers is to correspond
A one
vastofnumber
evolution number
rules can
to number
the CA system,
that models
Furthermore,
each
them toofa respective
of be
the applied
quaternary
whichDNA.
contains
only four
evolution
rules
that
include
base
insertion
and/or
base
deletion
may
be
used.
Usually,
when ail new
Un
gran
numero
di
regole
d'evoluzione
pu
essere
applicato
ai
CA
che
modellano
DNA.
numbers, i.e. 0, 1, 2 and 3. We represent the bases with numbers as follows:
CA isInoltre,
proposed,
the
linear
evolution
rules
are
the
"rst
ones
to
be
studied.
The
study
of
linear
rules
possono essere utilizzate regole d' evoluzione che comprendono l'inserimento e/o la
reveals
the
dynamics
the
CA
provides un
a very
goodCA,
insight
to the di
structures
created
A
0;
C
TofDi
2; G
evolution
3: quandoand
(8)
delezione
di 1;basi.
solito,
si propone
nuovo
le regole
evoluzione
lineari
by evolution. The use of linear rules is further justi"ed by the fact that a linear algebra has already
sono
le
prime
ad
essere
studiate.
Lo
studio
delle
regole
lineari
rivela
la
dinamica
A vast
number used
of evolution
rules can
be applied
to [23].
the CA that models DNA. Furthermore,
been
successfully
to the analysis
of mutation
rates
dell'evoluzione
del CA
buona
create when
dall'evoluzione.
evolution
rules that include
basee fornisce
insertion una
and/or
base
deletion per
maylebestrutture
used. Usually,
a new
visione
the
case
linear
evolution
rules
the are
operator
of Eq.
is che
a matrix,
M
, andlineare
evolution
M ones
CAInisL'uso
proposed,
the
linear
evolution
rules
the
"rst
to (7)
be
studied.
study
ofthe
linear
di of
regole
lineari
ulteriormente
giustificata
dal
fatto
unThe
algebra
rules
gi stata
rule takes
the
form of the CA evolution and provides a very good insight to the structures created
reveals
the
dynamics
utilizzata
. con successo per l'analisi delle mutazione.

by evolution.
has
.. already
of linear rules is further justi"ed by the fact that a linear algebra
.. The use
: : : to the: : analysis
:
: : :mutation: : :rates [23].
:::
:::
:::
been successfully
.
casodi used
Nel
devoluzione of
lineari
l'operatore
M dell'eq. (7) una matrice,
tM,e la regola
t+1 regole
: : : evolution
C
Mi2; j2rules
C 2
Mi2;Mj ofMEq.
:M
::
2; j
1
i2; j+1
2; j+2
i 2
In the
of linear
the
operator
(7) isMaimatrix,
, and
evoluzione
assume
la forma Mi
theievolution
case
t+1 form
t
rule takes
Cthe
M
M
M
M
:
:
:
C
:
:
:
M
i
1;
j
2
i
1;
j
1
i
1;
j
i
1;
j+1
i
1;
j+2
i 1
i 1
. t
..t+1
.
M: i;: j: 1
M
M
M
:
:
:
C
M: i;: j: 2
: (9)
C.i = : :: :: :
i;
j
i;
j+1
i;
j+2
i
:::
:::
:::
: : : .
t
t+1
Ct+1
: : : Mi+1; j2 Mi+1; j1 Mi+1; j Mi+1; j+1 Mi+1; j+2 : : :
CCiti+1

Ci
i+1
: : : Mi2; j2 Mi2; j1 Mi2; j Mi2; j+1 Mi2; j+2 : : :
2
: : : M
Ct t
t+1
Ct+1
M
M
M
M
:
:
:
j 2 M i+2; j 1 M i+2; j M i+2; j+1 M i+2; j+2 : : :
: : : Mii+2;
Cii+2
Ci
i+2
1; j 2
i1; j 1
i1; j
i1; j+1
i1; j+2
1
1
t+1
.
::
::
Mi;:j:: 1
M: i;: j:
Mi;:j+1
Mi;:j+2
: :: :: : Ci..t : (9)
Ci .. = : :: :: : Mi;:j:: 2

t
t+1 : : : M
Mi+1; jside
Mi+1;
Mi+1;
Mi+1;
:::
Ci+1 matrix
cells at
of allCi+1
i+1; jright-hand
2
1 of
j (9)
j+1
j+2
The
column
at
the
Eq.
is
formed
by
the
states
CA
t+1
time step
t.
Thismatrix
the M
matrix
M
which
represents
The
Mi+2;by
M,i+2;
Mi+2; j+2 the
: : : evolution
: : : Misi+2;multiplied
j 2
j 1
i+2; j
j+1
Ci+2 rule.
Ci+2
..
..
:::
:::
:::
:::
:::
:::
:::
.
.
The column matrix at the right-hand side of Eq. (9) is formed by the states of all CA cells at
La colonna
a destra
(9)by the
formata
stati direpresents
tutte le cellule
CA alrule.
timeThe
step t.
time step
t. This matrix
is dell'eq.
multiplied
matrixdagli
M , which
the evolution
Questa matrice moltiplicato per la matrice M, che rappresenta la regola d'evoluzione. Gli
elementi della matrice di Mi,j pu assumere solo due valori, cio 0 e 1. La colonna a sinistra
444 dell'eq. (9)
G.Ch.
et al. / della
Computers
in Biology and Medicine
33 (2003)
439 e453
Sirakoulis
il risultato
moltiplicazione
della
matrice
contiene gli stati delle celle di
tutti i CA al time step t + 1. Nel caso di una CA con cellule n (filamento di DNA con basi n)
matrix elements Mi; j may take only two values, namely 0 and 1. The column matrix at the left-hand
la Eq.
colonna
della
matrice
avr nmultiplication
righe e la and
matrice
M sar
una ofmatrice
quadrata
con n colonne
side of
(9) is the
result
of the matrix
it contains
the states
all CA cells
at
n righe.
Ogni
matriceare
quadrata
rappresenta
una ofregola
consideri, ad esempio,
time estep
t + 1. All
the additions
modulo 4M
additions.
In the case
a CA dei
with CA.
n cellsSi(DNA
strandun
with
n bases) the
column molto
matrices piccolo
have n rows
the matrix Mt ha
is asette
squarebasi:
matrix
with
filamento
di DNA
che and
al momento
{G,
C, T, G, A, G, T}.
n columns and n rows. Each square matrix M represents a CA rule. Consider, for example, a very
parte
rappresentata
daiseven
numeri
1, G,2,T 3,}. This
0, 3,strand
2}. Supponiamo che
smallQuesta
DNA strand
which
at present time t has
bases:seguenti:
{ G, C, T, {3,
G, A,
questo filamento
di DNA
si evolve
la regolathatseguente
is represented
by the following
numbers:
{3; 1; 2;secondo
3; 0; 3; 2}. Suppose
this DNAd'evoluzione:
strand evolves
according to the
M =0
following evolution rule:
0 0 0 0 0 0
1 0 0 0 0 0
0 1 0 0 0 0
0 1 1 1 0 0:
0 0 0 1 0 0
0 0 0 0 1 0
The CA state at the next time

3
1 0 0 0

1 0 1 0 0

2 0 0 1 0

2=0 0 1 1
(10)
step is calculated using Eq. (9) as follows:

0 0 0
3

0 0 0 1

0 0 0 2

1 0 0 3:
20
(11)
01 00 10 00 00 00 00
0
0
1
1
1
0
0
M =
:
(10)
0 1 0 0 0 0 0
0 0 0 0 1 0 0
0 0 1 0 0 0 0
M =00 00 01 01 01 10 00 :
(10)
00 00 00 00 01 00 10
Lo stato
di CA al passo successivo
calcolato utilizzando l'Eq. (9) come segue:
The CA state
using Eq. (9) as follows:
0 the
0 next
0 0time0 step
1 is0calculated
at

3
3
0 10 00 00 00 00 01 0

1
0 1 0 0 0 0 0 1 using Eq. (9) as follows:
The CA
state

at the next time step is calculated

23 01 00 10 00 00 00 00 23

(11)
21= 00 01 10 10 10 00 00
31:

0 0 0 0 0 1 0 0
2 0 0 1 0 0 0 0 02

3 0 0 0 0 0 1 0

2 = 0 0 1 1 1 0 0 33 :
(11)

20 00 00 00 00 01 00 10 20

4.The
It is reminded
that
the
additions
are
modulo
3
0
0
0
0
0
1
0

3 CA state at time t + 1 is {3, 1, 2, 2, 0, 3, 2}
Si DNA
ricorda
che at
le aggiunte
sono
di CA
al tempo
t + changed
1 {3, 1,from
2, 2,G0,to3, 2}
and the
strand
this time is
{G,modulo
C, T, T,4.A,LoG,stato
T}. The
fourth
base has
2
0 0 0 0 0 0 1
2
T. Consider
another
evolution
rule
applied
to
the
same
DNA
strand,
given
by
the
matrix:
e il filamento di DNA in questo momento {G, C, T, T, A, G, T}. La quarta base stato
that
un'altra
It is modificato
reminded
4. The
CA d'evoluzione
state at time applicata
t + 1 is {3,
2, 2, 0, di
3, DNA
2}
T.0Si consideri
regola
al 1,
filamento
1 0da the
0G a0additions
0 are
0 modulo
and the
DNA
strand
at
this
time
is
{G,
C,
T,
T,
A,
G,
T}.
The
fourth
base
has
changed
from
G
to
stesso,
data dalla matrice:
0
1
0
0
0
0
0
T. Consider
to the same DNA strand, given by the matrix:
another evolution rule applied
01 10 10 00 00 00 00
0
0
0
1
0
0
0
M = 0 1 0 0 0 0 0
:
(12)
0 0 0 0 1 0 1
0 1 1 0 0 0 0
0 0 0 0 0 1 0
M = 0 0 0 1 0 0 0 :
(12)
00 00 00 00 01 00 11
0 0 0 0 0 1 0
In questo caso lo stato CA al tempo t +1 {3, 1, 3, 3, 2, 3, 2} e il filamento di DNA in

questo momento {G, C, G, G, T, G, T}. La terza base passa da T a G e la quinta da A a
T. Come menzionato prima di ogni differente matrice M corrisponde ad una regola
d'evoluzione differente.
In un CA elementare, dato un modello di evoluzione pu essere determinata la regola
d'evoluzione che stata generata. In questo caso se viene fornita l'evoluzione del filamento
di DNA in varie fasi temporali, sar possibile determinare la regola di evoluzione (o regole)
che hanno generato l'evoluzione. Dopo di che, poich la regola d'evoluzione e il filamento di
DNA sono noti, pu essere possibile prevedere l'evento successivo d'evoluzione del il
filamento di DNA al passo successivo.
2.2.5 Simulazione della sequenza di DNA utilizzando il

modello proposto
Il modello sviluppato nel paragrafo precedente sar ora utilizzato per simulare l'evoluzione di
sequenze di DNA. La maggior parte degli studi su modelli matematici di DNA sono limitati
ai primi intorni d'interazione. Per questo motivo, abbiamo scelto di utilizzare per le nostre
simulazioni una regola di evoluzione che incorpora solo pi vicino intorno d'interazione, ed
dato dalla seguente matrice:

21
the DNA strand at present time are known, it may be possible to predict the next evolution event
(or events) and, therefore, the DNA strand at the next time step.
4. Simulation of DNA sequence evolution using the proposed model

The model developed in the previous section will now be used to simulate the evolution of DNA
sequences. Most of the studies on mathematical models of DNA are limited to nearest-neighbor
interaction [26]. Because of that, we have chosen to use in our simulations an evolution rule that
incorporates only nearest-neighbor interaction, and it is given by the following matrix:
::: ::: ::: ::: ::: ::: :::

::: 1
1
0
0
0 :::
::: 1
1
1
0
0 :::
1
1
1
0 ::::
(13)
M = ::: 0
::: 0
0
1
1
1
:
:
:
::: 0
0
0
1
1 :::
:::
:::
:::
:::
:::
:::
:::
All the elements in a matrix row are zero, except the three neighboring elements that are equal to
one. If this matrix is multiplied by the column matrix formed by the states of all CA cells, at time
step t, the state of the ith element at time step t + 1 will be the modulo 4 addition of its own state
and the states of its left and right neighbors (cells i 1 and i + 1, respectively), at time step t.
Fig. 3(a) shows the simulated evolution of a DNA sequence. The simulation starts with a random
sequence of a DNA strand with 30 bases and produces the strands for 30 successive time steps.
Base A is shown in white, C in light gray, T in dark gray and G in black. Fig. 3(b) shows the
number of cells with the same DNA base at various time steps.
Fig. 4(a) shows the simulated evolution of a periodic DNA sequence of 30 bases for 30 time
steps. The initial sequence comprises repetitions of the triplet CCT. Fig. 4(b) shows the number of
cells
DNA
base atetvarious
time steps.
446with the same
G.Ch.
Sirakoulis
al. / Computers
in Biology and Medicine 33 (2003) 439 453
Fig. 5(a) shows the simulated evolution of a random DNA sequence of 30 bases for 30 time
Initial Statewhereas the rest remains unaltered. Fig.
steps. In this case, only a part of the sequence changes,
5(b) shows the number of cells with the same DNA base at various time steps.
These simulations show that the evolution data visualization is straightforward, and the evolution
5
patterns can be easily studied
and interpreted. The simulator presented in this section is available
from http://www.ulyssestech.com.
Tutti gli elementi di una riga della matrice sono zero, tranne i tre elementi degli intorno che
sono uguali a uno. Se questa matrice moltiplicata per la matrice colonna formata dagli stati
di tutte le celle di CA, al time step t, lo stato dell'elemento iTh al time step t + 1 sar
l'addizione del modulo 4 del proprio stato e gli stati dei suoi intorno di destra e di sinistra (le
cellule i - 1 e i + 1, rispettivamente), al time step t.
Time Steps
10
15
20
25
30
(a)
10
15
20
25
30
Number of DNA Bases (A,C,T,G)
30
T
C
A
G
25
20
15
10
0
(b)
10
15
Time Steps
20
25
30
Fig. 3. (a) Simulated evolution of a random DNA sequence, (b) the number of cells with the same DNA base at various
time steps. (A: white, C: dark gray, T: light gray and G: black).
Fig. 3 (a) mostra l'evoluzione simulata di una sequenza di DNA. La simulazione inizia con
una sequenza casuale di un filamento di DNA con 30 basi e produce le righe per 30 fasi
temporali successive. Base A mostrata in bianco, C grigio chiaro, T grigio scuro e G in
nero. Fig. 3 (b) mostra il numero di celle con la stessa base nel DNA ad intervalli temporali
diversi.
22
447
Initial State
Time Steps
10
15
20
25
30
5
(a)
10
15
20
25
30
30
T
C
A
G
25
20
15
10
0
5
(b)
10
15
Time Steps
20
25
30
Fig. 4. (a) Simulated evolution of a periodic DNA sequence, (b) the number of cells with the same DNA base at various
time steps. (A: white, C: dark gray, T: light gray and G: black).
Fig. 4 (a) mostra l'evoluzione simulata di una sequenza di DNA periodica di 30 basi per 30
time step. La sequenza iniziale comprende ripetizioni della tripletta CCT. Fig. 4 (b) mostra
il numero di celle con la stessa base in intervalli temporali diversi.
23
448
Initial State
Time Steps
10
15
20
25
30
5
10
15
20
25
30
(a)
30
T
C
A
G
25
20
15
10
0
(b)
10
15
20
25
30
Time Steps
Fig. 5. (a) Simulated evolution of a random DNA sequence. In this case only a part of the sequence changes, (b) the
number of cells with the same DNA base at various time steps. (A: white, C: dark gray, T: light gray and G: black).
Fig. 5 (a) mostra l'evoluzione simulata di una sequenza di DNA casuale di 30 basi per 30
time step. In questo caso, solo una parte di sequenza cambier, mentre il resto rimane
inalterato. Fig. 5 (b) mostra il numero di celle con la stessa base in intervalli temporali
diversi.
Le simulazioni mostrano che l' evoluzione della visualizzazione dei dati semplice, e gli
schemi d'evoluzione possono essere facilmente studiati e interpretati. Il simulatore presentato
in questa sezione disponibile http://www.ulyssestech.com.
24
2.2.6 L'interfaccia grafica del simulatore

Il simulatore pu
utilizzato
come strumento
informatico
lo studio
G.Ch.essere
Sirakoulis
et al. / Computers
in Biology and
Medicine 33per
(2003)
439 453dell'evoluzione
449
del DNA. Nessuna conoscenza precedente di CA o di programmazione di computer
per utilizzare
il simulatore,
a causa della semplice interfaccia utente grafica
5.essenziale
The graphical
user interface
of the simulator
sviluppata.
The simulator
can be
used as mostrata
a computer
for Nel
the campo
study of"sequenza
DNA evolution.
No iniziale"
previous
L'interfaccia
utente
grafica
in tool
fig. 6.
di DNA
knowledge
of
CAs
or
computer
programming
is
necessary
to
use
the
simulator,
because
the
l'utente inserisce la sequenza iniziale. Facendo clic sul pulsante di opzione accantoofalla
user-friendly graphical user interface that was developed.
"Sequenza di default DNA 1", una sequenza di DNA precedentemente definita viene
The graphical user interface is shown in Fig. 6. In the !eld Initial DNA sequence the user inserts
utilizzata
come inizio. Ci sono tre sequenze predefinite iniziali che vengono utilizzate per
the sequence which will be used as initial. By clicking on the radio button beside the Default DNA
familiarizzare
l'utente con
l'interfaccia.
Facendo
clicassul
pulsante
accantoinitial
alla
sequence
1, a previously
de!ned
DNA sequence
is used
initial.
There di
are opzione
three prede!ned
"sequenza
di
DNA
Random",
una
sequenza
di
DNA
generato
casualmente
viene
utilizzato
sequences that are used in order to familiarize the user with the interface. By clicking on the radio
come beside
iniziale.
generatore
numeri casuali
che generated
stato incorporato
nel simulatore
button
theUn
Random
DNAdisequence,
a randomly
DNA sequence
is used asgenera
initial.
Ala random
number
generator thatuna
hasdiversa
been incorporated
into generata
the simulator
sequence.
sequenza.
Di conseguenza,
sequenza viene
ognigenerates
volta chethe
si seleziona
Therefore,
a di"erent
sequence
generatedleeach
this radio
button facendo
is selected.
can enter
quest' opzione.
L'utente
puis inserire
sue time
sequenze
di DNA
clicThe
suluser
pulsante
di
his/hers
own
DNA
sequences
by
clicking
on
the
radio
button
beside
the
Manual
DNA
sequence.
opzione accanto alla "sequenza di DNA Manuale". Dopo pu inserire la sequenza nel campo
After
can enter
sequencediinto
the Manual".
blank !eldL'utente
on the right
side of
DNA
vuotothat
sul he/she
lato destro
dellathe
"sequenza
DNA
inserisce
unaManual
sequenza
di
sequence. The user enters a sequence of the capital letters A, C, G and T.
lettere maiuscole A, C, G e T.
The number of evolution time steps is entered in the !eld Set Maximum time of DNA evolution.
Il numero di passi temporali d'evoluzione inserito nel campo "Imposta il tempo massimo di
The user can use the default number of time steps, which is 30, or enter another number by clicking
evoluzione
DNA".
il numero
di passi
che
on
the radio del
button
Set L'utente
at. After pu
that utilizzare
the number
is enteredpredefinito
into the blank
!eld temporali,
on the right.
30, o immettere un altro numero, fare clic sul pulsante di opzione "Set a." Dopo che il
numero viene immesso nel campo vuoto a destra.
Fig. 6. The graphical user interface of the simulator.
Le dimensioni (numero di basi) della sequenza di DNA vengono inserite nel campo "DNA
Seq. Dimensione ". L'utente pu utilizzare la dimensione di default, che 30, o immettere
un formato facendo clic sul pulsante di opzione "Set a". Dopo che il numero viene immesso

25
nel campo vuoto a destra.

La dimensione della cella dell'intorno CA inserita nel campo "Size Set Neighborhood".
L'utente pu utilizzare la dimensione di default, che 3, o inserire dimensioni facendo clic
sul pulsante opzione "Set a".
L'utente pu impostare le condizioni periodiche o zero facendo clic sul pulsante di opzione
corrispondente nelle "condizioni al contorno". Alcune propriet statistiche, come il numero
di basi in ogni fase dell'evoluzione, vengono visualizzati se l'utente fa clic sul pulsante di
controllo "N delle basi" in "statistica basi DNA".
Dopo aver impostato tutti i parametri di simulazione, il simulatore viene attivato facendo clic
sul pulsante "Start" in alto a destra dell'interfaccia.
450
(a)
70
T
C
A
G
60
50
40
30
20
10
0
(b)
10
20
30
40
50
60
70
Time Steps
Fig. 7. Results produced by the simulator, (a) the evolution pattern, (b) number of bases at various evolution steps.
Fig. 7(a) mostra i risultati ottenuti dal simulatore. La sequenza iniziale era casuale, le fasi di
evoluzione e di tempo sono state fissate a 70. La dimensione della sequenza di DNA e la
dimensione della zona sono statue fissate a 70 e 31, rispettivamente. Zero condizioni al
contorno. L'asse x il numero di cellule e l'asse y il numero di passi d'evoluzione. Le basi, A
in bianco, C grigio chiaro, T in grigio scuro e G in nero.
Fig. 7 (b) mostra il numero di basi e le varie fasi d'evoluzione e viene visualizzata perch
stato settato il "N delle basi ".
26
2.2.7 Conclusioni
Gli automi cellulari sono stati introdotti come modello per la struttura, la funzione ed
evoluzione del DNA ed stato sviluppato un simulatore con una interfaccia user-friendly di
ingresso. Questo simulatore pu essere utilizzato per lo studio dell'evoluzione del DNA. Il
DNA stato modellato come un automa cellulare unidimensionale. In questo modello, la
catena fosfato corrisponde al reticolo del CA e gli zuccheri alle celle del CA. Ci sono quattro
possibili stati per cella. Questi stati sono le quattro basi del DNA e sono rappresentate da A,
C, T e G. Questi quattro stati sono rappresentati da un numero del sistema numerico
quaternario. Sono state considerate regole d'evoluzione lineari, rappresentati da matrici
quadrate. Sulla base di questo modello stato sviluppato un simulatore d'evoluzione del
DNA e i risultati della simulazione sono stati riportati nell'articolo. Gli CA sembrano essere
un modello promettente per lo studio del DNA, in quanto la struttura del DNA, la sua
funzione e la sua evoluzione possono essere simulate utilizzando diversi strumenti matematici
(come algebra lineare e altri operatori), introdotti attraverso l'uso dei CA. Inoltre, molto
probabile che una verr sviluppata una metodologia per determinare le regole d'evoluzione
partendo dai modelli d'evoluzione dati.
3. Applicazioni dei simulatori su malattie

infettive
Al giorno d'oggi, le questioni di sanit pubblica hanno una grande importanza nella nostra
societ, in particolare la diffusione virale attraverso aree popolate. Le epidemie fanno
riferimento a una malattia che si diffonde ampiamente e rapidamente con infezione e
colpendo molti individui in un'area o una popolazione contemporaneamente. Alcuni esempi
di epidemie sono la morte nera durante la met del 14 secolo, la cosiddetta pandemia di
influenza spagnola nel 1918, Sindrome respiratoria acuta grave, meglio conosciuta dal suo
acronimo SARS, nel 2002, o, pi recentemente, l'influenza aviaria. Fin dai primi anni del
secolo scorso, un approccio interdisciplinare si sforza di studiare la diffusione di una malattia
in un sistema sociale. In questo senso, lepidemiologia matematica si occupa di modellare la
diffusione di malattie infettive in una popolazione. L'obiettivo generalmente quello di
comprendere l'andamento temporale della malattia con l'obiettivo di controllare la sua
diffusione. In questa parte, tratteremo alcune malattie infettive discutendo i modelli di studio
della loro diffusione basati sul paradigma dellAutoma Cellulare. In particolare, faremo
riferimento a SARS, HIV e antavirus.
3.1 Applicazione del modello automa cellulare alla SARS

La SARS (acronimo di Severe Acute Respiratory Sindrome, ovvero Sindrome Respiratoria
Acuta Grave) una malattia infettiva acuta, causata da un nuovo tipo di virus, denominato
SARS-CoV, appartenente alla famiglia dei Coronavirus. La malattia, che si connota come
una polmonite atipica, si manifesta dopo un periodo di incubazione di 2-7 giorni, fino ad un
massimo di 10 giorni, con febbre superiore a 38C, tosse secca e difficolt respiratorie. Talora
sono presenti brividi, cefalea, dolori muscolari e senso di spossatezza; nel 10-20 % circa dei
casi, compaiono anche sintomi gastrointestinali (diarrea e perdita di appetito). Lesame
27
radiografico del torace mostra segni compatibili con polmonite, generalmente di tipo
interstiziale. Pur essendo una malattia respiratoria grave, nell80% circa dei casi evolve
spontaneamente verso la guarigione; nel 10-20% dei casi i pazienti possono andare incontro
ad un aggravamento dei sintomi respiratori tale da richiedere terapie di sostegno impegnative
(ossigenoterapia, ventilazione assistita, rianimazione). La mortalit media per SARS, sulla
base dei dati comunicati dallOrganizzazione Mondiale della Sanit, si aggira intorno al 9%,
simile a quella riscontrata per polmoniti atipiche dovute ad altre cause.
Il contagio avviene prevalentemente mediante contatti stretti o ravvicinati con una persona
ammalata. Infatti, la trasmissione del SARS-CoV avviene principalmente attraverso
goccioline (droplet) prodotte con la tosse o gli starnuti e che raggiungano direttamente le
mucose di bocca, naso e occhi di persone situate a meno di 1 metro o portando a contatto
con bocca, naso e occhi le mani contaminate con goccioline infette.
E stato sviluppato un modello matematico deterministico per simulare la diffusione
dell'epidemia. Si basa sugli automi cellulari, e sono considerate tre classi della popolazione:
sensibili, infetti e recuperato. Di solito, quando un modello basato su CA utilizzato per
simulare una diffusione dell'epidemia, gli individui sono assunti da distribuire nello spazio
della cella in modo tale che ogni cella rappresenta un individuo della popolazione invece in
ogni cella sono considerati pi individui invece di un solo individuo.
Di conseguenza, ogni cella rappresenta una porzione quadrata della terra e il suo stato
ottenuto dalla frazione del numero di individui che sono suscettibili, infetti, o recuperati dalla
malattia. Inoltre, nella proposta modello pu essere considerato il processo di vaccinazione.
3.1.1 Metodo
Un CA bidimensionale un sistema dinamico discreto formato da una matrice
bidimensionale di oggetti identici chiamati celle. Ogni cella dotata di uno stato (da uno
stato insieme finito Q), che cambia gradualmente ad ogni time step secondo una regola
specifica. Come evolve CA, la funzione di aggiornamento (le cui variabili sono gli stati delle
celle vicine) determina come le interazioni locali possono influenzare il comportamento
globale del sistema. In questo senso, lo stato di una cella particolare al tempo t dipende dagli
stati di un insieme di cellule, chiamate il suo quartiere, a time step precedenti t -1. I tipi pi
importanti di quartieri sono il quartiere Von Neumann, dato dalla cella stessa e le quattro
celle poste a nord, sud, est e ovest, e il quartiere Moore, formato dalla cella stessa e le sue
otto celle vicine.
Figura: (a) spazio delle celle rettangolare, (b) quartiere Von Neumann, (c) quartiere Moore
Come detto in precedenza la popolazione suddivisa in tre classi: sensibili, infetti e
recuperati e in ogni cella sono considerati pi individui invece che uno solo.
28
Conseguentemente diverse celle hanno diverse popolazioni: densit diverse e diverso

attraversamento "attraverso cellule o di propriet di mobilit. Inoltre, lo spazio cellulare
considerato sufficiente a garantire che l'influenza dell'epidemia sia solo nella regione centrale.
Le caratteristiche principali dell epidemia e l'ambiente in cui si sta diffondendo sono i
seguenti:
L'epidemia non letale, considerata l'immigrazione e l'emigrazione, di

conseguenza, la quantit totale di popolazione costante. Di conseguenza, la
popolazione di ogni cella sempre la stessa.
La distribuzione della popolazione disomogenea, cio, la popolazione totale che vive
in ogni cella diversa, e la popolazione totale della cella (i, j) Nij.
Si supponga che la via di infezione sia il contatto tra l'individuo infetto e lindividuo
sano.
Una volta che i soggetti sani hanno contratto l'infezione e sono guariti da essa,
acquistano immunit. Cio, sono sicuramente immuni alla malattia e di conseguenza
non saranno individui suscettibili.
Le persone possono spostarsi da una cella all'altra (se c' qualche tipo di mezzo di
trasporto), cio, gli individui sono in grado di andare al di fuori e tornare nelle loro
celle, durante ogni passo temporale.
Si supponga che, quando un individuo infetto arriva in una cella, il numero di
individui sani contattato da lui / lei sia la stessa indipendentemente dalla quantit
totale della popolazione cellulare.
Sia Stij [0,1] la porzione di individui sani della cella (i, j) che sono suscettibili di infezione al
tempo t; sia Itij [0,1] la porzione della popolazione infetta della cella al tempo t che pu
trasmettere la malattia a quelle sane; e sia Rtij [0,1] la porzione di individui recuperati di (i,
j), dalla malattia al tempo t, che sar permanentemente immunizzata. Come sopra esposto, la
popolazione di ogni cella costante, quindi:
Stij+ Itij + Rtij = 1
Inoltre, siano DStij, DItij e DRtij discretizzazioni adatte delle frazioni del sensibile, infetto e
della popolazione recuperata della cella al tempo t, rispettivamente, per ottenere elementi
della serie di stati finiti Q. Si prender in considerazione l'insieme dello stato Q = K K K,
dove:
K = {0.00, 0.01, 0.02, 0.03, , 0.99, 1},
che formata da 101 elementi. Di conseguenza, la discretizzazione utilizzata :
dove [x] il numero intero pi vicino a x.

Quindi, lo stato degli automi cellulari utilizzati nel modello di tre-uplet
L'obiettivo principale del modello quello di calcolare i fattori Stij ,Itij e Rtij.
La funzione di transizione locale utilizzata la seguente:
29
(8)
(9)
(10)
Dove
, e il parametro reale
fattori:
dove
definito come il prodotto di tre

sono i fattori di connessione e i
fattori di movimento tra le celle pi grandi (i,j) e le celle vicine
rispettivamente, e
la virulenza dellepidemia. Inoltre il parametro
sta per la porzione di individui infetti che sono recuperati dalla malattia ad ogni time step.
Eq. (8) e (10) riflette che ogni perdita nella popolazione infetta dovuta ad un aumento della
popolazione recuperata, mentre ogni guadagno nella popolazione infetta dovuta ad una
perdita nella popolazione suscettibile. Approssimativamente parlando, l'Eq. (8) pu essere
interpretata come dire che la porzione di individui infetti di una cella (i, j) in un particolare
passo temporale t, data dalla porzione di individui infetti che non sono stati recuperati dalla
malattia (prima somma della sommatoria) e dalla porzione di individui sensibili della stessa
cella al momento t -1 che sono stati infettati da individui infetti al tempo t-1 della cella
(seconda somma della sommatoria) tenendo conto della virulenza della malattia. Inoltre,
alcuni individui sensibili della cella (i, j) possono essere infettati da individui infetti delle celle
confinanti che hanno viaggiato alla cella (somma terzo sommatoria). Ovviamente, dipende
da alcuni parametri riguardanti la virulenza, la natura delle connessioni tra le celle, le
possibilit di un individuo infetto ad essere spostato da una cella a un'altra, e il rapporto tra la
popolazione delle celle. Inoltre, Eq. (10) fornisce la parte di individui recuperati della cella (i,
j) al tempo t come il numero di individui recuperati della cella al passo temporale precedente
pi la frazione di individui infetti di celle che sono stati recuperati in un passo di tempo.
Infine, Eq. (9) d la porzione di individui sensibili della cella (i, j) al time step t come la parte
di individui sensibili al tempo t-1 che non sono stati infettati.
Si noti che, come dimostra semplice calcolo:
Stij+ Itij + Rtij = 1
per ogni cella (i, j) e ogni passo temporale t. Come menzionato sopra, la via di infezione
dell'epidemia di cui deve essere fatto il modello il contatto tra due individui (un infetto e un
individuo sano).
Si possono quindi presentare due casi: il primo caso, cio quando un individuo infetto da
un altro individuo della sua cella, si riflette nella prima somma della sommatoria data in Eq.
(8). Nell'altro caso, data dalla seconda somma della sommatoria di (8), quando l'infezione
viene svolta da individui appartenenti a celle confinanti, devono essere presenti alcuni tipi di
collegamenti tra le celle per consentire la diffusione dell'epidemia. Quindi si prendono in
considerazione tre modi di trasporto: in aereo, in treno e in auto o in autobus. Questa
connessione data dai coefficienti

come:
30
(11)
Il fattore di movimento
indica la probabilit di un individuo infetto
appartenente alla cella vicina

di essere spostato nella cella principale (i, j).
Si noti che questo parametro diverso dal fattore di collegamento poich uno prende in
considerazione individui infetti e l'altro (il fattore di connessione) prende in considerazione le
infrastrutture di trasporto esistenti tra le celle considerate. Inoltre, il fattore di movimento
deve essere dato dalle caratteristiche principali della malattia da modellare.
Infine, molto importante decidere se si manifesta un focolaio. In questo senso, si otterranno
i valori dei parametri per i quali l'epidemia sviluppa da una cella alle sue celle confinanti. Si
suppone che nella configurazione iniziale, vi una sola cella con individui infetti: O, e sia N
la sua cella vicina a nord. Come conseguenza, il numero di individui infetti necessari per
estendere l'epidemia fuori dalla cella dipende dai valori del coefficiente di connessione, dal
coefficiente di movimento e dalla virulenza.
3.1.2 Risultati e conclusioni

Lo spazio cellulare nelle prossime simulazioni sar formato da una matrice bidimensionale di
celle 50 50. Nelle simulazioni la percentuale di individui infetti di ciascuna cella
rappresentata per mezzo di un codice di livello di grigio che va dal colore bianco per lo stato
0 al colore nero per lo stato 1. Per motivi di semplicit, si utilizzano i seguenti parametri
scelti artificialmente: v = 0.6, = 0.4;
=0.5, per ogni cella (i, j). Le condizioni iniziali
sono costituite da una sola cella con individui infetti, cio (25, 25) con s025,25=(0.7,0.3,0).
Inoltre, nelle simulazioni, vengono visualizzate sei configurazioni della CA: quelli a passi
tempo t = 0,5,10, 15, 20,25.
Si prendono in considerazione due casi:
(1) Ogni cella collegata con tutti i suoi quartieri(vicini) con lo stesso parametro:
; per ogni cella (i, j), e
(2) La connessione tra le celle non costante.
(1)Supponiamo che la popolazione in ciascuna cella la stessa, cio Nij = 100 per ogni cella
(i, j).
La simulazione ottenuta con i quartieri Von Neumann mostrata in fig. 2 e la simulazione
calcolata con i quartieri Moore mostrato in fig. 3. Si noti che i fronti epidemici successivi
(regioni di diffusione a diversi tempi) sono circolari come ci si aspetta, in cui il punto di
partenza dell epidemia al centro di questi fronti circolari. Le evoluzioni del numero di
individui infettati sensibili, e recuperati sono presenti in Fig. 4. Inizialmente, solo la cella
centrale ha infettato gli individui, in particolare il 30% della popolazione (30 persone).

31
Come mostrato in fig. 4, il numero di individui infetti aumenta da t = 1 a t = 44 con i

quartieri di Von Neumann e da t=1 a t=27 i quartieri di Moore. Inoltre, il numero di
individui suscettibili diminuisce all'aumentare del numero di individui recuperati.
D'altra parte, supponiamo che la popolazione non costante in tutte le celle in accordo con
Nij = ej. In questo caso la maggior parte della popolazione concentrata nelle celle orientali e
diminuisce uniformemente nelle celle occidentali. L'evoluzione della CA con quartieri
Moore mostrato in fig. 5. In questo caso, si noti che l'epidemia si propaga rapidamente
attraverso le celle occidentali e sono ottenuti i valori massimi degli stati delle celle, appunto,
in queste celle occidentali colorate con maggiori livelli di colore grigio.
Inoltre, pu essere considerato l'effetto della vaccinazione sulla popolazione in questo
modello. In questo caso, un parametro della vaccinazione, [0, 1], deve essere considerato
nelle funzioni di transizione locali del modello. Tale parametro sta per la parte di individui
infetti sensibili ad ogni passo di tempo che sono stati vaccinati.
32
(2) Nel secondo caso si suppone che non vi siano connessioni costanti tra ogni cella e
dintorni. Inoltre, per semplicit, si supponga che lo spazio delle celle sia diviso in quattro
aree artificiali con fattori di connessione diversi come segue:
Quindi, le simulazioni ottenute sono mostrate in Fig. 6. Si noti che l'epidemia non si
diffonde attraverso larea C3 poich il fattore di connessione 0. Inoltre, la maggiore velocit
di diffusione ottenuta in zona C2 dato che il fattore di collegamento uguale a 1. Nelle
altre zone, C1 e C4, la velocit del tasso un'epidemia , ovviamente, pi lento.
Infine, se la popolazione dipende dalla cella considerata (tenendo conto della formula di cui
sopra), la diffusione dell'epidemia modellata come in Fig. 7. Si noti che la popolazione
infetta cresce rapidamente nella parte occidentale del spazio delle celle.
Inoltre considerato l'effetto della vaccinazione sulla popolazione in questo modello. In
questo caso nelle funzioni di transizione si considera un parametro che sta per la parte di
individui infetti sensibili ad ogni passo di tempo che sono stati vaccinati. In fig. 8
l'evoluzione degli individui infetti viene visualizzata quando considerato il processo di
vaccinazione. Noi supponiamo che la configurazione iniziale formata da una sola cella con
individui infetti: la cella (25, 25), con s025, 25=(0.7,0.3,0). Inoltre v = 0.6, = 0.6,
=0.5;
per ogni cella (i, j). Quattro diversi valori del tasso di vaccinazione sono
considerati: = 0, 0.2, 0.3, 0.4 e si considera che il processo di vaccinazione incide sugli
individui suscettibili di tutte le celle iniziando a t = 16. Si noti che all'aumentare di , il
numero di infetti individuali diminuisce.
33
34

Automi Cellulari

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Automi Cellulari

Caricato da

Copyright:

Formati disponibili

LAUREA MAGISTRALE

Se d = 1 le celle dellautoma sono solitamente disegnate nel seguente modo:

Riflessione delle celle

U (i1,...,id) = {(j1,...,jd) : |j1 i1|+...+|jd id| r}

V "#$%V# &'()*&+,-#./#*0*'*1,#/232#"'*22(3.45*/637#('*1,#/232#$*V +,(/232('*,,34*,,3

delle celle j vicine a i , nel senso di appartenenti allintorno prefissato U (i) di i.

Le caratteristiche fondamentali di un automa cellulare sono le seguenti:

Parallelismo: le celle si aggiornano simultaneamente (in parallelo) elaborando ognuna le

2 Automi cellulari per lo studio di sequenze

ligated only with the base prior to it, while

Proteins are represented riflette

ical, social and biological systems.

1 ' i < n; 111111

Di; 0 FDi " 1; M(N " 1; Di " 1; 0; Di " 1; 1

Di " 1; 0 1 ' i < n

where, Di; j is an element of 2D array

tems whose behavior is

uracil(U). To deal with it in a computer, a nucleotide sequence is coded

Proteins are represented by sequences of amino acids, also called

e si indica con basi o cifre

Di " 1; 0 1 ' i < n

sequenza composta da RNA allora M= 2, se la sequenza composta di amminoacidi l'M

where (x0 ; y0 ) denote the coordinates of the pix

Fig. 2. Illustration of a one-dimensional, binary-state, nearest-neighbor

F for updating the lattice are illustrated. The lattice configuration is

figurations, e.g., all 0 or all 1. The se

can fall into 4 classes. The first class is named balanced,

binary image with visuahosen because its property

or some long sequences,

and UUUU. Therefore, such a uniqu

his way, the bases in a gene or residues in a

Cellular automata images for biological sequences

It can be seen by comparing the tw

WIAD gene (Fig. 6).

WIAD gene (Fig. 6).

Fig. 8. Compressed image of the human TGFA

sequence was obtained from NCBI GenBank (J00413), the compression

mage from (a). The compression

alyzing the Rule 84 that

e inversion of x. Thus, e.g., (Chou

WIAD gene with some periodic

2.2 Cellular automaton model for the study of dna

ciascuna colonna rappresenta

Fig. 1. (a) A one-dimensional CA, (b) the evolution of a one-dimensional CA.

Durante la riproduzione non sessuale, la molecola di DNA passa da un individuo ai suoi

. con successo per l'analisi delle mutazione.

following evolution rule:

The CA state at the next time

step is calculated using Eq. (9) as follows:

In questo caso lo stato CA al tempo t +1 {3, 1, 3, 3, 2, 3, 2} e il filamento di DNA in

2.2.5 Simulazione della sequenza di DNA utilizzando il

4. Simulation of DNA sequence evolution using the proposed model

::: ::: ::: ::: ::: ::: :::

Number of DNA Bases (A,C,T,G)

Number of DNA Bases (A,C,T,G)

Number of DNA Bases (A,C,T,G)

2.2.6 L'interfaccia grafica del simulatore

Fig. 6. The graphical user interface of the simulator.

nel campo vuoto a destra.

Number of DNA Bases (A,C,T,G)

3. Applicazioni dei simulatori su malattie

3.1 Applicazione del modello automa cellulare alla SARS

Conseguentemente diverse celle hanno diverse popolazioni: densit diverse e diverso

V "#$%V# &'()&+,-#./#0'1,#/232#"'22(3.45/637#('1,#/232#$V +,(/232(',,34,,3