Sei sulla pagina 1di 23

REDES DE ALTAS PRESTACIONES

Y SUS APLICACIONES

Presentación

Departamento de Arquitectura y E.T.S. Ingeniería


Tecnología de Computadores Informática

Julio Ortega Lopera. Curso 2004/2005


Arquitecturas con varios procesadores

Posibilidades

Capacidades
Promueve Prestaciones

Tecnología Arquitectura Aplicaciones


Posibilidades Selección

Posibilidades Demanda
Restricciones
Nuevas Económicas
Restricciones Generación

Mercado
Fundamental
Fuerte

Tendencia hacia arquitecturas con varios Visible

procesadores resultado de la interacción Tecnología- Adaptado de Vajapeyam/Valero (Computer, Abril 2001)


Mercados-Aplicaciones

Curso de Doctorado RAPyA (2004/05)


Arquitecturas con varios procesadores
Tecnología:
• Procesadores y redes de altas prestaciones: permiten
configurar plataformas paralelas eficientes en tiempos reducidos.
• Limitaciones previsibles en la tecnología: efecto de los
retardos relativos crecientes y de las limitaciones en el consumo
de potencia (12% de crecimiento anual de la capacidad de los
procesadores)

Aplicaciones y Mercados:
• Aplicaciones que demandan velocidades y capacidad de
memoria fuera del alcance de las plataformas monoprocesador
(Grand Challenge)
• Demanda elevada de disponibilidad (Internet: mantenimiento y
amplicación sin tiempos muertos)

Curso de Doctorado RAPyA (2004/05)


Arquitecturas con varios procesadores

Tecnología:
• Posibilidades
Procesadores y redes de altas prestaciones
• Limitaciones previsibles en la tecnología (retardos relativos crecientes
y limitaciones en el consumo de potencia)
Capacidades
Promueve Prestaciones

Tecnología Arquitectura Aplicaciones


Posibilidades Selección

Posibilidades Demanda
• Aplicaciones que
Restricciones
Nuevas Económicas
Restricciones demandan velocidad
Generación y
memoria (Grand Challenge)
Mercado
• Demanda elevada Fundamental
de
disponibilidad Fuerte
Visible
Adaptado de Vajapeyam/Valero (Computer, Abril 2001)

Curso de Doctorado RAPyA (2004/05)


Arquitecturas con varios procesadores

Tecnología Mercado para aplicaciones que requieren


alta disponibilidad

• Procesamiento de transacciones
• Sistemas de control en entornos médicos,
medios de transporte, ambientes seguros
Aplicaciones
• Aplicaciones de internet
- Mercados financieros continuos
- Acceso a bases de datos e
información
Mercado - Computación móvil
- No hay tiempos muertos (para
mantenimiento, ampliación,...)

Curso de Doctorado RAPyA (2004/05)


Arquitecturas con varios procesadores

Tecnología Grandes desafíos (Grand challenges)


Memoria
(Gbytes)

100000
TOP500
(Nov2001) TOP500
10000 Genoma Humano (Nov2002)
Cambio Climático
Dinámica de Fluidos Viscosos 1
1000 Modelado de Semiconductores

Aplicaciones 100
Modelado de Superconductores
Cromodinámica cuántica
Circulación de Océanos

10 Biología 3
Estructural
2
1 Tiempo Diseño
72 horas Farmacéutico
Modelado
0.1 Plasma 3D
Tiempo Dinámica
48-horas química
0.01

Mercado
Teraflops Petaflops

0.1 1 10 102 103 104 105 106


Gigaflops
1980 1988 1991 1993 1995 2002

Alta Disponibilidad (High Availability)

Curso de Doctorado RAPyA (2004/05)


Arquitecturas con varios procesadores

Ritmo de Mejora de los Microprocesadores


Tecnología Ritmo de mejora de los microprocesadores
1. Si prosigue:
Plataformas paralelas que puedan
desarrollarse en poco tiempo, a partir de
hardware disponible
Aproximadamente la Ley de
Moore (el doble cada 18 meses)
Aplicaciones Plataformas con muchos procesadores
(suponen Tecnología
Tecnología un incremento
+
Arquitectura de prestaciones
muy elevado)

2. Si no prosigue:
Mercado Usar varios procesadores es la opción para
configurar plataformas con mejores
prestaciones.

Curso de Doctorado RAPyA (2004/05)


Influencia de la Tecnología
Más transistores por circuito integrado 
Microarquitecturas más complejas en un solo CI:
Paralelismo entre Instrucciones (Procesadores
Superescalares)

Mejora de la Tecnología de
Fabricación de CI basada en el
Silicio  Reducción del
tamaño de los transistores
TCPU = NI x CPI x Tciclo
+ Aumento del tamaño del
dado

Se reduce la longitud de puerta del transistor y con ello


el tiempo de conmutación  Mayores frecuencias de
funcionamiento

Curso de Doctorado RAPyA (2004/05)


Reducción en CPI (Ciclos/Instrucción)
No segmentado
CPI=5
Inst. 1 IF ID EX MEM WB
Inst. 2 5T IF ID EX MEM WB

T Segmentado
Inst. 1 IF ID EX MEM WB
CPI=1
Inst. 2 IF ID EX MEM WB
Inst. 3 IF ID EX MEM WB
Inst. 4 IF ID EX MEM WB

T
Inst. 1 IF ID EX MEM WB Superescalar o VLIW
Inst. 2 IF ID EX MEM WB CPI=0.5

Inst. 3 IF ID EX MEM WB
Inst. 4 IF ID EX MEM WB

Curso de Doctorado RAPyA (2004/05)


Procesadores Superescalares
Captador

BTB Unidad de
Enteros
Buffer de
Cola de Banco de Registros
Reorden
Instrucciones

Ventana de
Decodificador
Instrucciones

Saltos ALU Desplz. Comp. Direcc.

Unidad de
Flotantes
Buffer de
Banco de Registros
Reorden

Ventana de
Instrucciones

Suma Conv. Mult. Div. Direcc. Saltos

Buffer de Buffer de
Almacen. Carga

Aumentar la complejidad del procesador para incluir más


recursos para poder ejecutar más instrucciones por ciclo

Curso de Doctorado RAPyA (2004/05)


Limites de la Tecnología
Cada vez se puede acceder a menos superficie Retardo~RwireCwire
(relativa) del CI en un ciclo de reloj:
Rwire=/(WxH)
Incrementar IPC (a costa de más
H
complejidad) y reducir el tiempo de ciclo se
hacen mutuamente dependientes. W
Rwire Cwire~

Los límites en la potencia que puede consumir


un CI restringen la frecuencia a la que puede
funcionar
(V  Vthreshold ) 2
fmax  B
V
Pot  ACV 2 f  AVIshort  VIleakage   eVthershold 
I leakage  H  exp 
 KT 

Curso de Doctorado RAPyA (2004/05)


Límites en las Mejoras de los Superescalares

1720
Las mejoras tecnológicas no
permitirán más de un factor de
mejora anual del 12% anual en
las prestaciones de los
procesadores hasta el 2014.
Esto supone incrementar las
prestaciones en 7.4 veces
(El factor de mejora actual del
55% anual llevaría a
prestaciones 1700 veces las
actuales)

1. ILP en una hebra con microarquitecturas sencillas: VLIW


2. Procesamiento paralelo de varias hebras: SMT y CMP

Curso de Doctorado RAPyA (2004/05)


Procesadores VLIW: Itanium 2 (IA-64)
Predicción +32

Antesala
de Saltos TLB Cache L1 I IPG
L1I

Buffer Direcciones Buffer de Instrucciones ROT


relativas a IP (8 haces = 24 instr.)

Patrones de Decodificación y distribución de instrucciones


Historia
EXP
M M M M I I F F B B B

RSE Renombramiento Enteros


Renomb. REN
FP

Núcleo
Detección Registros
de Riesgos
Registros para Enteros
FP
REG

TLB Cache ALU EXE


ALAT enteros Multim. Saltos
L2D L1D
enteros
FP1
Marcas DET
L2
Coma
FP2
Flotante WRB
Cache FP3
L3
Cache
Interfaz FP4
L2 Sistema

El aprovechamiento del paralelismo es responsabilidad del compilador

Curso de Doctorado RAPyA (2004/05)


Alternativas (I): Una vs. Varias Hebras

¿? - Superescalares

Una Técnicas agresivas de especulación


Hebra (procesadores superespeculativos)

- VLIW

- SMT (Multihebra Simultánea)


SMT
Varias Superespeculativos
Hebras

- CMP (Multiprocesador Uni-chip)

Curso de Doctorado RAPyA (2004/05)


Alternativas (II): Superescalar, VLIW, y Multihebra

Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10


Thread 2 (T2): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 Instrucciones emitidas por ciclo
I1 I3 I1 I3 I1 I3 I2 I1 I3 X
Tiempo
I2 I5 I6 I2 I5 I6 I2 I5 I6 I2 X I5

I2 I3 I3 I6 X X

I4 I7 I1 I4 I5 I4 I7 I1 X I7 I4

I9 I7 I8 I9 I4 I5 X X I9

I8 I10 I4 I7 I8 I7 I8 I8 X X

I2 I3 I9 10 I6 X I10 X

I1 I4 I5 I8 I10 I9 I10 X I2 I3

I7 I8 I6 I11 I1 I4 I5
Superescalar Multihebra Multihebra VLIW
Simultánea
Curso de Doctorado RAPyA (2004/05)
Ejemplo de Arquitectura Multihebra: Pentium 4
Hyper-Threading
Intel ha desarrollado el Pentium 4 a 3.06 GHz con
características de un procesador SMT (Simultaneous Multi-
threading).
La denominación de Intel para esta arquitectura es Hyper-
Threading (HT).
El procesador puede ejecutar simultáneamente dos hebras que
pueden corresponder a una misma tarea (programada en varias
hebras) o a tareas diferentes.
SPECint_base2000= 1099; SPECfp_base2000=1077
Adobe Photoshop se ejecuta un 21% más rápido cuando se
ejecuta al mismo tiempo en antivirus de McAfee.

Curso de Doctorado RAPyA (2004/05)


Ejemplo de Multiprocesador en un Chip (CMP):
Power4 de IBM

Incluye dos procesadores superescalares a 1 GHz (o más)


Ancho de banda a cache L2 de 100 GB/s y de 55 GB/s a memoria
o a otros chips Power4

Otros ejemplos
UltraSPARC IV (2 UltraSPARC III)

Intel Montecito (2006):


2 Itanium, 24 MB Cache L3
1700 Millones de transistores

Curso de Doctorado RAPyA (2004/05)


Multiprocesador en un Multi-Chip: Power5 de IBM

Cache L3 (4x36MB=144 MB)

Power5 (1.4-2 GHz, 275 M Trans):


2 CPUs SMT (4 proc. lógicos)
Multiprocesador con 64 proc. SMT
Curso de Doctorado RAPyA (2004/05)
Ejemplo de Arquitectura Superescalar: AMD
Hammer x86-64
Tecnología de Comunicación HyperTransport: permite
configurar sistemas con varios multiprocesadores
(glueless MP), aumentando el ancho de banda y
proporciona enlaces punto-a-punto (full duplex y de
transacciones partidas)

Integra el puerto norte con el controlador de


memoria (reduce la latencia DRAM, permite
PC1600, PC2100, PC2700) SRQ = System Request Queue

Curso de Doctorado RAPyA (2004/05)


Clusters de Computadores (I)
Conjunto de Computadores (completos) conectados y
utilizados como un único recurso de cómputo:
• No es una plataforma con procesadores con acceso uniforme a
memoria y a las E/S (SMP)
• Computadores y conexión constituidos por hardware comercial

• Aprovechamiento rápido de las mejoras en la tecnología del hardware


(microprocesadores y redes).
• Relación prestaciones/coste elevada

• Mejorar la imagen del cluster como sistema único (SSI): costo de


mantenimiento y administración elevado
• Como plataforma para procesamiento paralelo: mejorar las
prestaciones de comunicación

Curso de Doctorado RAPyA (2004/05)


Clusters de Computadores (II)
Ley de Moore (1979): El número de transistores por Circuito Integrado se
dobla cada 18-24 meses (asumiendo precio constante del CI)

Entre un 40% y un 57% de mejora anual en los microprocesadores:


Tres órdenes de magnitud (x103) en 15 años

70
60
¿Se puede mantener
este ritmo de
50
mejora?
40
32 Analizar el origen de
30
las mejoras que se
20
han conseguido y ver
10 las tendencias
0 previsibles
0 1,5 3 4.5 6 7.5 9

Curso de Doctorado RAPyA (2004/05)


Clusters de Computadores (III)
TOP500 100%

80% Clusters
Constelac
60%
SIMD
40% UniProc.
MPP
20% SMP

0%
19 )

19 )

20 )

20 )
19 )

19 )

)
(2

(1

(1

(2
(1

(2

(1
94

96

99

00
93

97

02
19

#5 (TOP500): Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores)


Rpico=11.06 TFLOPS; Rmax=5.69 TFLOPS

Curso de Doctorado RAPyA (2004/05)


Bibliografía

Cormer, D. E.:”Network Systems Design using Network Processors”.


Prentice Hall, 2004.
Beck, M., et al.:”Linux Kernel Programming”. Tercera Edición. Addison
Wesley, 2002.
Herbert, T.F.:”The Linux TCP/IP Stack: Networking for Embedded
Systems”. Charles River Media, 2004

Curso de Doctorado RAPyA (2004/05)

Potrebbero piacerti anche