HPC SMT CMP Clusterc Ugranada05

REDES DE ALTAS PRESTACIONES
Y SUS APLICACIONES
Presentación
Departamento de Arquitectura y E.T.S. Ingeniería

Tecnología de Computadores Informática
Julio Ortega Lopera. Curso 2004/2005

Arquitecturas con varios procesadores
Posibilidades
Capacidades
Promueve Prestaciones
Tecnología Arquitectura Aplicaciones

Posibilidades Selección
Posibilidades Demanda
Restricciones
Nuevas Económicas
Restricciones Generación
Mercado
Fundamental
Fuerte
Tendencia hacia arquitecturas con varios Visible
procesadores resultado de la interacción Tecnología- Adaptado de Vajapeyam/Valero (Computer, Abril 2001)

Mercados-Aplicaciones
Curso de Doctorado RAPyA (2004/05)

Tecnología:
• Procesadores y redes de altas prestaciones: permiten
configurar plataformas paralelas eficientes en tiempos reducidos.
• Limitaciones previsibles en la tecnología: efecto de los
retardos relativos crecientes y de las limitaciones en el consumo
de potencia (12% de crecimiento anual de la capacidad de los
procesadores)
Aplicaciones y Mercados:
• Aplicaciones que demandan velocidades y capacidad de
memoria fuera del alcance de las plataformas monoprocesador
(Grand Challenge)
• Demanda elevada de disponibilidad (Internet: mantenimiento y
amplicación sin tiempos muertos)

Tecnología:
• Posibilidades
Procesadores y redes de altas prestaciones
• Limitaciones previsibles en la tecnología (retardos relativos crecientes
y limitaciones en el consumo de potencia)
Capacidades
Promueve Prestaciones
Tecnología Arquitectura Aplicaciones

Posibilidades Selección
Posibilidades Demanda
• Aplicaciones que
Restricciones
Nuevas Económicas
Restricciones demandan velocidad
Generación y
memoria (Grand Challenge)
Mercado
• Demanda elevada Fundamental
de
disponibilidad Fuerte
Visible
Adaptado de Vajapeyam/Valero (Computer, Abril 2001)

Tecnología Mercado para aplicaciones que requieren

alta disponibilidad
• Procesamiento de transacciones
• Sistemas de control en entornos médicos,
medios de transporte, ambientes seguros
Aplicaciones
• Aplicaciones de internet
- Mercados financieros continuos
- Acceso a bases de datos e
información
Mercado - Computación móvil
- No hay tiempos muertos (para
mantenimiento, ampliación,...)

Tecnología Grandes desafíos (Grand challenges)

Memoria
(Gbytes)
100000
TOP500
(Nov2001) TOP500
10000 Genoma Humano (Nov2002)
Cambio Climático
Dinámica de Fluidos Viscosos 1
1000 Modelado de Semiconductores
Aplicaciones 100
Modelado de Superconductores
Cromodinámica cuántica
Circulación de Océanos
10 Biología 3
Estructural
2
1 Tiempo Diseño
72 horas Farmacéutico
Modelado
0.1 Plasma 3D
Tiempo Dinámica
48-horas química
0.01
Mercado
Teraflops Petaflops
0.1 1 10 102 103 104 105 106

Gigaflops
1980 1988 1991 1993 1995 2002
Alta Disponibilidad (High Availability)

Ritmo de Mejora de los Microprocesadores

Tecnología Ritmo de mejora de los microprocesadores
1. Si prosigue:
Plataformas paralelas que puedan
desarrollarse en poco tiempo, a partir de
hardware disponible
Aproximadamente la Ley de
Moore (el doble cada 18 meses)
Aplicaciones Plataformas con muchos procesadores
(suponen Tecnología
Tecnología un incremento
+
Arquitectura de prestaciones
muy elevado)
2. Si no prosigue:
Mercado Usar varios procesadores es la opción para
configurar plataformas con mejores
prestaciones.

Influencia de la Tecnología
Más transistores por circuito integrado 
Microarquitecturas más complejas en un solo CI:
Paralelismo entre Instrucciones (Procesadores
Superescalares)
Mejora de la Tecnología de
Fabricación de CI basada en el
Silicio  Reducción del
tamaño de los transistores
TCPU = NI x CPI x Tciclo
+ Aumento del tamaño del
dado
Se reduce la longitud de puerta del transistor y con ello

el tiempo de conmutación  Mayores frecuencias de
funcionamiento

Reducción en CPI (Ciclos/Instrucción)
No segmentado
CPI=5
Inst. 1 IF ID EX MEM WB
Inst. 2 5T IF ID EX MEM WB
T Segmentado
CPI=1
T
Inst. 1 IF ID EX MEM WB Superescalar o VLIW
Inst. 2 IF ID EX MEM WB CPI=0.5

Procesadores Superescalares
Captador
BTB Unidad de
Enteros
Buffer de
Cola de Banco de Registros
Reorden
Instrucciones
Ventana de
Decodificador
Instrucciones
Saltos ALU Desplz. Comp. Direcc.
Unidad de
Flotantes
Buffer de
Banco de Registros
Reorden
Ventana de
Instrucciones
Suma Conv. Mult. Div. Direcc. Saltos
Buffer de Buffer de
Almacen. Carga
Aumentar la complejidad del procesador para incluir más

recursos para poder ejecutar más instrucciones por ciclo

Limites de la Tecnología
Cada vez se puede acceder a menos superficie Retardo~RwireCwire
(relativa) del CI en un ciclo de reloj:
Rwire=/(WxH)
Incrementar IPC (a costa de más
H
complejidad) y reducir el tiempo de ciclo se
hacen mutuamente dependientes. W
Rwire Cwire~
Los límites en la potencia que puede consumir

un CI restringen la frecuencia a la que puede
funcionar
(V  Vthreshold ) 2
fmax  B
V
Pot  ACV 2 f  AVIshort  VIleakage   eVthershold 
I leakage  H  exp 
 KT 

Límites en las Mejoras de los Superescalares
1720
Las mejoras tecnológicas no
permitirán más de un factor de
mejora anual del 12% anual en
las prestaciones de los
procesadores hasta el 2014.
Esto supone incrementar las
prestaciones en 7.4 veces
(El factor de mejora actual del
55% anual llevaría a
prestaciones 1700 veces las
actuales)
1. ILP en una hebra con microarquitecturas sencillas: VLIW

2. Procesamiento paralelo de varias hebras: SMT y CMP

Procesadores VLIW: Itanium 2 (IA-64)
Predicción +32
Antesala
de Saltos TLB Cache L1 I IPG
L1I
Buffer Direcciones Buffer de Instrucciones ROT

relativas a IP (8 haces = 24 instr.)
Patrones de Decodificación y distribución de instrucciones

Historia
EXP
M M M M I I F F B B B
RSE Renombramiento Enteros

Renomb. REN
FP
Núcleo
Detección Registros
de Riesgos
Registros para Enteros
FP
REG
TLB Cache ALU EXE

ALAT enteros Multim. Saltos
L2D L1D
enteros
FP1
Marcas DET
L2
Coma
FP2
Flotante WRB
Cache FP3
L3
Cache
Interfaz FP4
L2 Sistema
El aprovechamiento del paralelismo es responsabilidad del compilador

Alternativas (I): Una vs. Varias Hebras
¿? - Superescalares
Una Técnicas agresivas de especulación

Hebra (procesadores superespeculativos)
- VLIW
- SMT (Multihebra Simultánea)

SMT
Varias Superespeculativos
Hebras
- CMP (Multiprocesador Uni-chip)

Alternativas (II): Superescalar, VLIW, y Multihebra
Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10

Thread 2 (T2): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 Instrucciones emitidas por ciclo
I1 I3 I1 I3 I1 I3 I2 I1 I3 X
Tiempo
I2 I5 I6 I2 I5 I6 I2 I5 I6 I2 X I5
I2 I3 I3 I6 X X
I4 I7 I1 I4 I5 I4 I7 I1 X I7 I4
I9 I7 I8 I9 I4 I5 X X I9
I8 I10 I4 I7 I8 I7 I8 I8 X X
I2 I3 I9 10 I6 X I10 X
I1 I4 I5 I8 I10 I9 I10 X I2 I3
I7 I8 I6 I11 I1 I4 I5
Superescalar Multihebra Multihebra VLIW
Simultánea
Ejemplo de Arquitectura Multihebra: Pentium 4
Hyper-Threading
Intel ha desarrollado el Pentium 4 a 3.06 GHz con
características de un procesador SMT (Simultaneous Multi-
threading).
La denominación de Intel para esta arquitectura es Hyper-
Threading (HT).
El procesador puede ejecutar simultáneamente dos hebras que
pueden corresponder a una misma tarea (programada en varias
hebras) o a tareas diferentes.
SPECint_base2000= 1099; SPECfp_base2000=1077
Adobe Photoshop se ejecuta un 21% más rápido cuando se
ejecuta al mismo tiempo en antivirus de McAfee.

Ejemplo de Multiprocesador en un Chip (CMP):
Power4 de IBM
Incluye dos procesadores superescalares a 1 GHz (o más)

Ancho de banda a cache L2 de 100 GB/s y de 55 GB/s a memoria
o a otros chips Power4
Otros ejemplos
UltraSPARC IV (2 UltraSPARC III)
Intel Montecito (2006):

2 Itanium, 24 MB Cache L3
1700 Millones de transistores

Multiprocesador en un Multi-Chip: Power5 de IBM
Cache L3 (4x36MB=144 MB)
Power5 (1.4-2 GHz, 275 M Trans):

2 CPUs SMT (4 proc. lógicos)
Multiprocesador con 64 proc. SMT
Ejemplo de Arquitectura Superescalar: AMD
Hammer x86-64
Tecnología de Comunicación HyperTransport: permite
configurar sistemas con varios multiprocesadores
(glueless MP), aumentando el ancho de banda y
proporciona enlaces punto-a-punto (full duplex y de
transacciones partidas)
Integra el puerto norte con el controlador de

memoria (reduce la latencia DRAM, permite
PC1600, PC2100, PC2700) SRQ = System Request Queue

Clusters de Computadores (I)
Conjunto de Computadores (completos) conectados y
utilizados como un único recurso de cómputo:
• No es una plataforma con procesadores con acceso uniforme a
memoria y a las E/S (SMP)
• Computadores y conexión constituidos por hardware comercial
• Aprovechamiento rápido de las mejoras en la tecnología del hardware

(microprocesadores y redes).
• Relación prestaciones/coste elevada
• Mejorar la imagen del cluster como sistema único (SSI): costo de

mantenimiento y administración elevado
• Como plataforma para procesamiento paralelo: mejorar las
prestaciones de comunicación

Clusters de Computadores (II)
Ley de Moore (1979): El número de transistores por Circuito Integrado se
dobla cada 18-24 meses (asumiendo precio constante del CI)
Entre un 40% y un 57% de mejora anual en los microprocesadores:

Tres órdenes de magnitud (x103) en 15 años
70
60
¿Se puede mantener
este ritmo de
50
mejora?
40
32 Analizar el origen de
30
las mejoras que se
20
han conseguido y ver
10 las tendencias
0 previsibles
0 1,5 3 4.5 6 7.5 9

Clusters de Computadores (III)
TOP500 100%
80% Clusters
Constelac
60%
SIMD
40% UniProc.
MPP
20% SMP
0%
19 )
19 )
20 )
20 )
19 )
19 )
)
(2
(1
(1
(2
(1
(2
(1
94
96
99
00
93
97
02
19
#5 (TOP500): Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores)

Rpico=11.06 TFLOPS; Rmax=5.69 TFLOPS

Bibliografía
Cormer, D. E.:”Network Systems Design using Network Processors”.

Prentice Hall, 2004.
Beck, M., et al.:”Linux Kernel Programming”. Tercera Edición. Addison
Wesley, 2002.
Herbert, T.F.:”The Linux TCP/IP Stack: Networking for Embedded
Systems”. Charles River Media, 2004

HPC SMT CMP Clusterc Ugranada05

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

HPC SMT CMP Clusterc Ugranada05

Caricato da

Copyright:

Formati disponibili

REDES DE ALTAS PRESTACIONES

Departamento de Arquitectura y E.T.S. Ingeniería

Julio Ortega Lopera. Curso 2004/2005

Tecnología Arquitectura Aplicaciones

Tendencia hacia arquitecturas con varios Visible

procesadores resultado de la interacción Tecnología- Adaptado de Vajapeyam/Valero (Computer, Abril 2001)

Curso de Doctorado RAPyA (2004/05)

Curso de Doctorado RAPyA (2004/05)

Tecnología Arquitectura Aplicaciones

Curso de Doctorado RAPyA (2004/05)

Tecnología Mercado para aplicaciones que requieren

Curso de Doctorado RAPyA (2004/05)

Tecnología Grandes desafíos (Grand challenges)

0.1 1 10 102 103 104 105 106

Alta Disponibilidad (High Availability)

Curso de Doctorado RAPyA (2004/05)

Ritmo de Mejora de los Microprocesadores

Curso de Doctorado RAPyA (2004/05)

Se reduce la longitud de puerta del transistor y con ello

Curso de Doctorado RAPyA (2004/05)

Curso de Doctorado RAPyA (2004/05)

Saltos ALU Desplz. Comp. Direcc.

Suma Conv. Mult. Div. Direcc. Saltos

Aumentar la complejidad del procesador para incluir más

Curso de Doctorado RAPyA (2004/05)

Los límites en la potencia que puede consumir

Curso de Doctorado RAPyA (2004/05)

1. ILP en una hebra con microarquitecturas sencillas: VLIW

Curso de Doctorado RAPyA (2004/05)

Buffer Direcciones Buffer de Instrucciones ROT

Patrones de Decodificación y distribución de instrucciones

RSE Renombramiento Enteros

TLB Cache ALU EXE

El aprovechamiento del paralelismo es responsabilidad del compilador

Curso de Doctorado RAPyA (2004/05)

Una Técnicas agresivas de especulación

- SMT (Multihebra Simultánea)

- CMP (Multiprocesador Uni-chip)

Curso de Doctorado RAPyA (2004/05)

Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10

Curso de Doctorado RAPyA (2004/05)

Incluye dos procesadores superescalares a 1 GHz (o más)

Intel Montecito (2006):

Curso de Doctorado RAPyA (2004/05)

Cache L3 (4x36MB=144 MB)

Power5 (1.4-2 GHz, 275 M Trans):

Integra el puerto norte con el controlador de

Curso de Doctorado RAPyA (2004/05)

• Aprovechamiento rápido de las mejoras en la tecnología del hardware

• Mejorar la imagen del cluster como sistema único (SSI): costo de

Curso de Doctorado RAPyA (2004/05)

Entre un 40% y un 57% de mejora anual en los microprocesadores:

Curso de Doctorado RAPyA (2004/05)

#5 (TOP500): Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores)

Curso de Doctorado RAPyA (2004/05)

Cormer, D. E.:”Network Systems Design using Network Processors”.

Curso de Doctorado RAPyA (2004/05)

Potrebbero piacerti anche