GPU Arm Mali-G77: los detalles completos

Autor: Randy Alexander
Fecha De Creación: 3 Abril 2021
Fecha De Actualización: 1 Mes De Julio 2024
Anonim
ARM® big.LITTLE™ Processing with ARM® Mali GPUs Demonstrating GPU Compute
Video: ARM® big.LITTLE™ Processing with ARM® Mali GPUs Demonstrating GPU Compute

Contenido


Junto con su nuevo núcleo de CPU Cortex-A77, Arm ha presentado una GPU de próxima generación destinada a SoC de teléfonos inteligentes de próxima generación. El Mali-G77, que no debe confundirse con el nuevo procesador de pantalla Mali-D77, marca la partida de la arquitectura Bifrost de Arm y el traslado a Valhall.

Entraremos en los detalles finos de la nueva arquitectura en un momento. Primero, saltaremos directamente a lo que los usuarios deben esperar en términos de ganancias de rendimiento.

Descripción general del rendimiento de Mali-G77

Arm cuenta con un aumento de rendimiento de gráficos de hasta un 40 por ciento con los dispositivos Mali-G77 de última generación en comparación con los modelos Mali-G76 de hoy. Este número tiene en cuenta el proceso y las mejoras arquitectónicas. El Mali-G77 es configurable de 7 a 16 núcleos sombreadores, y cada núcleo es casi exactamente del mismo tamaño que el núcleo G76. Esto significa que es probable que los teléfonos inteligentes de gama alta se envíen con un recuento de núcleos de GPU similar al de hoy, en algún lugar de la adolescencia. Prácticamente, esto nos permite hacer algunas evaluaciones especulativas de rendimiento contra los conjuntos de chips existentes.


Mirando el popular punto de referencia Manhattan GFXBench, un aumento del rendimiento del 40 por ciento abre una ventaja considerable contra el hardware de la generación actual. El chip Adreno de próxima generación de Qualcomm necesitará su propia mejora significativa de rendimiento para mantener el nivel de juego. Las mesas parecen estar girando a favor de Arm.

En cuanto a la arquitectura, el rendimiento del juego aumenta del 20 al 40%, mientras que el aprendizaje automático gana un aumento del 60%

Sobre la base de este juego de pelota bastante tosco, un Mali-G77 de 10 núcleos (una configuración que a menudo vemos de Huawei) parece superar el hardware de gráficos móviles de primera generación de esta generación. Una configuración de 12 núcleos, que generalmente se ve en Exynos de Samsung, proporciona una gran ventaja para la última GPU de Arm. Por supuesto, los puntos de referencia reales dependerán de otros factores, incluidos el nodo de proceso, la memoria caché de la GPU, la configuración de la memoria LPDDR y el tipo de aplicación que está probando. Por lo tanto, tome el gráfico anterior con una fuerte dosis de sal.


Solo en términos de la nueva arquitectura, Arm afirma que el Mali-G77 ofrece una mejora promedio del 30 por ciento en la eficiencia energética y la densidad de rendimiento. También hay un enorme aumento del 60 por ciento para las aplicaciones de aprendizaje automático, gracias al soporte de producto INT8 dot. Las expectativas de rendimiento de los juegos se establecen entre un 20 y un 40 por ciento de aumento, según el título y el tipo de cargas de trabajo de gráficos que se ofrecen.

Para comprender exactamente cómo Arm ha logrado este aumento de rendimiento, profundicemos en la arquitectura.

Conoce a Valhall, el sucesor de Bifrost

Vahall es la arquitectura de GPU escalar de segunda generación de Arm. Es un motor de ejecución de deformación de 16 anchos, lo que esencialmente significa que la GPU ejecuta 16 instrucciones en paralelo por ciclo, por unidad de procesamiento, por núcleo. Eso es más de 4 y 8 de ancho en Bifrost.

Otras características arquitectónicas nuevas incluyen la programación dinámica de instrucciones administrada completamente en hardware y un conjunto de instrucciones completamente nuevo que conserva la equivalencia operativa con Bifrost. Otros incluyen soporte para el formato de compresión AFBC1.3 de Arm, los objetivos de representación FP16, la representación en capas y las salidas de sombreado de vértices.

El Mali-G77 realiza un 33% más de matemáticas en paralelo que el G76.

Las claves para comprender los principales cambios arquitectónicos se encuentran al examinar la unidad de ejecución dentro del núcleo. Esta parte de la GPU es responsable del procesamiento de números.

Dentro del motor de ejecución

En Bifrost, cada núcleo de GPU contenía tres motores de ejecución o dos en el caso de algunos diseños Mali-G52 de gama baja. Cada motor contiene un i-cache, un archivo de registro y una unidad de control warp. En el Mali-G72, cada motor maneja 4 instrucciones por ciclo, que aumentaron a 8 en el Mali-G76 del año pasado. La distribución a través de estos tres núcleos permite 12 y 24 instrucciones de punto múltiple flotante de 32 bits (FP32) con fusión múltiple (FMA) por ciclo.

Con Valhall y el Mali-G77, hay un solo motor de ejecución dentro de cada núcleo de GPU. Como antes, este motor alberga la unidad de control de urdimbre, el registro y el icache, que ahora se comparte entre dos unidades de procesamiento. Cada unidad de procesamiento maneja 16 instrucciones warp por ciclo, para un rendimiento total de 32 instrucciones FP32 FMA por núcleo. Eso es un aumento del 33 por ciento en el rendimiento de la instrucción sobre el Mali-G76.

Arm ha pasado de tres a una sola unidad de ejecución por núcleo de GPU, pero ahora hay dos unidades de procesamiento dentro de un núcleo G77.

Además, cada una de estas unidades de procesamiento contiene dos nuevos bloques de funciones matemáticas. La nueva unidad de conversión (CVT) maneja las instrucciones básicas de enteros, lógica, ramificación y conversión. La unidad de función especial (SFU) acelera la multiplicación entera, divisiones, raíz cuadrada, logaritmos y otras funciones enteras complejas.

La unidad FMA estándar ha visto algunos ajustes, admitiendo 16 instrucciones FP32 por ciclo, 32 FP16 o 64 instrucciones de producto INT8 dot. Estas optimizaciones producen un aumento del rendimiento del 60 por ciento en las aplicaciones de aprendizaje automático.

El mapeador de texturas cuádruples

El otro cambio clave en el Mali-G77 es la introducción de un mapeador de textura cuádruple, en comparación con un mapeador de textura dual en la generación anterior. El mapeador de texturas es responsable de mapear los polígonos 3D de una escena en la representación 2D que ve en la pantalla. Es responsable del muestreo, la interpolación y el filtrado para suavizar el contenido en ángulo y en movimiento para evitar bordes ásperos y de baja calidad.

El suavizado de bajo costo permanece en su lugar para ayudar con la calidad de la imagen, pero la duplicación del rendimiento de la textura es el principal beneficio aquí. La unidad de textura ahora procesa 4 texels bilineales por reloj en lugar de 2 previamente, 2 texels trilineales por reloj, y maneja un filtrado FP16 y FP32 más rápido.

El mapeador de textura cuádruple se divide en dos caminos, lo que proporciona una tubería más corta para los hilos que golpean el contenido en la memoria caché. La ruta de error, que maneja la conversión de formatos y la descompresión de texturas, presenta una interfaz más amplia para el caché L2. Esto también es útil para las cargas de trabajo de aprendizaje automático que con frecuencia necesitan obtener nuevos datos de la memoria.

Reuniendo todo en el Mali-G77

Arm ha realizado una serie de otros ajustes al Mali-G77 para que coincidan con los principales cambios en la arquitectura de Valhall. El bloque de control se simplifica gracias al diseño de la unidad de ejecución única, mientras que el programador dinámico interno realmente permite que se emita una instrucción más flexible dentro de cada núcleo. Con un mayor rendimiento en cada núcleo, la ruta de datos también es más corta y más baja en latencia, hasta solo 4 ciclos desde 8 anteriormente.

El nuevo diseño también está mejor alineado con la API de Vulkan, lo que simplifica los descriptores del controlador para reducir la sobrecarga del controlador y mejorar el rendimiento "al metal".

En resumen, el Mali-G72 y Valhall hacen cambios importantes de Bifrost que prometen aumentos de rendimiento significativos para aplicaciones de juegos y aprendizaje automático. Es importante destacar que el diseño se ajusta a los mismos presupuestos de energía y área que Bifrost, lo que garantiza que los dispositivos móviles podrán ofrecer un rendimiento máximo sin preocuparse por los costos de calor, energía y silicio. Basado en las proyecciones de rendimiento, el Mali-G77 debería ser capaz de darle al Adreno de próxima generación de Qualcomm una buena carrera por su dinero.

Obtuvimo nuetro primer vitazo aparente al Galaxy Note 10 ayer por corteía del confiable tipter OnLeak. Ahora, el modelo amung Galaxy Note 10 Pro también upuetamente e ha filtrado....

La erie Galaxy Note 10 etá a la vuelta de la equina: amung lo anunciará el 7 de agoto. Aunque la compañía no ha compartido mucho detalle obre lo próximo teléfono, tenemo ...

Lee Hoy