Se espera que el formato FP16 realice una inferencia más rápida en comparación con el mismo modelo en formato FP32. Usar el benchmark_app ejecutar inferencia con la configuración predeterminada de la aplicación para ambos formatos, pero no hay mejora en el desempeño (FPS más altos) al comparar el modelo de formato FP16 con el modelo de formato FP32.
Para ejecutar el modelo FP32 como formato F32 mientras usa el benchmark_app, agregue -infer_precision f32 para el dispositivo elegido.
Por ejemplo:
$ benchmark_app -m intel/bert-large-uncased-whole-word-masking-squad-0001/FP32/bert-large-uncased-whole-word-masking-squad-0001.xml -d GPU -t 5 -api async -hint throughput -infer_precision f32
Para el complemento de GPU, la precisión de punto flotante de una primitiva de GPU se selecciona en función de la precisión de la operación en el IR OpenVINO, excepto para el formulario IR OpenVINO f16 comprimido <, que se ejecuta en la f16 precisión.
Para el complemento de CPU, la precisión de punto flotante predeterminada de una primitiva de CPU es f32. Para admitir el IR f16 OpenVINO™, el complemento convierte internamente todos los valores de f16 a f32 y todos los cálculos se realizan utilizando la precisión nativa de f32. En las plataformas que admiten cálculos bfloat16 de forma nativa (tienen la extensión AVX512_BF16 o AMX), se utiliza automáticamente el tipo bf16 en lugar de f32 para obtener un mejor rendimiento (consulte la Sugerencia del modo de ejecución).
Para obtener información adicional sobre los tipos de datos para complementos de CPU/GPU, consulte: