La latencia mide el tiempo de inferencia necesario para procesar una sola entrada si se inferencia sincrónica.
Cuando se ejecuta OpenVINO™ Benchmark con parámetros predeterminados, se inferencia en modo asincrónico. Por lo tanto, la latencia resultado mide el tiempo total de inferencia necesario para procesar el número de solicitudes de inferencia.
Además, al ejecutar la aplicación de análisis de desempeño en la CPU con parámetros predeterminados, se crearon 4 solicitudes de inferencia, mientras que se crearon 16 solicitudes de inferencia si se ejecuta Benchmark App en la GPU con parámetros predeterminados. Por lo tanto, la latencia resultante de la inferencia en la GPU es mayor que en la CPU.
Especifique el mismo número de solicitudes de inferencia al ejecutar la aplicación de análisis de desempeño en CPU y GPU para una comparación justa:
benchmark_app.exe -m model.xml -d CPU -nireq 4
benchmark_app.exe -m model.xml -d CPU -nireq 4