Cargar la representación intermedia (IR) de un modelo de entrada en la GPU lleva más tiempo que cargar el mismo modelo en una CPU.
Cree manualmente cl_cache directorio en el directorio de trabajo de la aplicación.
El controlador utilizará este directorio para almacenar las representaciones binarias de los núcleos compilados. Esto funcionará en todos los sistemas operativos compatibles.
Como alternativa, establezca la variable de entorno:
export INTEL_OPENCL_CACHE=1
Consulte este artículo para conocer la descripción general del almacenamiento en caché de modelos para optimizar la latencia.
Cargar el modelo de entrada en formato de representación intermedia (IR) en la GPU lleva más tiempo que cargar el mismo modelo en una CPU, ya que la pila de GPU está basada en OpenCL*. El tiempo de carga depende del tiempo de compilación de los kernels de OpenCL*.
Cuando habilite el cl_cache, la primera vez que cargue el modelo, todavía llevará mucho tiempo porque el kernel de OpenCL* se compilará. Sin embargo, cada carga posterior del mismo modelo será mucho más rápida.
Para la configuración de caché mediante programación en OpenVINO™ 2026.0:
core.set_property("GPU", {"CACHE_DIR": "./cl_cache"})