En la documentación de optimización de modelos, se menciona el entrenamiento consciente de cuantización (QAT). Afirma que QAT permite a un usuario obtener un modelo optimizado preciso que se puede convertir a OpenVINO™ representación intermedia (IR). Sin embargo, no se proporcionan detalles adicionales. Refiérase a:
El entrenamiento consciente de la cuantificación (QAT), que utiliza marcos de entrenamiento compatibles con OpenVINO™, es compatible con el Marco de compresión de redes neuronales (NNCF) para:
NNCF es un marco que proporciona métodos de compresión de modelos posteriores al entrenamiento y al tiempo de entrenamiento (incluido QAT) y se utiliza para optimizar modelos para inferencia OpenVINO.
Una vez completado el ajuste de QAT, se puede exportar el modelo optimizado (comúnmente a ONNX*) y luego convertirlo a OpenVINO™ IR para su implementación.
| Nota | La transición a la precisión INT8 y los beneficios de huella correspondientes se producen después de convertir el modelo a OpenVINO IR. |
Consulte los siguientes artículos:
Canal de baja precisión mejorado para acelerar la inferencia con OpenVINO toolkit