En el último párrafo de la Guía de optimización de baja precisión, se menciona el entrenamiento consciente de la cuantificación. Dice que esto permite a un usuario obtener un modelo optimizado preciso que se puede convertir a IR. Sin embargo, no se proporcionan más detalles.
El entrenamiento de Quantization-Aware, que utiliza OpenVINO™ marcos de entrenamiento compatibles, admite modelos escritos en TensorFlow QAT o PyTorch NNCF, con extensiones de optimización.
NNCF es un marco basado en PyTorch que admite una amplia gama de modelos de aprendizaje profundo para diversos casos de uso. También implementa un entrenamiento consciente de la cuantificación que admite diferentes modos y configuraciones de cuantificación, y admite varios algoritmos de compresión, como la cuantificación, la binarización, la sparsidad y la poda de filtros.
Cuando termina el ajuste preciso, el modelo optimizado preciso se puede exportar al formato ONNX, que luego puede ser utilizado por el optimizador de modelos para generar archivos de representación intermedia (IR) y se inferir con el Motor de inferencia OpenVINO™.