Intel® Distribution de OpenVINO™ kit de herramientas

753640
3/6/2024

Introducción

Este paquete contiene la Intel® Distribution del software OpenVINO™ Toolkit versión 2023.3 LTS para Linux*, Windows* y macOS*.

Descargas disponibles

  • Debian Linux*
  • Tamaño: 24.7 MB
  • SHA256: A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65
  • CentOS 7 (1908)*
  • Tamaño: 48.4 MB
  • SHA256: BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259
  • Red Hat Enterprise Linux 8*
  • Tamaño: 41.7 MB
  • SHA256: DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD
  • Ubuntu 22.04 LTS*
  • Tamaño: 45.6 MB
  • SHA256: CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D
  • Ubuntu 20.04 LTS*
  • Tamaño: 44.6 MB
  • SHA256: 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03
  • Ubuntu 18.04 LTS*
  • Tamaño: 41.7 MB
  • SHA256: 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31
  • Ubuntu 18.04 LTS*
  • Tamaño: 36.1 MB
  • SHA256: 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1
  • macOS*
  • Tamaño: 30.3 MB
  • SHA256: 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B
  • macOS*
  • Tamaño: 124.8 MB
  • SHA256: EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3
  • Windows 11*, Windows 10, 64-bit*
  • Tamaño: 95.9 MB
  • SHA256: 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

Descripción detallada

Novedades

Más cobertura de IA generativa e integraciones de marcos para minimizar los cambios de código.

  • Experiencia mejorada lista para usar para los modelos de codificación de oraciones de TensorFlow* a través de la instalación de tokenizadores de kit de herramientas OpenVINO™.
  • OpenVINO™ kit de herramientas ahora es compatible con Mix of Experts (MoE), una nueva arquitectura que ayuda a procesar modelos generativos más eficientes a través de la tubería.
  • Los desarrolladores de JavaScript ahora tienen acceso sin problemas a OpenVINO API. Este nuevo enlace permite una integración fluida con la API de JavaScript.
  • Nuevos y notables modelos validados: Mistral, StableLM-tuned-alpha-3b y StableLM-Epoch-3B.

Compatibilidad más amplia con Large Language Model (LLM) y más técnicas de compresión de modelos.

  • Se mejoró la calidad de la compresión de peso INT4 para LLM al agregar la técnica popular, Activation-aware Weight Quantization, al marco de compresión de redes neuronales (NNCF). Esta adición reduce los requisitos de memoria y ayuda a acelerar la generación de tokens.
  • Experimente el desempeño mejorado de LLM en las CPU Intel®, con la mejora del estado de la memoria interna y la precisión INT8 para el caché KV. Específicamente diseñado para LLM de consultas múltiples como ChatGLM.
  • La versión OpenVINO™ 2024.0 facilita las cosas a los desarrolladores, ya que integra más funciones OpenVINO™ con el ecosistema Hugging Face*. Almacene las configuraciones de cuantificación de los modelos más populares directamente en Hugging Face para comprimir los modelos en formato INT4 mientras se preserva la precisión y el rendimiento.

Más portabilidad y desempeño para ejecutar IA en el perímetro, en la nube o localmente.

  • Una arquitectura de complemento de vista previa de la Unidad de Procesador Neural (NPU) integrada como parte de Intel® Core™ Ultra procesador ahora se incluye en el paquete principal de OpenVINO™ en PyPI.
  • Desempeño mejorado en ARM* mediante la habilitación de la biblioteca de subprocesos ARM*. Además, ahora admitimos plataformas ARM multinúcleo y habilitada la precisión FP16 de forma predeterminada en MacOS*.
  • Muestras de servicio LLM nuevas y mejoradas de OpenVINO™ Model Server para entradas de múltiples lotes y generación aumentada de recuperación (RAG).

Tiempo de ejecución de OpenVINO™

Común

  • Se ha eliminado la API heredada para los enlaces CPP y Python.
  • El soporte de StringTensor ha sido extendido por operadores como Gather, Reshape y Concat, como una base para mejorar el soporte para los operadores tokenizadores y el cumplimiento con el TensorFlow Hub.
  • oneDNN se actualizó a la versión 3.3 para el dispositivo de CPU y a la v3.4 para los objetivos de dispositivos de GPU. (notas de la versión de oneDNN: https://github.com/oneapi-src/oneDNN/releases).

Complemento de dispositivo de CPU

  • Se mejoró el desempeño de LLM en las plataformas de CPU Intel® en sistemas basados en AVX2 y AVX512, mediante el uso de la cuantificación dinámica y la optimización del estado de la memoria interna, como la precisión INT8 para la caché KV. Las generaciones 13 y 14 de procesadores Intel® Core™ y procesadores Intel® Core™ Ultra utilizan AVX2 para la ejecución de CPU, y estas plataformas se beneficiarán de la aceleración.
  • Habilite estas características configurando "DYNAMIC_QUANTIZATION_GROUP_SIZE":"32" y "KV_CACHE_PRECISION":"u8" en el archivo de configuración.
  • La configuración de la API "ov::affinity" ahora está en desuso y se eliminará en la versión 2025.0.
  • Se han mejorado y optimizado los siguientes elementos:
    • LLMs de estructura multiconsulta (como ChatGLM 2/3) para BF16 en procesadores escalables Intel® Xeon® de 4ª y 5ª generación.
    • Desempeño del modelo mixtral.
    • Tiempo de compilación LLM comprimido de 8 bits y uso de memoria, valioso para modelos con grandes incrustaciones como Qwen.
    • Redes convolucionales en precisión FP16 en plataformas ARM.

Complemento de dispositivo de GPU

  • Se han mejorado y optimizado los siguientes elementos:
    • Latencia promedio de token para LLMs en plataformas de GPU integrada (iGPU), utilizando modelos comprimidos INT4 con gran tamaño de contexto en procesadores Intel® Core™ Ultra.
    • Desempeño de búsqueda de haz LLM en iGPU. Es posible que se espere una disminución de la latencia promedio y del primer token para tamaños de contexto más grandes.
    • Desempeño multilote de YOLOv5 en plataformas iGPU.
  • Se optimizó el uso de memoria para LLM, lo que permite modelos 7B con un contexto más amplio en plataformas de 16 Gb.

NPU Device Plugin (función de vista previa)

  • El complemento NPU para OpenVINO™ ya está disponible a través de PyPI (ejecute "pip install openvino").

OpenVINO Python API

  • .add_extension firmas de métodos se han alineado, mejorando el comportamiento de la API para una mejor experiencia del usuario.

OpenVINO C API

  • ov_property_key_cache_mode (C++ ov::cache_mode) ahora permite que los modos optimize_size y optimize_speed configuren/obtengan la caché del modelo.
  • Se corrigió la excepción de la superficie del VA en Windows*.

OpenVINO Node.js API

  • OpenVINO: los enlaces JS son coherentes con la API de C++ OpenVINO.
  • Ya está disponible un nuevo canal de distribución: Registro de software del Administrador de paquetes de nodos (npm) (consulte la guía de instalación)
  • La API de JavaScript ya está disponible para los usuarios de Windows*, ya que se han eliminado algunas limitaciones para plataformas distintas de Linux*.

Compatibilidad con TensorFlow Framework

  • Los tensores de cadena ahora son compatibles de forma nativa, se manejan en capas de entrada, salida e intermedias #22024
    • TensorFlow Hub, codificador de oraciones universal-multilingüe-multilingüe inferido de la caja.
    • Tensores de cadena compatibles con las operaciones Gather, Concat y Reshape.
    • Integración con el módulo openvino-tokenizers: la importación de openvino-tokenizers corrige automáticamente TensorFlow Frontend con los traductores necesarios para los modelos con tokenización.
  • El respaldo del Optimizador de modelos por operación a la interfaz de usuario heredada ya no está disponible. La reserva de .json configuración permanecerá hasta que se suspenda el Optimizador de modelos# 21523
  • Se agregó compatibilidad con lo siguiente:
    • Variables y recursos mutables como HashTable*, Variable, VariableV2 #22270
    • Nuevos tipos de tensores: tf.u16, tf.u32 y tf.u64 #21864
    • 14 NUEVAS operaciones*. Consulte la lista aquí (marcada como NUEVO).
    • TensorFlow 2.15 #22180
  • Se han solucionado los siguientes problemas:
    • La conversión UpSampling2D se bloqueó cuando se escribió la entrada como int16 #20838
    • Índice de la lista IndexError para Squeeze #22326
    • Cálculo correcto de FloorDiv para enteros con signo #22684
    • Se ha corregido un error de reparto incorrecto para tf. TensorShape a ov. Forma parcial #22813
    • Se corrigieron los atributos tf.string de lectura para los modelos en memoria #22752

Compatibilidad con el marco ONNX

  • La interfaz de usuario de ONNX* ahora utiliza la API OpenVINO 2.0.

Compatibilidad con el marco de PyTorch

  • Los nombres de las salidas desempaquetadas del dictado o la tupla ahora son más claros. #22821
  • FX Graph (torch.compile) ahora admite entradas kwarg, lo que mejora la cobertura del tipo de datos. #22397

Servidor modelo OpenVINO

  • OpenVINO™ back-end de tiempo de ejecución utilizado es ahora 2024.0.
  • La demostración de generación de texto ahora admite tamaños de lotes múltiples, con clientes de streaming y unarios.
  • El cliente REST ahora admite servables basados en gráficos mediapipe, incluidos los nodos de canalización de Python.
  • Las dependencias incluidas han recibido actualizaciones relacionadas con la seguridad.
  • La remodelación de un modelo en tiempo de ejecución en función de las solicitudes entrantes (forma automática y tamaño de lote automático) está en desuso y se eliminará en el futuro. En su lugar, se recomienda utilizar los modelos de forma dinámica de OpenVINO.

Marco de compresión de redes neuronales (NNCF)

  • Ya está disponible el algoritmo Activation-aware Weight Quantization (AWQ) para la compresión de pesos de 4 bits con reconocimiento de datos. Facilita una mejor precisión para LLM comprimidos con una alta relación de pesos de 4 bits. Para habilitarlo, utilice el parámetro opcional dedicado 'awq' de la API nncf.compress_weights().
  • Los modelos ONNX ahora son compatibles con la cuantificación posterior al entrenamiento con control de precisión, a través del método nncf.quantize_with_accuracy_control(). Se puede utilizar para modelos en los formatos OpenVINO IR y ONNX.
  • Ahora está disponible un tutorial de ejemplo de compresión de peso, que demuestra cómo encontrar los hiperparámetros apropiados para el modelo TinyLLama de los transformadores de cara abrazadora, así como otros LLM, con algunas modificaciones.

Tokenizador OpenVINO

  • Se ha mejorado la compatibilidad con Regex.
  • Se ha mejorado la cobertura del modelo.
  • Se han agregado metadatos del tokenizador a rt_info.
  • Se agregó soporte limitado para los modelos de texto Tensorflow: convierta MUSE para TF Hub con entradas de cadena.
  • OpenVINO tokenizadores tienen su propio repositorio ahora: https://github.com/openvinotoolkit/openvino_tokenizers

Otros cambios y problemas conocidos

Jupyter Notebooks

Los siguientes blocs de notas se han actualizado o se han agregado recientemente:

Problemas conocidos

Componente: PyTorch FE.

Identificación: N/A

Descripción: a partir de la versión 2024.0, las entradas y salidas de modelos ya no tendrán nombres de tensores, a menos que se establezcan explícitamente para alinearse con el comportamiento del marco de PyTorch.

Componente: tiempo de ejecución de la GPU.

ID Artículo: 132376

Descripción: la latencia de la primera inferencia se ralentiza para las LLM en procesadores Intel® Core™ Ultra. Puede producirse una caída de hasta el 10-20% debido a la optimización radical de la memoria para procesar secuencias largas (aproximadamente 1,5-2 GB de reducción del uso de memoria).

Componente: Tiempo de ejecución de la CPU.

Identificación: N/A

Descripción: Los resultados de desempeño (latencia del primer token) pueden variar de los ofrecidos por la versión OpenVINO anterior, para la inferencia de sugerencias de "latencia" de LLM con indicaciones largas en plataformas Intel® Xeon® con 2 o más zócalos. El motivo es que se emplean todos los núcleos de CPU de un único zócalo que ejecuta la aplicación, lo que reduce la sobrecarga de memoria para los LLM cuando no se usa el control numa.

Solución alternativa: se espera el comportamiento, pero se puede utilizar la configuración de transmisión y subproceso para incluir núcleos de todos los sockets.

Desuso y compatibilidad

No se recomienda el uso de características y componentes obsoletos. Están disponibles para permitir una transición sin problemas a nuevas soluciones y se descontinuarán en el futuro. Para seguir usando las funciones descontinuadas, tendrás que volver a la última versión LTS OpenVINO que las admita.

Para obtener más información, consulte la página OpenVINO Características y componentes heredados.

Discontinuado en 2024.0:

Obsoleto y se eliminará en el futuro:

  • El paquete de herramientas de desarrollo de OpenVINO™ (pip install openvino-dev) se eliminará de las opciones de instalación y los canales de distribución a partir de OpenVINO 2025.0.
  • Model Optimizer se descontinuará con OpenVINO 2025.0. Considere usar OpenVINO convertidor de modelos (llamada API: OVC) en su lugar. Siga la guía de transición de conversión de modelos para obtener más detalles.
  • OpenVINO propiedad Affinity API se descontinuará con OpenVINO 2025.0. Se reemplazará con configuraciones de enlace de CPU (ov::hint::enable_cpu_pinning).
  • OpenVINO componentes del servidor modelo:
    • La remodelación de un modelo en tiempo de ejecución en función de las solicitudes entrantes (forma automática y tamaño de lote automático) está en desuso y se eliminará en el futuro. En su lugar, se recomienda utilizar los modelos de forma dinámica de OpenVINO.

Requisitos del sistema

Renuncia. Cierto hardware (incluidos, entre otros, GPU y NPU) requiere la instalación manual de controladores específicos y/u otros componentes de software para funcionar correctamente y/o utilizar las capacidades del hardware de la mejor manera. Esto podría requerir actualizaciones del sistema operativo, incluyendo pero no limitado al kernel de Linux, consulte su documentación para obtener más detalles. Estas modificaciones deben ser manejadas por el usuario y no forman parte de OpenVINO instalación. Estas modificaciones deben ser manejadas por el usuario y no forman parte de OpenVINO instalación. Para conocer los requisitos del sistema, consulte la sección Requisitos del sistema en Notas de la versión.

Instrucciones de instalación

Puede elegir cómo instalar OpenVINO™ Runtime según su sistema operativo:

Qué se incluye en el paquete de descarga

  • Motor de inferencia/tiempo de ejecución OpenVINO™ para C/C++

Enlaces útiles

NOTA: Los vínculos se abren en una ventana nueva.

Esta descarga es válida para los productos mencionados a continuación.

El contenido de esta página es una combinación de la traducción humana y automática del contenido original en inglés. Este contenido se ofrece únicamente para su comodidad como información general y no debe considerarse completa o precisa. Si hay alguna contradicción entre la versión en inglés de esta página y la traducción, prevalecerá la versión en inglés. Consulte la versión en inglés de esta página.