Intel® Distribution de OpenVINO™ kit de herramientas

Introducción

Este paquete contiene la Intel® Distribution del software OpenVINO™ Toolkit versión 2023.3 LTS para Linux*, Windows* y macOS*.

Descargas disponibles

Debian Linux*
Tamaño: 24.7 MB
SHA256: A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65

CentOS 7 (1908)*
Tamaño: 48.4 MB
SHA256: BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259

Red Hat Enterprise Linux 8*
Tamaño: 41.7 MB
SHA256: DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD

Ubuntu 22.04 LTS*
Tamaño: 45.6 MB
SHA256: CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D

Ubuntu 20.04 LTS*
Tamaño: 44.6 MB
SHA256: 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03

Ubuntu 18.04 LTS*
Tamaño: 41.7 MB
SHA256: 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31

Ubuntu 18.04 LTS*
Tamaño: 36.1 MB
SHA256: 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1

macOS*
Tamaño: 30.3 MB
SHA256: 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B

macOS*
Tamaño: 124.8 MB
SHA256: EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3

Windows 11*, Windows 10, 64-bit*
Tamaño: 95.9 MB
SHA256: 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

Descripción detallada

Novedades

Más cobertura de IA generativa e integraciones de marcos para minimizar los cambios de código.

Experiencia mejorada lista para usar para los modelos de codificación de oraciones de TensorFlow* a través de la instalación de tokenizadores de kit de herramientas OpenVINO™.
OpenVINO™ kit de herramientas ahora es compatible con Mix of Experts (MoE), una nueva arquitectura que ayuda a procesar modelos generativos más eficientes a través de la tubería.
Los desarrolladores de JavaScript ahora tienen acceso sin problemas a OpenVINO API. Este nuevo enlace permite una integración fluida con la API de JavaScript.
Nuevos y notables modelos validados: Mistral, StableLM-tuned-alpha-3b y StableLM-Epoch-3B.

Compatibilidad más amplia con Large Language Model (LLM) y más técnicas de compresión de modelos.

Se mejoró la calidad de la compresión de peso INT4 para LLM al agregar la técnica popular, Activation-aware Weight Quantization, al marco de compresión de redes neuronales (NNCF). Esta adición reduce los requisitos de memoria y ayuda a acelerar la generación de tokens.
Experimente el desempeño mejorado de LLM en las CPU Intel®, con la mejora del estado de la memoria interna y la precisión INT8 para el caché KV. Específicamente diseñado para LLM de consultas múltiples como ChatGLM.
La versión OpenVINO™ 2024.0 facilita las cosas a los desarrolladores, ya que integra más funciones OpenVINO™ con el ecosistema Hugging Face*. Almacene las configuraciones de cuantificación de los modelos más populares directamente en Hugging Face para comprimir los modelos en formato INT4 mientras se preserva la precisión y el rendimiento.

Más portabilidad y desempeño para ejecutar IA en el perímetro, en la nube o localmente.

Una arquitectura de complemento de vista previa de la Unidad de Procesador Neural (NPU) integrada como parte de Intel® Core™ Ultra procesador ahora se incluye en el paquete principal de OpenVINO™ en PyPI.
Desempeño mejorado en ARM* mediante la habilitación de la biblioteca de subprocesos ARM*. Además, ahora admitimos plataformas ARM multinúcleo y habilitada la precisión FP16 de forma predeterminada en MacOS*.
Muestras de servicio LLM nuevas y mejoradas de OpenVINO™ Model Server para entradas de múltiples lotes y generación aumentada de recuperación (RAG).

Tiempo de ejecución de OpenVINO™

Común

Se ha eliminado la API heredada para los enlaces CPP y Python.
El soporte de StringTensor ha sido extendido por operadores como Gather, Reshape y Concat, como una base para mejorar el soporte para los operadores tokenizadores y el cumplimiento con el TensorFlow Hub.
oneDNN se actualizó a la versión 3.3 para el dispositivo de CPU y a la v3.4 para los objetivos de dispositivos de GPU. (notas de la versión de oneDNN: https://github.com/oneapi-src/oneDNN/releases).

Complemento de dispositivo de CPU

Se mejoró el desempeño de LLM en las plataformas de CPU Intel® en sistemas basados en AVX2 y AVX512, mediante el uso de la cuantificación dinámica y la optimización del estado de la memoria interna, como la precisión INT8 para la caché KV. Las generaciones 13 y 14 de procesadores Intel® Core™ y procesadores Intel® Core™ Ultra utilizan AVX2 para la ejecución de CPU, y estas plataformas se beneficiarán de la aceleración.
Habilite estas características configurando "DYNAMIC_QUANTIZATION_GROUP_SIZE":"32" y "KV_CACHE_PRECISION":"u8" en el archivo de configuración.
La configuración de la API "ov::affinity" ahora está en desuso y se eliminará en la versión 2025.0.
Se han mejorado y optimizado los siguientes elementos:
- LLMs de estructura multiconsulta (como ChatGLM 2/3) para BF16 en procesadores escalables Intel® Xeon® de 4ª y 5ª generación.
- Desempeño del modelo mixtral.
- Tiempo de compilación LLM comprimido de 8 bits y uso de memoria, valioso para modelos con grandes incrustaciones como Qwen.
- Redes convolucionales en precisión FP16 en plataformas ARM.

Complemento de dispositivo de GPU

Se han mejorado y optimizado los siguientes elementos:
- Latencia promedio de token para LLMs en plataformas de GPU integrada (iGPU), utilizando modelos comprimidos INT4 con gran tamaño de contexto en procesadores Intel® Core™ Ultra.
- Desempeño de búsqueda de haz LLM en iGPU. Es posible que se espere una disminución de la latencia promedio y del primer token para tamaños de contexto más grandes.
- Desempeño multilote de YOLOv5 en plataformas iGPU.
Se optimizó el uso de memoria para LLM, lo que permite modelos 7B con un contexto más amplio en plataformas de 16 Gb.

NPU Device Plugin (función de vista previa)

El complemento NPU para OpenVINO™ ya está disponible a través de PyPI (ejecute "pip install openvino").

OpenVINO Python API

.add_extension firmas de métodos se han alineado, mejorando el comportamiento de la API para una mejor experiencia del usuario.

OpenVINO C API

ov_property_key_cache_mode (C++ ov::cache_mode) ahora permite que los modos optimize_size y optimize_speed configuren/obtengan la caché del modelo.
Se corrigió la excepción de la superficie del VA en Windows*.

OpenVINO Node.js API

OpenVINO: los enlaces JS son coherentes con la API de C++ OpenVINO.
Ya está disponible un nuevo canal de distribución: Registro de software del Administrador de paquetes de nodos (npm) (consulte la guía de instalación)
La API de JavaScript ya está disponible para los usuarios de Windows*, ya que se han eliminado algunas limitaciones para plataformas distintas de Linux*.

Compatibilidad con TensorFlow Framework

Los tensores de cadena ahora son compatibles de forma nativa, se manejan en capas de entrada, salida e intermedias #22024
- TensorFlow Hub, codificador de oraciones universal-multilingüe-multilingüe inferido de la caja.
- Tensores de cadena compatibles con las operaciones Gather, Concat y Reshape.
- Integración con el módulo openvino-tokenizers: la importación de openvino-tokenizers corrige automáticamente TensorFlow Frontend con los traductores necesarios para los modelos con tokenización.
El respaldo del Optimizador de modelos por operación a la interfaz de usuario heredada ya no está disponible. La reserva de .json configuración permanecerá hasta que se suspenda el Optimizador de modelos# 21523
Se agregó compatibilidad con lo siguiente:
- Variables y recursos mutables como HashTable*, Variable, VariableV2 #22270
- Nuevos tipos de tensores: tf.u16, tf.u32 y tf.u64 #21864
- 14 NUEVAS operaciones*. Consulte la lista aquí (marcada como NUEVO).
- TensorFlow 2.15 #22180
Se han solucionado los siguientes problemas:
- La conversión UpSampling2D se bloqueó cuando se escribió la entrada como int16 #20838
- Índice de la lista IndexError para Squeeze #22326
- Cálculo correcto de FloorDiv para enteros con signo #22684
- Se ha corregido un error de reparto incorrecto para tf. TensorShape a ov. Forma parcial #22813
- Se corrigieron los atributos tf.string de lectura para los modelos en memoria #22752

Compatibilidad con el marco ONNX

La interfaz de usuario de ONNX* ahora utiliza la API OpenVINO 2.0.

Compatibilidad con el marco de PyTorch

Los nombres de las salidas desempaquetadas del dictado o la tupla ahora son más claros. #22821
FX Graph (torch.compile) ahora admite entradas kwarg, lo que mejora la cobertura del tipo de datos. #22397

Servidor modelo OpenVINO

OpenVINO™ back-end de tiempo de ejecución utilizado es ahora 2024.0.
La demostración de generación de texto ahora admite tamaños de lotes múltiples, con clientes de streaming y unarios.
El cliente REST ahora admite servables basados en gráficos mediapipe, incluidos los nodos de canalización de Python.
Las dependencias incluidas han recibido actualizaciones relacionadas con la seguridad.
La remodelación de un modelo en tiempo de ejecución en función de las solicitudes entrantes (forma automática y tamaño de lote automático) está en desuso y se eliminará en el futuro. En su lugar, se recomienda utilizar los modelos de forma dinámica de OpenVINO.

Marco de compresión de redes neuronales (NNCF)

Ya está disponible el algoritmo Activation-aware Weight Quantization (AWQ) para la compresión de pesos de 4 bits con reconocimiento de datos. Facilita una mejor precisión para LLM comprimidos con una alta relación de pesos de 4 bits. Para habilitarlo, utilice el parámetro opcional dedicado 'awq' de la API nncf.compress_weights().
Los modelos ONNX ahora son compatibles con la cuantificación posterior al entrenamiento con control de precisión, a través del método nncf.quantize_with_accuracy_control(). Se puede utilizar para modelos en los formatos OpenVINO IR y ONNX.
Ahora está disponible un tutorial de ejemplo de compresión de peso, que demuestra cómo encontrar los hiperparámetros apropiados para el modelo TinyLLama de los transformadores de cara abrazadora, así como otros LLM, con algunas modificaciones.

Tokenizador OpenVINO

Se ha mejorado la compatibilidad con Regex.
Se ha mejorado la cobertura del modelo.
Se han agregado metadatos del tokenizador a rt_info.
Se agregó soporte limitado para los modelos de texto Tensorflow: convierta MUSE para TF Hub con entradas de cadena.
OpenVINO tokenizadores tienen su propio repositorio ahora: https://github.com/openvinotoolkit/openvino_tokenizers

Otros cambios y problemas conocidos

Jupyter Notebooks

Los siguientes blocs de notas se han actualizado o se han agregado recientemente:

Asistente lingüístico móvil con MobileVLM
Estimación de profundidad con DepthAnything
Kosmos-2
Clasificación de imágenes de disparo cero con SigLIP
Generación de imágenes personalizadas con PhotMaker
Clonación de tonos de voz con OpenVoice
Detección de texto a nivel de línea con Surya
InstantID: Generación de preservación de identidad de disparo cero utilizando OpenVINO
Tutorial para la cuantificación de modelos de Big Image Transfer (BIT) usando NNCF
Tutorial para la integración de OpenVINO tokenizers en procesos de inferencia
LLM chatbot y LLM RAG pipeline han recibido integración con nuevos modelos: minicpm-2b-dpo, gemma-7b-it, qwen1.5-7b-chat, baichuan2-7b-chat

Problemas conocidos

Componente: PyTorch FE.

Identificación: N/A

Descripción: a partir de la versión 2024.0, las entradas y salidas de modelos ya no tendrán nombres de tensores, a menos que se establezcan explícitamente para alinearse con el comportamiento del marco de PyTorch.

Componente: tiempo de ejecución de la GPU.

ID Artículo: 132376

Descripción: la latencia de la primera inferencia se ralentiza para las LLM en procesadores Intel® Core™ Ultra. Puede producirse una caída de hasta el 10-20% debido a la optimización radical de la memoria para procesar secuencias largas (aproximadamente 1,5-2 GB de reducción del uso de memoria).

Componente: Tiempo de ejecución de la CPU.

Identificación: N/A

Descripción: Los resultados de desempeño (latencia del primer token) pueden variar de los ofrecidos por la versión OpenVINO anterior, para la inferencia de sugerencias de "latencia" de LLM con indicaciones largas en plataformas Intel® Xeon® con 2 o más zócalos. El motivo es que se emplean todos los núcleos de CPU de un único zócalo que ejecuta la aplicación, lo que reduce la sobrecarga de memoria para los LLM cuando no se usa el control numa.

Solución alternativa: se espera el comportamiento, pero se puede utilizar la configuración de transmisión y subproceso para incluir núcleos de todos los sockets.

Desuso y compatibilidad

No se recomienda el uso de características y componentes obsoletos. Están disponibles para permitir una transición sin problemas a nuevas soluciones y se descontinuarán en el futuro. Para seguir usando las funciones descontinuadas, tendrás que volver a la última versión LTS OpenVINO que las admita.

Para obtener más información, consulte la página OpenVINO Características y componentes heredados.

Discontinuado en 2024.0:

Componentes de tiempo de ejecución:
- Intel® Gaussian & Neural Accelerator (Intel® GNA). Considere usar la Unidad de Procesamiento Neural (NPU) para sistemas de baja potencia como Intel® Core™ Ultra o 14ª generación y más.
- OpenVINO API de C++/C/Python 1.0 (consulte la guía de transición de API 2023.3 como referencia).
- Toda la API heredada de ONNX Frontend (conocida como ONNX_IMPORTER_API)
- Propiedad 'PerfomanceMode.UNDEFINED' como parte de la API de Python OpenVINO
Herramientas:
- Administrador de despliegue. Consulte las guías de instalación e implementación para conocer las opciones de distribución actuales.
- Comprobador de precisión.
- Herramienta de optimización post-entrenamiento (POT). En su lugar, se debe utilizar el marco de compresión de redes neuronales (NNCF).
- un parche git para la integración de NNCF con huggingface/transformers. El enfoque recomendado es usar huggingface/optimum-intel para aplicar la optimización de NNCF sobre los modelos de Hugging Face.
- Compatibilidad con los formatos de modelo Apache MXNet, Caffe y Kaldi. La conversión a ONNX puede utilizarse como solución.

Obsoleto y se eliminará en el futuro:

El paquete de herramientas de desarrollo de OpenVINO™ (pip install openvino-dev) se eliminará de las opciones de instalación y los canales de distribución a partir de OpenVINO 2025.0.
Model Optimizer se descontinuará con OpenVINO 2025.0. Considere usar OpenVINO convertidor de modelos (llamada API: OVC) en su lugar. Siga la guía de transición de conversión de modelos para obtener más detalles.
OpenVINO propiedad Affinity API se descontinuará con OpenVINO 2025.0. Se reemplazará con configuraciones de enlace de CPU (ov::hint::enable_cpu_pinning).
OpenVINO componentes del servidor modelo:
- La remodelación de un modelo en tiempo de ejecución en función de las solicitudes entrantes (forma automática y tamaño de lote automático) está en desuso y se eliminará en el futuro. En su lugar, se recomienda utilizar los modelos de forma dinámica de OpenVINO.

Requisitos del sistema

Renuncia. Cierto hardware (incluidos, entre otros, GPU y NPU) requiere la instalación manual de controladores específicos y/u otros componentes de software para funcionar correctamente y/o utilizar las capacidades del hardware de la mejor manera. Esto podría requerir actualizaciones del sistema operativo, incluyendo pero no limitado al kernel de Linux, consulte su documentación para obtener más detalles. Estas modificaciones deben ser manejadas por el usuario y no forman parte de OpenVINO instalación. Estas modificaciones deben ser manejadas por el usuario y no forman parte de OpenVINO instalación. Para conocer los requisitos del sistema, consulte la sección Requisitos del sistema en Notas de la versión.

Instrucciones de instalación

Puede elegir cómo instalar OpenVINO™ Runtime según su sistema operativo:

Qué se incluye en el paquete de descarga

Motor de inferencia/tiempo de ejecución OpenVINO™ para C/C++

Enlaces útiles

NOTA: Los vínculos se abren en una ventana nueva.

Esta descarga es válida para los productos mencionados a continuación.

OpenVINO™ toolkit

Descargo de responsabilidad¹

Información sobre productos y desempeño

Intel se encuentra en el proceso de eliminar el lenguaje no inclusivo de la documentación actual, las interfaces de usuario y el código. Tenga presente que no siempre es posible realizar cambios retroactivos; asimismo, es posible que instancias de lenguaje no inclusivo permanezcan en documentación anterior, interfaces de usuario y código.

El contenido de esta página es una combinación de la traducción humana y automática del contenido original en inglés. Este contenido se ofrece únicamente para su comodidad como información general y no debe considerarse completa o precisa. Si hay alguna contradicción entre la versión en inglés de esta página y la traducción, prevalecerá la versión en inglés. Consulte la versión en inglés de esta página.

Seleccione el idioma

Uso de la búsqueda de Intel.com

Enlaces rápidos

Búsquedas recientes

Búsqueda avanzada

Solo buscar en

Intel® Distribution de OpenVINO™ kit de herramientas

Introducción

Descargas disponibles

Descripción detallada

Novedades

Tiempo de ejecución de OpenVINO™

Común

Complemento de dispositivo de CPU

Complemento de dispositivo de GPU

NPU Device Plugin (función de vista previa)

OpenVINO Python API

OpenVINO C API

OpenVINO Node.js API

Compatibilidad con TensorFlow Framework

Compatibilidad con el marco ONNX

Compatibilidad con el marco de PyTorch

Servidor modelo OpenVINO

Marco de compresión de redes neuronales (NNCF)

Tokenizador OpenVINO

Otros cambios y problemas conocidos

Jupyter Notebooks

Problemas conocidos

Desuso y compatibilidad

Esta descarga es válida para los productos mencionados a continuación.

Descargo de responsabilidad¹

Información sobre productos y desempeño

Uso de la búsqueda de Intel.com

Enlaces rápidos

Búsquedas recientes

Búsqueda avanzada

Solo buscar en

Intel® Distribution de OpenVINO™ kit de herramientas

Introducción

Descargas disponibles

Descripción detallada

Novedades

Tiempo de ejecución de OpenVINO™

Común

Complemento de dispositivo de CPU

Complemento de dispositivo de GPU

NPU Device Plugin (función de vista previa)

OpenVINO Python API

OpenVINO C API

OpenVINO Node.js API

Compatibilidad con TensorFlow Framework

Compatibilidad con el marco ONNX

Compatibilidad con el marco de PyTorch

Servidor modelo OpenVINO

Marco de compresión de redes neuronales (NNCF)

Tokenizador OpenVINO

Otros cambios y problemas conocidos

Jupyter Notebooks

Problemas conocidos

Desuso y compatibilidad

Esta descarga es válida para los productos mencionados a continuación.

Descargo de responsabilidad1

Información sobre productos y desempeño

Descargo de responsabilidad¹