Cómo convertir su voz en texto con Whisper de OpenAI para Windows

2023/02/07

Whisper de OpenAI es una nueva solución impulsada por IA que puede convertir su voz en texto. Lo mejor de todo es que tiene un costo cero.

Sin embargo, hay un problema: es más difícil de instalar y usar que la utilidad promedio de Windows. Especialmente si desea utilizar los núcleos tensoriales de su GPU Nvidia para darle un buen impulso.

Sin embargo, no te preocupes. ¡Por eso estamos aquí! Siga leyendo para saber cómo instalarlo y usarlo, pero también, si tiene uno, para que Whisper aproveche su GPU Nvidia.

¿Qué es el susurro de OpenAI?

ChatGPT está de moda hoy en día, y ya vimos cómo puedes usar ChatGPT de OpenAI. Y, sin embargo, no es el único proyecto interesante de OpenAI.

Con tecnología de aprendizaje profundo y redes neuronales, Whisper es un sistema de procesamiento de lenguaje natural que puede «entender» el habla y transcribirla a texto. Pero también es algo propio, sentado en un lugar justo entre todas las soluciones similares:

Whisper es una solución de IA “entrenada” en lenguaje natural. Por lo tanto, es mejor para comprender el habla humana «normal» que las soluciones más antiguas.
Whisper no viene con una interfaz, ni puede grabar audio. Solo puede tomar archivos de audio existentes y archivos de texto de salida.
Dado que es bueno para «darle sentido al lenguaje», Whisper también tiene el superpoder de la traducción automática en un solo paso.
Whisper no es un servicio en línea y puede funcionar completamente fuera de línea.
Si tiene una GPU Nvidia relativamente moderna (GTX970 o más nueva), Whisper puede ejecutarse en «modo acelerado por hardware» para aumentar su velocidad.
No hay requisitos para registrarse, comprar una licencia o comprar una suscripción.

¿Por qué no son compatibles las GPU de AMD?

Para que las GPU sean útiles para algo más que gráficos, tendrían que actuar como procesadores totalmente programables. Es por eso que Nvidia creó CUDA, considerado oficialmente como «una plataforma de cómputo paralelo y un modelo de programación». Para obtener más información sobre CUDA y el hardware relacionado («núcleos CUDA»), lea nuestro artículo sobre qué son los núcleos CUDA y cómo mejoran los juegos de PC.

CUDA es una tecnología patentada de Nvidia, solo compatible con las GPU de Nvidia. Las alternativas más cercanas para el hardware de AMD son OpenCL y Radeon Compute Platform. Para obtener más información sobre cómo se comparan las soluciones de cada empresa, consulte nuestro artículo sobre unidades de cómputo de AMD frente a núcleos CUDA de Nvidia.

En comparación con las alternativas, CUDA se considera más maduro, eficaz y fácil de usar. Por lo tanto, la mayoría de los desarrolladores solo se enfocan en CUDA, lo que, a su vez, significa que su software solo aprovecha las características del hardware en las GPU de Nvidia. Y eso incluye Susurro.

Cómo descargar e instalar Whisper

Lamentablemente, Whisper no es una aplicación independiente que pueda descargar, instalar y ejecutar. Se basa en otro software, que también debe instalarse.

Para Windows, para simplificar esta guía, utilizaremos Chocolatey de forma extensiva para instalar la mayoría de las partes de software necesarias. Consulte nuestra guía sobre la forma más rápida de instalar el software de Windows para obtener más información sobre Chocolatey.

Para Linux y Mac, el proceso de instalación (excluyendo la variable de ruta de Windows y los archivos por lotes fáciles de usar que crearemos) debería ser similar.

Para instalar y usar Whisper, debe tener Python y su herramienta PIP instalados y agregados a la variable «Ruta» de Windows. Para obtener información al respecto, consulte nuestro artículo sobre cómo instalar Python PIP en Windows, Mac y Linux.
Instale FFMPEG a través de Chocolatey con este comando: Además, instale su versión de Python con: choco install ffmpeg pip3 install python-ffmpeg
Finalmente, instala Whisper desde su página de Github con: pip3 install git+https://github.com/openai/whisper.git

Obtener la versión habilitada para CUDA de Whisper

Aunque Whisper no usa GPU Nvidia, el paquete de antorcha en el que se basa ofrece una versión acelerada por CUDA. Usar esto en lugar de la versión «simple» puede ayudar a Whisper a completar sus transcripciones mucho más rápido con la ayuda de su GPU Nvidia.

Para que Whisper use los núcleos CUDA de su GPU Nvidia:

Si ya tiene instalada la versión «vainilla» de torch, desinstálela y elimine los restos con: Una vez que haya terminado, continúe con: pip3 uninstall torch pip cache purge
Instale la versión habilitada para CUDA de torch con: pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
Para verificar si Whisper puede usar su GPU Nvidia, use: Debería ver (predeterminado: cuda) en lugar de (predeterminado: cpu) . whisper --help | findstr -i pytorch

Qué hacer si Torch no se instala

Si encuentra el error «no se encontró la versión» al instalar Torch, es posible que deba instalar una versión anterior de Python paralela a la actual.

Use este comando para hacer eso:

choco install python --version OLDER_VERSION --side-by-side

Reemplace «VERSIÓN_ANTERIOR» con una versión, como 3.10.

choco instala la versión alternativa de python

Luego, use la ruta de la versión secundaria para todos los comandos de Whisper «genéricos» (p. ej., «c:\Python310\Scripts\pip.exe» en lugar de solo «pip»).

Cómo grabar tu voz

Puede usar cualquier aplicación de grabación de sonido para convertir su voz en un archivo WAV o MP3. Windows incluye una aplicación de este tipo; para obtener más información al respecto, consulte cómo usar la aplicación Grabadora de voz de Windows 10.

Para una opción más completa, pruebe Audacity . Aprende cómo hacerlo con nuestra guía sobre cómo usar Audacity para grabar audio en Windows y Mac.

Cómo empezar a transcribir con Whisper

Aunque Whisper no viene con una GUI fácil de usar, su uso es muy simple.

Digamos que tenemos el archivo LatestNote.mp3 que contiene voz en griego, en la carpeta c:\MyAudioFiles , y queremos traducirlo al inglés y transcribirlo en un archivo de texto.

Comenzamos ejecutando Command Prompt o PowerShell .
Hacemos “cambio de directorio” donde se almacena el archivo de audio con este comando: cd C:\MyAudioFiles
Desatamos Whisper en el archivo con: whisper --model base --language gr --task translate LatestNote.mp3

Una vez procesado, el archivo de texto (llamado “LatestNote.mp3.txt”) aparecerá en la misma carpeta. Ábralo en un editor de texto como el Bloc de notas para ver el texto traducido.

Usamos un ejemplo de traducción porque la transcripción en inglés es aún más sencilla: solo tiene que «perder» los indicadores «-idioma» y «-tarea». Por lo tanto, para una transcripción simple, el comando anterior sería:

whisper --model base LatestNote.mp3

El indicador de «modelo» es obligatorio porque Whisper utiliza una de varias opciones. Vamos a ampliarlos para ayudarlo a elegir el mejor para sus necesidades.

¿Qué modelo elegir?

Whisper ofrece varios modelos de lenguaje. Cuanto más grande sea el modelo, más mejorará su precisión, pero también mayores serán sus requisitos de hardware. Ellos son:

Diminuto.
Base.
Pequeño.
Medio.
Grande.

La mayoría de los hablantes nativos de inglés deberían estar de acuerdo con los modelos pequeños o básicos . Los hablantes no nativos de inglés pueden ver mejores resultados con modelos más grandes, como pequeños y medianos .

Tenga en cuenta, sin embargo, que los modelos medianos y grandes requieren más de 8 GB de VRAM (es decir, «la memoria de su GPU»).

Para seleccionar uno de ellos, especifique el modelo después del interruptor “–model” en el comando:

whisper --model tiny/small/medium/large [file]

Por ejemplo:

whisper --model small My_Voice_Note.mp3

Cómo agilizar su transcripción

Tener que escribir todo el comando Whisper cada vez que desea transcribir un audio puede volverse aburrido rápidamente. Hagamos un archivo por lotes accesible globalmente para agilizar el proceso.

Ejecute el Explorador de Windows y visite su unidad C:.
Cree una carpeta para sus scripts y copie su ruta al Portapapeles.
En el menú Inicio de Windows, busque «ruta» y seleccione Editar las variables de entorno del sistema .
Busque la variable Ruta en Variables de usuario para YOUR_USERNAME . Haga doble clic en él para editarlo. Haga clic en Nuevo y pegue la ruta en su carpeta de scripts. Haga clic en Aceptar para aceptar los cambios.
Regrese a su carpeta de scripts en el Explorador de Windows. Cree un nuevo archivo por lotes allí llamado «wht.bat». «Dentro», coloque este comando: whisper --model tiny --language en %1
Cree dos archivos por lotes más, «whs» y «whm».
Coloque esto dentro del primer script: whisper --model small --language en %1
Coloque esto dentro del segundo: whisper --model medium --language en %1

Felicitaciones, ahora tiene tres scripts para usar fácilmente los modelos diminuto, pequeño y mediano de Whisper con sus archivos de audio. Para transcribir cualquier archivo de audio a texto:

Localice el archivo con el Explorador de archivos de Windows .
Haz clic con el botón derecho en un lugar vacío y elige Abrir en terminal .
Escriba este comando, reemplazando «wht» con «whs» o «whm» para usar los modelos de lenguaje pequeño o mediano: wht YOUR_AUDIO_FILE.mp3

Escribir a la velocidad del sonido con Whisper

Incluso los mecanógrafos más rápidos no pueden igualar la velocidad a la que hablamos. Sin embargo, hasta hace poco, hablar en lugar de escribir no era óptimo para crear documentos.

La mayoría de las soluciones de voz a texto produjeron resultados mediocres. Puede encontrar algunas soluciones que valga la pena probar, pero son complicadas de usar o costosas. Afortunadamente, Whisper cambió todo eso.

Después de los pasos anteriores, debería estar listo para transcribir o traducir su voz con gran precisión, usando un solo comando.