El último avance en IA de Microsoft acaba de llegar: VibeVoice-Realtime-0.5B ya es oficial. Cuenta con un motor TTS de 1,5B de parámetros que está batiendo los benchmarks actuales. ¿Qué me ha llamado la atención? El tiempo de respuesta casi instantáneo: hablamos de unos 300 milisegundos antes de oír el primer sonido. Eso es increíblemente rápido para la conversión de texto a voz. Y lo mejor: es completamente open-source bajo licencia MIT, lo que significa que los desarrolladores pueden trabajar con ello sin quebraderos de cabeza por licencias. Para cualquiera que esté trabajando en interfaces de voz o herramientas de comunicación en tiempo real, esto puede ser un cambio radical. ¿Y que un gigante tecnológico lance algo tan potente para la comunidad? Ese es el tipo de movimiento que acelera la innovación en todos los ámbitos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
12 me gusta
Recompensa
12
4
Republicar
Compartir
Comentar
0/400
WalletWhisperer
· 12-05 17:44
300 ms de latencia... el reconocimiento de patrones está gritando ahora mismo. El movimiento open-source es una estrategia de acumulación de manual: observa cómo se desarrollan los indicadores de comportamiento.
Ver originalesResponder0
GateUser-75ee51e7
· 12-05 17:34
¿Solo tarda 300 milisegundos en emitir sonido? Esta vez Microsoft realmente no ha exagerado; que el MIT lo haya hecho de código abierto es, de verdad, una jugada magistral.
Ver originalesResponder0
SpeakWithHatOn
· 12-05 17:34
¿Sonido en solo 300 milisegundos? Esta vez Microsoft realmente ha hecho algo interesante, además es open source y bajo licencia MIT, ahora sí que los desarrolladores están encantados.
Ver originalesResponder0
CryptoMom
· 12-05 17:24
¿300 milisegundos para emitir sonido? Esta velocidad es increíble, por fin se pueden hacer conversaciones en tiempo real.
El último avance en IA de Microsoft acaba de llegar: VibeVoice-Realtime-0.5B ya es oficial. Cuenta con un motor TTS de 1,5B de parámetros que está batiendo los benchmarks actuales. ¿Qué me ha llamado la atención? El tiempo de respuesta casi instantáneo: hablamos de unos 300 milisegundos antes de oír el primer sonido. Eso es increíblemente rápido para la conversión de texto a voz. Y lo mejor: es completamente open-source bajo licencia MIT, lo que significa que los desarrolladores pueden trabajar con ello sin quebraderos de cabeza por licencias. Para cualquiera que esté trabajando en interfaces de voz o herramientas de comunicación en tiempo real, esto puede ser un cambio radical. ¿Y que un gigante tecnológico lance algo tan potente para la comunidad? Ese es el tipo de movimiento que acelera la innovación en todos los ámbitos.