Acabei de ver o Simon testar no Mac o novo modelo de código aberto da Microsoft, VibeVoice-ASR, isso é realmente impressionante.


9 bilhões de parâmetros, processa uma hora de áudio contínuo de uma só vez, e ainda consegue identificar quem está falando, quando, e o que foi dito.
Soluções tradicionais precisam combinar Whisper + pyannote, agora um único modelo resolve tudo, suportando mais de 50 idiomas e mistura de chinês e inglês.
Ele usou a versão quantizada de 4 bits (5,71GB) no M5 Max para transcrever uma hora de podcast em 8 minutos e 45 segundos, com pico de memória de 61,5GB, um notebook comum de 32GB não consegue rodar.
Curiosamente, o modelo interpretou uma conversa entre duas pessoas como três, porque o Lenny fala em ambientes de gravação diferentes.
Rodar localmente exige pelo menos 64GB de memória, para transcrição de podcasts e atas de reuniões, processos em várias etapas agora podem ser comprimidos em uma única inferência.

O que vocês acham desse modelo?
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar