Así es como funciona Live Caption de Android 10

Autor: Peter Berry
Fecha De Creación: 16 Agosto 2021
Fecha De Actualización: 1 Mes De Julio 2024
Anonim
Así es como funciona Live Caption de Android 10 - Noticias
Así es como funciona Live Caption de Android 10 - Noticias

Contenido


Live Caption es una de las mejores funciones de Android hasta la fecha, ya que utiliza el aprendizaje automático en el dispositivo para generar subtítulos para videos locales y clips web.

Google ha publicado una publicación de blog que detalla exactamente cómo funciona esta característica ingeniosa, y en realidad consta de tres modelos de aprendizaje automático en el dispositivo, para empezar.

Existe un modelo de transducción de secuencia de red neuronal recurrente (RNN-T) para el reconocimiento de voz, pero Google también está utilizando una red neuronal recurrente para predecir la puntuación.

El tercer modelo de aprendizaje automático en el dispositivo es una red neuronal convolucional (CNN) para eventos de sonido, como el canto de los pájaros, los aplausos y la música. Google dice que este tercer modelo de aprendizaje automático se deriva de su trabajo en la aplicación de accesibilidad Live Transcribe, que puede transcribir eventos de voz y sonido.


Reducir el impacto de Live Caption

La compañía dice que ha tomado una serie de medidas para reducir el consumo de batería y las demandas de rendimiento de Live Caption.Por un lado, el motor de reconocimiento automático de voz (ASR) solo se ejecuta cuando se detecta realmente la voz, en lugar de ejecutarse constantemente en segundo plano.

“Por ejemplo, cuando se detecta música y no hay voz en la transmisión de audio, la etiqueta aparecerá en la pantalla y el modelo ASR se descargará. El modelo ASR solo se vuelve a cargar en la memoria cuando el habla vuelve a estar presente en el flujo de audio ", explica Google en su publicación de blog.

Google también ha utilizado técnicas como la poda de la conexión neuronal (reducir el tamaño del modelo de voz), reducir el consumo de energía en un 50% y permitir que Live Caption se ejecute continuamente.

Google explica que los resultados del reconocimiento de voz se actualizan varias veces cada segundo a medida que se forma el subtítulo, pero la predicción de puntuación es diferente. El gigante de las búsquedas dice que ofrece predicciones de puntuación "en la cola del texto de la oración reconocida más recientemente" para reducir la demanda de recursos.


Live Caption ahora está disponible en la serie Google Pixel 4, y Google dice que estará disponible "pronto" en la serie Pixel 3 y otros dispositivos. La compañía dice que también está trabajando en soporte para otros idiomas y un mejor soporte para contenido de múltiples parlantes.

Reumen de la encueta de la emana paada: La emana paada, le pedimo que eligiera entre el amung Galaxy Fold y el Huawei Mate X. De má de 60,000 voto en total, aproximadamente el 39 por ciento de lo...

Hay un montón de excelente venta del Black Friday a punto de llegar al mercado, pero amung no etá eperando hata fin de me para ofrecer alguna oferta intereante. En ete momento, cuando lo cli...

Artículos Recientes