Búsqueda de audio de Google: ¿será posible alguna vez?

¿Será posible que Google cree un índice de contenido de audio en el que los usuarios puedan buscar páginas web similares?

Los resultados de las primeras pruebas, que Google publicó en un artículo de blog, indican que la búsqueda de audio es más difícil de lograr de lo que parece.

Los detalles de estas pruebas se comparten en un artículo escrito por Tim Olson, vicepresidente senior de asociaciones estratégicas digitales en KQED.

Google se ha asociado con KQED en un esfuerzo conjunto para hacer que el audio sea más fácil de encontrar.

Con la ayuda de KUNGFU.AI, un proveedor de servicios de inteligencia artificial, Google y KQED realizaron pruebas para determinar cómo transcribir audio de una manera rápida y sin errores.

Esto es lo que descubrieron.

📑 Aquí podrás encontrar 👇

Las dificultades de la búsqueda de audio

El mayor obstáculo para hacer posible la búsqueda de audio es el hecho de que el audio debe convertirse en texto antes de poder buscarlo y ordenarlo.

Anuncio publicitario

Continuar leyendo a continuación

Actualmente no hay forma de transcribir audio con precisión de una manera que permita encontrarlo rápidamente.

La única forma en que la búsqueda de audio a escala mundial sería posible es mediante transcripciones automáticas. Las transcripciones manuales tomarían un tiempo y un esfuerzo considerables para los editores.

Olson de KQED señala que el listón de precisión debe ser alto para las transcripciones de audio, especialmente cuando se trata de indexar noticias de audio. Los avances realizados hasta ahora en la conversión de voz a texto no cumplen actualmente con esos estándares.

Limitaciones de la tecnología actual de voz a texto

Google realizó pruebas con KQED y KUNGFU.AI aplicando las últimas herramientas de voz a texto a una colección de noticias de audio.

Se descubrieron limitaciones en la capacidad de la IA para identificar nombres propios (también conocidos como entidades con nombre).

Anuncio publicitario

Continuar leyendo a continuación

Las entidades nombradas a veces necesitan que el contexto se entienda para identificarse con precisión, lo que la IA no siempre tiene.

Olson da un ejemplo de las noticias de audio de KQED que contienen un discurso lleno de entidades nombradas que son contextuales a la región del Área de la Bahía:

“El audio de las noticias locales de KQED es rico en referencias de entidades nombradas relacionadas con temas, personas, lugares y organizaciones que son contextuales a la región del Área de la Bahía. Los oradores utilizan siglas como "CHP" para la Patrulla de Caminos de California y "la Península" para el área que abarca desde San Francisco hasta San José. Estos son más difíciles de identificar para la inteligencia artificial ".

Cuando las entidades nombradas no se entienden, la IA hace su mejor suposición de lo que se dijo. Sin embargo, esa es una solución inaceptable para la búsqueda web, porque una transcripción incorrecta puede cambiar todo el significado de lo que se dijo.

¿Que sigue?

El trabajo continuará en la búsqueda de audio con planes para hacer que la tecnología sea ampliamente accesible cuando se desarrolle.

David Stoller, socio líder de noticias y publicación de Google, dice que la tecnología se compartirá abiertamente cuando se complete el trabajo en este proyecto.

“Uno de los pilares de la Nueva Iniciativa de Google es incubar nuevos enfoques para problemas difíciles. Una vez completada, esta tecnología y las mejores prácticas asociadas se compartirán abiertamente, ampliando enormemente el impacto anticipado ".

Los modelos de aprendizaje automático actuales no están aprendiendo de sus errores, dice Olson de KQED, que es donde los humanos pueden necesitar intervenir.

El siguiente paso es probar un circuito de retroalimentación en el que las salas de redacción ayuden a mejorar los modelos de aprendizaje automático mediante la identificación de errores de transcripción comunes.

Anuncio publicitario

Continuar leyendo a continuación

"Estamos seguros de que, en un futuro próximo, las mejoras en estos modelos de voz a texto ayudarán a convertir el audio en texto más rápido y, en última instancia, ayudarán a las personas a encontrar noticias en audio de manera más eficaz".

Fuente: Google

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir