OmniSpeech lanza herramienta para la detección de audio deepfake en tiempo real dentro de Zoom
728 x 90 px
La seguridad en las comunicaciones corporativas enfrenta su mayor desafío histórico con el auge de la inteligencia artificial generativa. En respuesta a la creciente sofisticación de los fraudes por voz y la suplantación de identidad, OmniSpeech, líder en tecnología de voz con IA, ha anunciado la disponibilidad global de OmniSpeech AI Detect™ en el Zoom Marketplace.
Como expertos en ciberseguridad, observamos que esta integración marca un hito en la protección proactiva. Por primera vez, los usuarios profesionales y consumidores pueden utilizar Zoom no solo como una plataforma de colaboración, sino como una herramienta forense en tiempo real para identificar audio sintético, manipulado o generado por IA, conocido técnicamente como deepfake.
Funcionamiento de la tecnología zero-shot en reuniones
El núcleo de esta innovación reside en su accesibilidad y capacidad técnica. Una vez instalada desde el mercado de aplicaciones de Zoom, OmniSpeech AI Detect se integra en la interfaz de la videollamada.
(Automático aquí)
A diferencia de sistemas anteriores que requerían un análisis post-mortem (después de la llamada), esta herramienta opera en vivo. Mediante un botón de «Iniciar escaneo» (Start Scan), el sistema analiza el flujo de audio de los participantes utilizando el Zoom RTMS. La tecnología se basa en un modelo de IA patentado de tipo zero-shot. En términos técnicos, esto significa que el algoritmo es capaz de identificar clones de voz «no vistos» anteriormente o generadores de audio sintético nuevos sin necesidad de un entrenamiento previo específico para esa amenaza en particular.
La interfaz de usuario se ha diseñado para ser intuitiva, utilizando un sistema de tarjetas codificadas por colores para clasificar la autenticidad de la voz en tiempo real:
- Rojo: Probable deepfake generado por IA.
- Amarillo: Posible deepfake o audio manipulado.
- Verde: Probable voz humana auténtica.
Versatilidad más allá de la videollamada
Un aspecto técnico destacable es la naturaleza agnóstica de la plataforma. OmniSpeech ha diseñado esta herramienta para que Zoom funcione como un entorno de reproducción y detección universal, superando las limitaciones de una simple reunión virtual.
Esto permite a los profesionales de la seguridad y usuarios generales utilizar Zoom como un escáner de audio. Por ejemplo, es posible enrutar audio externo —como una nota de voz sospechosa en WhatsApp, un video de YouTube o una llamada grabada en un teléfono móvil— a través del micrófono del ordenador hacia la reunión de Zoom. El sistema procesará esa señal entrante y determinará su autenticidad. Esto empodera a periodistas, educadores y creadores de contenido para verificar independientemente la veracidad de los audios que encuentran en la red.
Aplicaciones críticas para empresas y recursos humanos
La implementación de esta tecnología responde a una necesidad urgente de mitigar riesgos en diversos departamentos corporativos:
Recursos humanos y operaciones
El reclutamiento remoto ha abierto la puerta a candidatos falsos que utilizan modificadores de voz o IA para pasar entrevistas. OmniSpeech garantiza la autenticidad de las voces durante el proceso de onboarding y las entrevistas, mitigando el riesgo de suplantación de identidad laboral.
Cumplimiento y seguridad financiera
Los equipos de seguridad pueden detectar el voice spoofing (suplantación de voz) en llamadas sensibles. Esto es crítico para autorizaciones financieras o auditorías internas, donde el «fraude del CEO» (utilizar la voz clonada de un directivo para ordenar transferencias) se ha convertido en una amenaza costosa.
Verificación de medios
Para las empresas de comunicación, la herramienta permite una revisión rápida de contenido de audio, como podcasts o entrevistas enviadas por usuarios, detectando segmentos sintéticos antes de su publicación y evitando la difusión de desinformación.
API para desarrolladores y privacidad de datos
Junto con la aplicación para Zoom, la compañía ha anunciado la disponibilidad de una API flexible. Esto permite a los desarrolladores integrar los algoritmos de detección de deepfakes de próxima generación en cualquier flujo de trabajo de voz, desde aplicaciones bancarias hasta herramientas de comunicación personalizadas.
En cuanto a la privacidad, un tema sensible en el análisis biométrico, OmniSpeech asegura el cumplimiento estricto de las normativas. El procesamiento del audio requiere el consentimiento explícito del usuario y se realiza en tiempo real sin almacenar los datos de las llamadas. La aplicación cumple con los requisitos de uso de datos del Zoom Marketplace, ofreciendo mecanismos de transparencia y la capacidad de revocar el acceso en cualquier momento.
Disponibilidad y planes
OmniSpeech AI Detect™ ya se encuentra disponible como complemento. La estructura de precios está diseñada para escalar, comenzando con planes individuales de $9.99 USD al mes, y ofreciendo descuentos por volumen para implementaciones empresariales y multiusuario.
La compañía realizará demostraciones técnicas de esta tecnología durante el CES en el Hotel Venetian, donde los expertos de la industria podrán poner a prueba la eficacia del modelo zero-shot ante las últimas herramientas de generación de voz sintética.
