Transcripción - Neuracall

Descripción General

Neuracall utiliza OpenAI Whisper para convertir grabaciones de audio en texto. La transcripción es el primer paso del proceso de análisis y es fundamental para la calidad del NeuraScore.

Proceso de Transcripción

Recepcion del Audio

El archivo de audio se sube y almacena de forma segura en S3.

Conversion

Si es necesario, el audio se convierte a un formato optimizado para Whisper.

Transcripción

Whisper procesa el audio y genera el texto con timestamps.

Segmentación

El texto se divide en segmentos por hablante cuando es posible.

Formatos de Audio Soportados

Formato	Extension	Calidad Recomendada
MP3	.mp3	128kbps o superior
WAV	.wav	16kHz mono mínimo
M4A	.m4a	AAC 128kbps
FLAC	.flac	Lossless
OGG	.ogg	Vorbis 128kbps
WEBM	.webm	Opus 128kbps

Deteccion de Idioma

Whisper detecta automáticamente el idioma del audio. Los idiomas principales soportados incluyen:

Espanol
Ingles
Portugues
Frances
Y muchos mas…

Para mejores resultados, asegurate de que el audio tenga buena calidad y el idioma sea consistente.

Estructura de la Transcripción

Respuesta de API

{
  "id": "...",
  "status": "COMPLETED",
  "language": "es",
  "duration": 324.5,
  "transcription": "Agente: Buenos dias, gracias por llamar...",
  "segments": {
    "segments": [
      {
        "speaker": "Agent",
        "start": 0.0,
        "end": 5.2,
        "text": "Buenos dias, gracias por llamar a Neuracall."
      },
      {
        "speaker": "Customer",
        "start": 5.5,
        "end": 12.1,
        "text": "Hola, tengo una consulta sobre mi factura."
      }
    ]
  }
}

Campos Principales

Campo	Descripción
status	Estado de la transcripción
language	Código de idioma detectado
duration	Duración en segúndos
transcription	Texto completo
segments	Segmentos con timestamps

Segmentos

Cada segmento incluye:

Campo	Descripción
speaker	Identificador del hablante
start	Tiempo de inicio (segúndos)
end	Tiempo de fin (segúndos)
text	Texto del segmento

Estados de Transcripción

Estado	Descripción
PENDING	En cola de procesamiento
IN_PROGRESS	Transcribiendo
COMPLETED	Completado exitosamente
FAILED	Error durante el proceso

Factores de Calidad

Calidad del Audio

La precisión de la transcripción depende de:

Factor	Impacto	Recomendacion
Ruido de fondo	Alto	Usar grabaciones limpias
Volumen bajo	Alto	Normalizar antes de subir
Multiples hablantes	Medio	Audio estereo ayuda
Acentos fuertes	Medio	Whisper es robusto
Jerga técnica	Bajo	Generalmente preciso

Recomendaciones

Calidad óptima: Audio mono o estereo, 16kHz+, sin ruido de fondo, volumen normalizado.

Audios con mucho ruido o superposicion de voces pueden resultar en transcripciónes incompletas o inexactas.

Uso en el Análisis

La transcripción es la base para:

NeuraScore: El análisis GPT evalúa el contenido transcrito
Resumen: Se genera a partir del texto
Keywords: Se extraen del contenido
Insights: Se derivan del análisis

Reproduccion Sincronizada

En la aplicación web, puedes:

Reproducir el audio original
Ver la transcripción con timestamps
Hacer clic en un segmento para saltar a ese punto
Leer mientras escuchas

Privacidad y Seguridad

Los audios se almacenan de forma segura en AWS S3
Solo usuarios autorizados pueden acceder
Los datos se procesan en infraestructura de Neuracall
Cumplimiento con estándares de seguridad

Ver detalle de llamada

Acceder a transcripciónes

API de Transcripción

Endpoint de transcripción

​Descripción General

​Proceso de Transcripción

​Formatos de Audio Soportados

​Deteccion de Idioma

​Estructura de la Transcripción

​Respuesta de API

​Campos Principales

​Segmentos

​Estados de Transcripción

​Factores de Calidad

​Calidad del Audio

​Recomendaciones

​Uso en el Análisis

​Reproduccion Sincronizada

​Privacidad y Seguridad

Ver detalle de llamada

API de Transcripción

Descripción General

Proceso de Transcripción

Formatos de Audio Soportados

Deteccion de Idioma

Estructura de la Transcripción

Respuesta de API

Campos Principales

Segmentos

Estados de Transcripción

Factores de Calidad

Calidad del Audio

Recomendaciones

Uso en el Análisis

Reproduccion Sincronizada

Privacidad y Seguridad