Descripción General
Neuracall utiliza OpenAI Whisper para convertir grabaciones de audio en texto. La transcripción es el primer paso del proceso de análisis y es fundamental para la calidad del NeuraScore.
Proceso de Transcripción
Recepcion del Audio
El archivo de audio se sube y almacena de forma segura en S3.
Conversion
Si es necesario, el audio se convierte a un formato optimizado para Whisper.
Transcripción
Whisper procesa el audio y genera el texto con timestamps.
Segmentación
El texto se divide en segmentos por hablante cuando es posible.
| Formato | Extension | Calidad Recomendada |
|---|
| MP3 | .mp3 | 128kbps o superior |
| WAV | .wav | 16kHz mono mínimo |
| M4A | .m4a | AAC 128kbps |
| FLAC | .flac | Lossless |
| OGG | .ogg | Vorbis 128kbps |
| WEBM | .webm | Opus 128kbps |
Deteccion de Idioma
Whisper detecta automáticamente el idioma del audio. Los idiomas principales soportados incluyen:
- Espanol
- Ingles
- Portugues
- Frances
- Y muchos mas…
Para mejores resultados, asegurate de que el audio tenga buena calidad y el idioma sea consistente.
Estructura de la Transcripción
Respuesta de API
{
"id": "...",
"status": "COMPLETED",
"language": "es",
"duration": 324.5,
"transcription": "Agente: Buenos dias, gracias por llamar...",
"segments": {
"segments": [
{
"speaker": "Agent",
"start": 0.0,
"end": 5.2,
"text": "Buenos dias, gracias por llamar a Neuracall."
},
{
"speaker": "Customer",
"start": 5.5,
"end": 12.1,
"text": "Hola, tengo una consulta sobre mi factura."
}
]
}
}
Campos Principales
| Campo | Descripción |
|---|
| status | Estado de la transcripción |
| language | Código de idioma detectado |
| duration | Duración en segúndos |
| transcription | Texto completo |
| segments | Segmentos con timestamps |
Segmentos
Cada segmento incluye:
| Campo | Descripción |
|---|
| speaker | Identificador del hablante |
| start | Tiempo de inicio (segúndos) |
| end | Tiempo de fin (segúndos) |
| text | Texto del segmento |
Estados de Transcripción
| Estado | Descripción |
|---|
| PENDING | En cola de procesamiento |
| IN_PROGRESS | Transcribiendo |
| COMPLETED | Completado exitosamente |
| FAILED | Error durante el proceso |
Factores de Calidad
Calidad del Audio
La precisión de la transcripción depende de:
| Factor | Impacto | Recomendacion |
|---|
| Ruido de fondo | Alto | Usar grabaciones limpias |
| Volumen bajo | Alto | Normalizar antes de subir |
| Multiples hablantes | Medio | Audio estereo ayuda |
| Acentos fuertes | Medio | Whisper es robusto |
| Jerga técnica | Bajo | Generalmente preciso |
Recomendaciones
Calidad óptima: Audio mono o estereo, 16kHz+, sin ruido de fondo, volumen normalizado.
Audios con mucho ruido o superposicion de voces pueden resultar en transcripciónes incompletas o inexactas.
Uso en el Análisis
La transcripción es la base para:
- NeuraScore: El análisis GPT evalúa el contenido transcrito
- Resumen: Se genera a partir del texto
- Keywords: Se extraen del contenido
- Insights: Se derivan del análisis
Reproduccion Sincronizada
En la aplicación web, puedes:
- Reproducir el audio original
- Ver la transcripción con timestamps
- Hacer clic en un segmento para saltar a ese punto
- Leer mientras escuchas
Privacidad y Seguridad
- Los audios se almacenan de forma segura en AWS S3
- Solo usuarios autorizados pueden acceder
- Los datos se procesan en infraestructura de Neuracall
- Cumplimiento con estándares de seguridad