Descripción General
Neuracall utiliza OpenAI Whisper para convertir grabaciones de audio en texto. La transcripción es el primer paso del proceso de análisis y es fundamental para la calidad del NeuraScore.Proceso de Transcripción
1
Recepcion del Audio
El archivo de audio se sube y almacena de forma segura en S3.
2
Conversion
Si es necesario, el audio se convierte a un formato optimizado para Whisper.
3
Transcripción
Whisper procesa el audio y genera el texto con timestamps.
4
Segmentación
El texto se divide en segmentos por hablante cuando es posible.
Formatos de Audio Soportados
| Formato | Extension | Calidad Recomendada |
|---|---|---|
| MP3 | .mp3 | 128kbps o superior |
| WAV | .wav | 16kHz mono mínimo |
| M4A | .m4a | AAC 128kbps |
| FLAC | .flac | Lossless |
| OGG | .ogg | Vorbis 128kbps |
| WEBM | .webm | Opus 128kbps |
Deteccion de Idioma
Whisper detecta automáticamente el idioma del audio. Los idiomas principales soportados incluyen:- Espanol
- Ingles
- Portugues
- Frances
- Y muchos mas…
Estructura de la Transcripción
Respuesta de API
Campos Principales
| Campo | Descripción |
|---|---|
| status | Estado de la transcripción |
| language | Código de idioma detectado |
| duration | Duración en segúndos |
| transcription | Texto completo |
| segments | Segmentos con timestamps |
Segmentos
Cada segmento incluye:| Campo | Descripción |
|---|---|
| speaker | Identificador del hablante |
| start | Tiempo de inicio (segúndos) |
| end | Tiempo de fin (segúndos) |
| text | Texto del segmento |
Estados de Transcripción
| Estado | Descripción |
|---|---|
| PENDING | En cola de procesamiento |
| IN_PROGRESS | Transcribiendo |
| COMPLETED | Completado exitosamente |
| FAILED | Error durante el proceso |
Factores de Calidad
Calidad del Audio
La precisión de la transcripción depende de:| Factor | Impacto | Recomendacion |
|---|---|---|
| Ruido de fondo | Alto | Usar grabaciones limpias |
| Volumen bajo | Alto | Normalizar antes de subir |
| Multiples hablantes | Medio | Audio estereo ayuda |
| Acentos fuertes | Medio | Whisper es robusto |
| Jerga técnica | Bajo | Generalmente preciso |
Recomendaciones
Uso en el Análisis
La transcripción es la base para:- NeuraScore: El análisis GPT evalúa el contenido transcrito
- Resumen: Se genera a partir del texto
- Keywords: Se extraen del contenido
- Insights: Se derivan del análisis
Reproduccion Sincronizada
En la aplicación web, puedes:- Reproducir el audio original
- Ver la transcripción con timestamps
- Hacer clic en un segmento para saltar a ese punto
- Leer mientras escuchas
Privacidad y Seguridad
- Los audios se almacenan de forma segura en AWS S3
- Solo usuarios autorizados pueden acceder
- Los datos se procesan en infraestructura de Neuracall
- Cumplimiento con estándares de seguridad
