Skip to main content

Descripción General

Neuracall utiliza OpenAI Whisper para convertir grabaciones de audio en texto. La transcripción es el primer paso del proceso de análisis y es fundamental para la calidad del NeuraScore.

Proceso de Transcripción

1

Recepcion del Audio

El archivo de audio se sube y almacena de forma segura en S3.
2

Conversion

Si es necesario, el audio se convierte a un formato optimizado para Whisper.
3

Transcripción

Whisper procesa el audio y genera el texto con timestamps.
4

Segmentación

El texto se divide en segmentos por hablante cuando es posible.

Formatos de Audio Soportados

FormatoExtensionCalidad Recomendada
MP3.mp3128kbps o superior
WAV.wav16kHz mono mínimo
M4A.m4aAAC 128kbps
FLAC.flacLossless
OGG.oggVorbis 128kbps
WEBM.webmOpus 128kbps

Deteccion de Idioma

Whisper detecta automáticamente el idioma del audio. Los idiomas principales soportados incluyen:
  • Espanol
  • Ingles
  • Portugues
  • Frances
  • Y muchos mas…
Para mejores resultados, asegurate de que el audio tenga buena calidad y el idioma sea consistente.

Estructura de la Transcripción

Respuesta de API

{
  "id": "...",
  "status": "COMPLETED",
  "language": "es",
  "duration": 324.5,
  "transcription": "Agente: Buenos dias, gracias por llamar...",
  "segments": {
    "segments": [
      {
        "speaker": "Agent",
        "start": 0.0,
        "end": 5.2,
        "text": "Buenos dias, gracias por llamar a Neuracall."
      },
      {
        "speaker": "Customer",
        "start": 5.5,
        "end": 12.1,
        "text": "Hola, tengo una consulta sobre mi factura."
      }
    ]
  }
}

Campos Principales

CampoDescripción
statusEstado de la transcripción
languageCódigo de idioma detectado
durationDuración en segúndos
transcriptionTexto completo
segmentsSegmentos con timestamps

Segmentos

Cada segmento incluye:
CampoDescripción
speakerIdentificador del hablante
startTiempo de inicio (segúndos)
endTiempo de fin (segúndos)
textTexto del segmento

Estados de Transcripción

EstadoDescripción
PENDINGEn cola de procesamiento
IN_PROGRESSTranscribiendo
COMPLETEDCompletado exitosamente
FAILEDError durante el proceso

Factores de Calidad

Calidad del Audio

La precisión de la transcripción depende de:
FactorImpactoRecomendacion
Ruido de fondoAltoUsar grabaciones limpias
Volumen bajoAltoNormalizar antes de subir
Multiples hablantesMedioAudio estereo ayuda
Acentos fuertesMedioWhisper es robusto
Jerga técnicaBajoGeneralmente preciso

Recomendaciones

Calidad óptima: Audio mono o estereo, 16kHz+, sin ruido de fondo, volumen normalizado.
Audios con mucho ruido o superposicion de voces pueden resultar en transcripciónes incompletas o inexactas.

Uso en el Análisis

La transcripción es la base para:
  1. NeuraScore: El análisis GPT evalúa el contenido transcrito
  2. Resumen: Se genera a partir del texto
  3. Keywords: Se extraen del contenido
  4. Insights: Se derivan del análisis

Reproduccion Sincronizada

En la aplicación web, puedes:
  • Reproducir el audio original
  • Ver la transcripción con timestamps
  • Hacer clic en un segmento para saltar a ese punto
  • Leer mientras escuchas

Privacidad y Seguridad

  • Los audios se almacenan de forma segura en AWS S3
  • Solo usuarios autorizados pueden acceder
  • Los datos se procesan en infraestructura de Neuracall
  • Cumplimiento con estándares de seguridad