Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.neuracall.com/llms.txt

Use this file to discover all available pages before exploring further.

Descripción General

Neuracall utiliza OpenAI Whisper para convertir grabaciones de audio en texto. La transcripción es el primer paso del proceso de análisis y es fundamental para la calidad del NeuraScore.

Proceso de Transcripción

1

Recepcion del Audio

El archivo de audio se sube y almacena de forma segura en S3.
2

Conversion

Si es necesario, el audio se convierte a un formato optimizado para Whisper.
3

Transcripción

Whisper procesa el audio y genera el texto con timestamps.
4

Segmentación

El texto se divide en segmentos por hablante cuando es posible.

Formatos de Audio Soportados

FormatoExtensionCalidad Recomendada
MP3.mp3128kbps o superior
WAV.wav16kHz mono mínimo
M4A.m4aAAC 128kbps
FLAC.flacLossless
OGG.oggVorbis 128kbps
WEBM.webmOpus 128kbps

Deteccion de Idioma

Whisper detecta automáticamente el idioma del audio. Los idiomas principales soportados incluyen:
  • Espanol
  • Ingles
  • Portugues
  • Frances
  • Y muchos mas…
Para mejores resultados, asegurate de que el audio tenga buena calidad y el idioma sea consistente.

Estructura de la Transcripción

Respuesta de API

{
  "id": "...",
  "status": "COMPLETED",
  "language": "es",
  "duration": 324.5,
  "transcription": "Agente: Buenos dias, gracias por llamar...",
  "segments": {
    "segments": [
      {
        "speaker": "Agent",
        "start": 0.0,
        "end": 5.2,
        "text": "Buenos dias, gracias por llamar a Neuracall."
      },
      {
        "speaker": "Customer",
        "start": 5.5,
        "end": 12.1,
        "text": "Hola, tengo una consulta sobre mi factura."
      }
    ]
  }
}

Campos Principales

CampoDescripción
statusEstado de la transcripción
languageCódigo de idioma detectado
durationDuración en segúndos
transcriptionTexto completo
segmentsSegmentos con timestamps

Segmentos

Cada segmento incluye:
CampoDescripción
speakerIdentificador del hablante
startTiempo de inicio (segúndos)
endTiempo de fin (segúndos)
textTexto del segmento

Estados de Transcripción

EstadoDescripción
PENDINGEn cola de procesamiento
IN_PROGRESSTranscribiendo
COMPLETEDCompletado exitosamente
FAILEDError durante el proceso

Factores de Calidad

Calidad del Audio

La precisión de la transcripción depende de:
FactorImpactoRecomendacion
Ruido de fondoAltoUsar grabaciones limpias
Volumen bajoAltoNormalizar antes de subir
Multiples hablantesMedioAudio estereo ayuda
Acentos fuertesMedioWhisper es robusto
Jerga técnicaBajoGeneralmente preciso

Recomendaciones

Calidad óptima: Audio mono o estereo, 16kHz+, sin ruido de fondo, volumen normalizado.
Audios con mucho ruido o superposicion de voces pueden resultar en transcripciónes incompletas o inexactas.

Uso en el Análisis

La transcripción es la base para:
  1. NeuraScore: El análisis GPT evalúa el contenido transcrito
  2. Resumen: Se genera a partir del texto
  3. Keywords: Se extraen del contenido
  4. Insights: Se derivan del análisis

Reproduccion Sincronizada

En la aplicación web, puedes:
  • Reproducir el audio original
  • Ver la transcripción con timestamps
  • Hacer clic en un segmento para saltar a ese punto
  • Leer mientras escuchas

Privacidad y Seguridad

  • Los audios se almacenan de forma segura en AWS S3
  • Solo usuarios autorizados pueden acceder
  • Los datos se procesan en infraestructura de Neuracall
  • Cumplimiento con estándares de seguridad

Ver detalle de llamada

Acceder a transcripciónes

API de Transcripción

Endpoint de transcripción