Semaji
Agente IA de voz completamente local
Descripción
Semaji (del suajili: 'El que habla') es un agente de IA diseñado para comunicación natural y fluida con LLMs a través de audio, sin depender de servidores externos. Permite diálogos dinámicos completamente locales que mantienen la inteligencia y los datos en tu propio hardware, con latencia mínima y privacidad absoluta.
Características
- Arquitectura concurrente multi-hilo para rendimiento óptimo
- Inferencia LLM optimizada con Gemma 3 (12B) vía Ollama
- Reconocimiento de voz en tiempo real con OpenAI Whisper
- Síntesis de texto a voz en streaming con espeak-ng
- Gestión de audio estable vía PortAudio/ALSA
Semaji opera completamente offline — cero dependencias en la nube. Toda la inteligencia corre en tu hardware, garantizando que tus conversaciones nunca salgan de tu máquina.
Pipeline de Audio
Captura
PortAudio captura audio del micrófono en tiempo real con gestión de buffer estable.
Transcripción
OpenAI Whisper convierte la voz a texto con alta precisión, procesando localmente.
Razonamiento
Gemma 3 (12B) ejecuta inferencia vía Ollama, generando respuestas contextuales y coherentes.
Síntesis
espeak-ng convierte la respuesta a voz en streaming, hablando mientras sigue procesando.
12B
Parámetros del modelo
0
Servidores externos
100%
Local y privado
Multi-hilo
Arquitectura
¿Por qué local?
En un mundo donde los asistentes de voz envían cada palabra a la nube, Semaji toma el camino opuesto. Al ejecutar todo localmente — desde el reconocimiento de voz hasta la generación de respuestas — elimina la latencia de red, protege la privacidad del usuario y funciona incluso sin conexión a internet. Es IA conversacional como debería ser: rápida, privada y siempre disponible.
Stack técnico
Lenguaje
Python 3.11+
LLM
Gemma 3 12B vía Ollama
STT
OpenAI Whisper
TTS
espeak-ng (streaming)
Audio
PortAudio / ALSA
Concurrencia
Threading nativo