AI / VoiceOpen Source

Semaji

Agente IA de voz completamente local

PythonOllamaGemma 3Whisperespeak-ngPortAudio

Descripción

Semaji (del suajili: 'El que habla') es un agente de IA diseñado para comunicación natural y fluida con LLMs a través de audio, sin depender de servidores externos. Permite diálogos dinámicos completamente locales que mantienen la inteligencia y los datos en tu propio hardware, con latencia mínima y privacidad absoluta.

Características

Arquitectura concurrente multi-hilo para rendimiento óptimo
Inferencia LLM optimizada con Gemma 3 (12B) vía Ollama
Reconocimiento de voz en tiempo real con OpenAI Whisper
Síntesis de texto a voz en streaming con espeak-ng
Gestión de audio estable vía PortAudio/ALSA

Semaji opera completamente offline — cero dependencias en la nube. Toda la inteligencia corre en tu hardware, garantizando que tus conversaciones nunca salgan de tu máquina.

Pipeline de Audio

Captura

PortAudio captura audio del micrófono en tiempo real con gestión de buffer estable.

Transcripción

OpenAI Whisper convierte la voz a texto con alta precisión, procesando localmente.

Razonamiento

Gemma 3 (12B) ejecuta inferencia vía Ollama, generando respuestas contextuales y coherentes.

Síntesis

espeak-ng convierte la respuesta a voz en streaming, hablando mientras sigue procesando.

12B

Parámetros del modelo

Servidores externos

100%

Local y privado

Multi-hilo

Arquitectura

¿Por qué local?

En un mundo donde los asistentes de voz envían cada palabra a la nube, Semaji toma el camino opuesto. Al ejecutar todo localmente — desde el reconocimiento de voz hasta la generación de respuestas — elimina la latencia de red, protege la privacidad del usuario y funciona incluso sin conexión a internet. Es IA conversacional como debería ser: rápida, privada y siempre disponible.

Stack técnico

Lenguaje

Python 3.11+

LLM

Gemma 3 12B vía Ollama

STT

OpenAI Whisper

TTS

espeak-ng (streaming)

Audio

PortAudio / ALSA

Concurrencia

Threading nativo

Ver código fuente

github.com