Una nueva postura sobre IA empresarial

Tus datos son tuyos.
Tu IA también.

Inteligencia artificial empresarial que corre en tu infraestructura. Sin enviar prompts, documentos ni código a OpenAI, Google o Anthropic. Modelos pequeños, especializados, bajo tu control total.

así se ve un despliegue cliente · producción
zona · internet pública
Hyper‑scale APIs
multi‑tenant
openai.com
anthropic.com
google.ai
egress · 0 bytes
zona · tu red privada
On‑premise
en vivo
gemma‑4‑26b · q4_k_m
vLLM 0.7 · 1× A100 40 GB
p50
62 ms
req/s
128
opex
$1.4k/m
crm.local
erp.local
app.acme
caso · banca privada 10k req/día
01 · soberanía
0%

de tus datos viaja a servicios de terceros. Ni embeddings, ni prompts, ni metadatos.

02 · economía
90%

menos costo vs APIs comerciales sobre el mismo caso, a 12 meses. Costo fijo, sin variable por token.

03 · velocidad
<100ms

de latencia para usuarios en LAN. Sin TLS hacia internet, sin colas de rate-limit.

Construido con ↘
Ollama·vLLM·llama.cpp·ChromaDB·Qdrant·pgvector·LiteLLM·FastAPI·LangChain·LlamaIndex·Open WebUI·Docker / K8s
/ 01 el problema

Cada prompt que mandás a la nube es un activo que entregás.

La oferta dominante de IA empresarial es alquilar un cerebro ajeno y mandarle, por la puerta de adelante, exactamente la información que tu organización pasó años protegiendo.

PAIN · 01 / sovereignty

Datos sensibles fuera de tu control

Historial clínico, código propietario, contratos, balances. Una vez que cruzan tu perímetro, son entrenamiento, telemetría, o evidencia en un subpoena ajeno.

PAIN · 02 / economics

Costos que escalan linealmente

USD 2 – 30 por millón de tokens. Adopción exitosa = factura mensual creciente. El éxito te castiga.

▲ 38 % MoM promedio · clientes 2024
PAIN · 03 / latency

Latencia y dependencia de internet

200 – 800 ms por request, más SLA externos. Una caída de tu proveedor de IA es una caída de tu producto.

PAIN · 04 / compliance

Vendor lock‑in y riesgo regulatorio

Modelo deprecado, precio doblado, política cambiada. GDPR, Ley 25.326, HIPAA, PCI‑DSS: el regulador no firma NDAs con tu proveedor.

Tesis

Para el 80 % de los casos empresariales — y son los importantes — no necesitás un modelo de 600B parámetros. Necesitás uno chico, especializado, y que no salga de tu red.

/ 02 comparativa técnica

SLM vs Hyper‑Scale.

Dos arquitecturas, dos modelos económicos, dos posturas frente a tus datos. La izquierda es la que ya conocés. La derecha es la que recomendamos para la mayoría de tus cargas.

opción A

LLMs Hyper‑Scale

100B – 1T+ parámetros · API · multi‑tenant

☁ Cloud
/ rented
Ejemplos
GPT‑5 Claude Opus 4.7 Gemini Ultra 2.5 DeepSeek V3.2 Llama 4 Maverick
  • +Razonamiento de frontera
  • +Conocimiento general amplio
  • Datos viajan a infraestructura ajena
  • USD 2–30 / Mtokens, variable
  • Latencia 200–800 ms
  • Fine‑tuning caro o no disponible
opción B · nuestra apuesta

Small Language Models

1B – 30B parámetros · on‑premise · single‑tenant

⌂ On‑prem
/ owned
Ejemplos
Gemma 4 Phi‑4 Qwen 3.5 Mistral Small 3.1 Llama 3.3 / 4 Scout SmolLM3
  • +Corren en tu hardware (CPU, GPU consumer, edge)
  • +Costo fijo y predecible, sin techo de tokens
  • +<100 ms en LAN · sin dependencia de internet
  • +Fine‑tuning LoRA / QLoRA accesible
  • +Licencias permisivas (Apache 2.0, MIT)
  • +Sin vendor lock‑in · auditables end‑to‑end
Caso testigo · costos comparados

Asistente interno · 10.000 consultas / día

≈ 1.2 K input + 0.8 K output 12 meses enero 2026
GPT‑5 · API
variable · sin techo
8K 50K
$8K — 50K
Claude Opus 4.7 · API
variable · sin techo
5K 30K
$5K — 30K
SLM on‑premise
fijo · sin tope · OPEX hardware
.5K 2K
↩ ahorro de hasta 96 %
$0.5K — 2K
$0 $12.5K $25K $37.5K $50K / mes
a 12 meses · GPT‑5
USD 600 K
tope superior · sin descuento
a 12 meses · Claude
USD 360 K
tope superior · sin descuento
a 12 meses · SLM
USD 24 K
flat · incluye hardware amortizado

Mismo caso, mismo SLA, sobre un servidor con 1× A100 40 GB o 2× RTX 4090.

Recibir cálculo para tu caso →
/ 03 modelos que desplegamos

El armario, no la góndola.

Elegimos el modelo por el caso, no al revés. Cada uno tiene una arquitectura, una licencia y un perfil de hardware donde rinde mejor.

6 familias en producción · 14 variantes
G4

Gemma 4

Google DeepMind · Apache 2.0

multimodal
variantes
E2B · E4B · 26B · 31B
vram mín.
3 GB · Q4
contexto
128 K — 256 K
idiomas
140 +

Multimodal (texto, imagen, audio). Best‑in‑class para edge: la E4B corre en una Raspberry Pi.

016B32B
φ4

Phi‑4

Microsoft · MIT

reasoning
variantes
mini 3.8B · 14B
vram mín.
8 GB
especialidad
razonamiento · math
benchmark
> 5× su tamaño

Phi‑4 Reasoning 14B le gana a modelos cinco veces más grandes en benchmarks de razonamiento estructurado.

016B32B
Q3.5

Qwen 3.5

Alibaba · Apache 2.0

code · multi‑lang
variantes
0.8 B — 27 B
contexto
256 K
idiomas
201 · incl. ES‑AR
SWE‑bench
72.4 % · 27 B

El mejor SLM para código y multilingüe — entiende el rioplatense sin truco.

016B32B
MS3.1

Mistral Small 3.1

Mistral AI · Apache 2.0

vision
tamaño
24 B
vram
16 GB · RTX 4090
throughput
+ rápido del 24 B
multimodal
vision nativo

Producción seria con un solo GPU consumer. Sweet‑spot para apps SaaS internas.

016B32B
L4·S

Llama 3.3 / 4 Scout

Meta · Llama Community

long context
3.3
8 B · all‑rounder
4 Scout
10 M tokens ctx
ecosistema
maduro · tooling
licencia
community

Scout procesa documentos enteros sin fragmentar. Indispensable para legales y due diligence.

016B32B
S3

SmolLM3

Hugging Face · Apache 2.0

full‑open
tamaño
3 B
vram
~ 4 GB
transparencia
arch · data · training
para
auditoría total

El único totalmente transparente. Para clientes con auditoría regulatoria sin atajos.

016B32B

Roadmap interno actualizado mensualmente · benchmarks propios sobre datasets del cliente.

Comparar modelos para tu caso →
/ 04 stack de referencia

Cinco capas. Todas tuyas.

Open‑source en cada capa. Reemplazable por componentes equivalentes. Sin SDKs propietarios, sin telemetría no auditable. Ni una línea de tu lógica vive en otra empresa.

interfaz

Interfaz

Open WebUI Widget embebido REST API / Webhook CLI / SDK
orquestación

Orquestación

LiteLLM FastAPI LangChain LlamaIndex
memoria

Memoria

ChromaDB Qdrant PostgreSQL + pgvector
modelos

Modelos

Ollama vLLM llama.cpp TensorRT‑LLM
infra

Infraestructura

Docker / Kubernetes GPU server propio Linode / dedicated cloud
Compliance GDPR · EU Ley 25.326 · Argentina HIPAA‑ready · Salud PCI‑DSS · Banca
N
Neurus
Concierge · by IURCO
El cerebro detrás de cada SLM

Un cerebro. Muchas mentes especializadas.

Neurus es el motor que orquesta el SLM detrás de cada vertical. Misma capa de retrieval, memoria, routing y tools — distinto modelo especializado, fine‑tuneado sobre los datos de cada industria.

Embebido directamente dentro de tu producto, sin que nada salga de tu red.

5 capacidades

Lo que Neurus hace, sin importar la vertical.

Misma capa de cerebro · distinto SLM arriba.

01

Embebido en tu producto

Vive dentro de la app que tus usuarios ya usan. No es otra plataforma para administrar.

SDKWebhookWidget
02

Habla con tus datos reales

DBs, APIs internas, documentos, sistemas legados. Permisos heredados de tu IAM.

RAGIAMVector DB
04

Especializado por vertical

Tono de marca, permisos por rol, fine‑tuning sobre tu corpus, tools específicas de la vertical.

LoRARBACTools
05

Multi‑canal

Web, WhatsApp, Slack, Teams o voz. El mismo cerebro, distintos puntos de contacto.

WebWhatsAppSlackVoice
/ 05 aplicaciones

Capabilities, no buzzwords.

Casos genéricos donde el stack ya está probado. Cada uno con el modelo que mejor calza, no con el más popular.

/ 01 conocimiento RAG

Asistente sobre tu data

Pregunta libre sobre Wiki, contratos, reportes. Citas con fuente y permisos heredados.

stack · Gemma 4 26B + ChromaDB
/ 02 soporte triage

Triage automático de tickets

Clasificación, prioridad, respuesta tentativa. Te queda el humano para los casos que importan.

stack · Phi‑4 mini 3.8B
/ 03 contenido multi‑lang

Generación masiva multi‑idioma

Fichas, mailings, descripciones de catálogo. Voz de marca consistente en 201 idiomas.

stack · Qwen 3.5 27B
/ 04 insights analytics

Análisis de feedback y sentiment

Encuestas, NPS, reviews, tickets. Resúmenes ejecutivos diarios sin pasar por terceros.

stack · Mistral Small 3.1
/ 05 salud HIPAA‑ready

Triage clínico y resumen de historias

Asistencia a médicos sobre HCE. Modelo 100 % on‑prem, sin egress, con audit log inmutable.

stack · Llama 3.3 8B
/ 06 búsqueda 10M ctx

Búsqueda semántica corporativa

Una sola consulta sobre años de documentos. Sin fragmentar, sin perder contexto.

stack · Llama 4 Scout
/ 06 verticales

Donde la privacidad no es opcional.

11 verticales relevadas · 4 con demo live.

E‑commerce

Bazar B2C · 280k SKU · Magento

demo live
  • Asistente de catálogo que conoce stock, precios y políticas en tiempo real
  • Generación masiva de descripciones SEO con tono de marca
  • Recomendador personalizado sin enviar el comportamiento del usuario a terceros
  • Análisis automático de reviews y detección de issues por SKU
Abrir la demo de Neurus

Banca y Fintech

  • Análisis de operaciones para detección de fraude sin exponer datos a APIs externas
  • Asistente para oficiales de cuenta con acceso a historial del cliente
  • Pre‑aprobación crediticia conversacional con scoring local
  • Compliance: revisión automática de contratos contra regulaciones BCRA / CNV

Salud

HIPAA‑ready
  • Resumen automático de historias clínicas para consultas más rápidas
  • Triage conversacional para call centers de obras sociales y prepagas
  • Búsqueda semántica sobre literatura médica y protocolos internos
  • Asistente para codificación CIE‑11 y generación de informes

Retail

  • Reposición inteligente: predicción de demanda por sucursal sobre datos históricos
  • Asistente para gerentes de tienda con KPIs en vivo y alertas
  • Análisis de cámaras y patrones de tráfico (vision models on‑premise)
  • Generación dinámica de promociones segmentadas

Logística

  • Asistente conversacional para choferes (consultas, manifiestos, contingencias)
  • Análisis de incidentes y generación automática de reportes
  • Optimización de rutas y triangulación de carga de regreso
  • OCR + extracción de datos de remitos, facturas y guías

Gobierno

Soberanía de datos
  • Asistente ciudadano sobre trámites, normativa y derechos
  • Análisis de expedientes y resúmenes ejecutivos para funcionarios
  • Búsqueda semántica sobre boletines oficiales y jurisprudencia
  • Clasificación automática de denuncias y reclamos

Seguros

  • Análisis automático de siniestros: fotos, partes y reportes
  • Cotizador conversacional con underwriting asistido
  • Detección de patrones de fraude en denuncias recurrentes
  • Asistente para liquidadores con histórico del asegurado

Agro

Granos del Sur · 47 estab.

demo live
  • Asistente para productores: clima, precios de commodities, decisiones de siembra
  • Análisis de imágenes satelitales y drones (detección de plagas, rinde)
  • Logística de cosecha: optimización de camiones, acopios y puertos
  • Trazabilidad y generación automática de documentación de exportación
Abrir la demo de Neurus

Legal

Privilegio profesional
  • Revisión y comparación de contratos con cláusulas estándar de tu firma
  • Búsqueda semántica sobre jurisprudencia y precedentes propios
  • Generación de borradores: demandas, escritos, dictámenes
  • Due diligence asistido sobre data rooms confidenciales

Petróleo y Gas

Sierra Bonita · Vaca Muerta

demo live
  • Análisis de producción por pad con detección de frac hit
  • Mantenimiento predictivo sobre bombas ESP y sensores de boca de pozo
  • Incidentes HSE y reportes TRIR (SE / SRT / ART)
  • Análisis de contratos midstream y DDJJ a Secretaría de Energía
Abrir la demo de Neurus

Minería

Cordillera · Litio + cobre · RIGI

demo live
  • Producción de litio: LCE, recuperación DLE, pozas de evaporación
  • Estado de la flota CAT 793F con predicción de falla en transmisión
  • Análisis de sondaje BHA‑127 · intercepts Cu‑Mo
  • Resumen NI 43‑101 vigente y compliance RIGI · Anexo IV
Abrir la demo de Neurus
próximo paso

Recuperá el control
de tu inteligencia.

Una conversación de 30 minutos alcanza para mapear casos, costos y riesgos. La auditoría posterior es sin compromiso.

Fase 01 2 sem

Auditoría

Casos, hardware, compliance, datos. Sin compromiso.

Fase 02 4–6 sem

MVP

Un caso end‑to‑end, en tu infraestructura, con tu data real.

Fase 03 8–12 sem

Producción

Stack productivo, observabilidad, runbooks, traspaso.