AI ON-PREMISE · PRESENTACIÓN 2026

Tus datos son tuyos.
Tu IA también.

Inteligencia artificial empresarial que corre en tu infraestructura. Sin enviar prompts, documentos ni código a OpenAI, Google o Anthropic. Modelos pequeños, especializados, y bajo tu control total.

0%
datos a terceros
90%
menor costo vs API
<100ms
latencia local
El problema

Cada prompt que mandás a la nube
es un activo que entregás.

Las APIs de modelos hyper-scale son cómodas hasta que mirás qué le estás dando, a quién, y cuánto te cuesta.

01

Datos sensibles fuera de tu control

Catálogos, código propietario, contratos, datos de clientes, historial médico, información financiera. Todo eso viaja a servidores de terceros y queda en logs que no auditás.

02

Costos que escalan linealmente

GPT-5 cuesta entre USD 2 y USD 30 por millón de tokens. Si tu producto escala, tu factura escala igual. Sin techo. Sin previsibilidad. Sin moat económico.

03

Latencia y dependencia de internet

Una API call cruza dos veces el Atlántico. Si la región está caída, vos también. Aplicaciones críticas en retail, salud y banca no pueden depender de un proveedor externo.

04

Vendor lock-in y riesgo regulatorio

GDPR, Ley 25.326 de Protección de Datos en Argentina, HIPAA, regulaciones sectoriales financieras. Procesar datos personales en infraestructura extranjera tiene implicancias legales reales.

La tesis Para el 80% de los casos empresariales, no necesitás un modelo de 600 mil millones de parámetros. Necesitás uno chico, especializado, y que no salga de tu red.

Comparativa

Modelos hyper-scale
vs Small Language Models

Cada uno tiene su lugar. La pregunta es qué necesitás vos.

Tipo A

LLMs Hyper-Scale

~100B–1T+ params
GPT-5 · Claude Opus 4.7 · Gemini Ultra 2.5
DeepSeek V3.2 (685B) · Llama 4 Maverick
Razonamiento complejo de frontera
Tareas creativas largas y abiertas
Conocimiento general extensivo
Procesamiento en infraestructura del proveedor
USD 2–30 por millón de tokens
Latencia de red 200–800 ms
Fine-tuning limitado o caro
Cuándo usarlos
Prototipos, asistentes de propósito general, casos donde la complejidad cognitiva supera el riesgo de privacidad.
Tipo B · Nuestra apuesta

Small Language Models

~1B–30B params
Gemma 4 · Phi-4 · Qwen 3.5
Mistral Small 3.1 · Llama 3.3 · SmolLM3
Corren en tu hardware. Datos nunca salen de tu red.
Costo fijo de infraestructura (GPU + electricidad)
Latencia < 100 ms en LAN
Fine-tuning sobre tus datos (LoRA, QLoRA)
Licencias permisivas (Apache 2.0, MIT)
Sin vendor lock-in: cambiás de modelo sin migrar infra
Auditables: pesos, entrenamiento, comportamiento
Cuándo usarlos
RAG sobre datos privados, clasificación, extracción, asistentes de dominio, chatbots de producto. El 80% de los casos reales.
Caso testigo

Asistente interno, 10.000 consultas diarias

GPT-5 API
USD 8.000–50.000
por mes · variable
Claude Opus 4.7 API
USD 5.000–30.000
por mes · variable
SLM ON-PREMISE
USD 500–2.000
por mes · fijo · sin tope de consultas
Modelos disponibles

El ecosistema open-weight
maduró.

Modelos vigentes en 2026 que evaluamos, desplegamos y mantenemos para nuestros clientes. Todos con licencias comerciales permisivas.

Google DeepMind

Gemma 4

Apache 2.0
VariantesE2B · E4B · 26B · 31B
VRAM mínima3 GB (Q4)
Contexto128K–256K

Multimodal (texto, imagen, audio). Best-in-class para edge devices y laptops. 140+ idiomas. La E4B corre en Raspberry Pi.

Microsoft

Phi-4

MIT
Variantesmini 3.8B · 14B
VRAM mínima8 GB
EspecialidadReasoning

Phi-4 Reasoning de 14B le gana a modelos 5x más grandes en benchmarks de razonamiento. Ideal para análisis y debugging.

Alibaba

Qwen 3.5

Apache 2.0
Variantes0.8B – 27B
Contexto256K · 201 idiomas
EspecialidadCoding · multilingüe

El 27B obtiene 72.4% en SWE-bench Verified. Mejor SLM para generación de código y soporte multilingüe (incluyendo español rioplatense).

Mistral AI

Mistral Small 3.1

Apache 2.0
Parámetros24B
VRAM mínima16 GB (RTX 4090)
Vision✓ Multimodal

El más rápido del rango 24B. Vision support nativo. Ideal para producción con un solo GPU consumer-grade.

Meta

Llama 3.3 / 4 Scout

Llama Community
Llama 3.38B · all-rounder
Llama 4 Scout10M context
EcosistemaMaduro

Llama 3.3 8B sigue siendo el mejor all-around balance. Llama 4 Scout permite procesar documentos enteros sin fragmentar.

Hugging Face

SmolLM3

Apache 2.0
Parámetros3B
TransparenciaFull open
VRAM~4 GB

Único totalmente transparente: arquitectura, datos de entrenamiento, post-training. Para clientes que necesitan auditoría total.

Evaluamos y mantenemos benchmarks internos sobre estos modelos con datos reales de cada vertical.

Arquitectura

El stack que desplegamos.

100% open-source. Dockerizado. Sin dependencias propietarias. Sin contratos con proveedores externos.

Capa 1
Modelos
SLM corriendo local
→ Ollama
→ vLLM
→ llama.cpp
Capa 2
Memoria
Vector DB para RAG
→ ChromaDB
→ Qdrant
→ PostgreSQL+pgvector
Capa 3
Orquestación
Routing y rate-limit
→ LiteLLM
→ FastAPI
→ LangChain / LlamaIndex
Capa 4
Interfaz
Cliente y administración
→ Open WebUI
→ Widget embebido
→ API / Webhook
Capa 0
Infra
On-premise o privada
→ Docker / K8s
→ GPU server propio
→ Linode / dedicated cloud
✓ COMPLIANCE
GDPR · UE
✓ COMPLIANCE
Ley 25.326 · Argentina
✓ COMPLIANCE
HIPAA-ready · Salud
✓ COMPLIANCE
PCI-DSS · Banca
Producto destacado
N
Neurus.
Concierge by IURCO

El asistente que conoce tu negocio
sin que nadie más lo conozca.

Un copilot conversacional embebido directamente en tu producto. Habla con tus datos, ejecuta tareas, genera contenido y resuelve consultas — todo corriendo sobre tu propia infraestructura.

Pensalo como un Adobe AI Assistant, pero diseñado a medida para tu vertical y con tus datos jamás saliendo de tu red.

Embebido en tu producto
Vive dentro de tu app, panel o sitio. No es una plataforma separada que el usuario tiene que aprender.
Habla con tus datos reales
Conectado a tus bases de datos, APIs internas, documentos y sistemas. Respuestas basadas en información actualizada al segundo.
100% on-premise
Corre sobre SLMs en tu infraestructura. Cero datos enviados a terceros. Cero llamadas a APIs externas.
Customizable a tu vertical
Tono de marca, vocabulario de tu industria, permisos por rol. Fine-tuning sobre tus propios datos.
Multi-canal
Web, WhatsApp, Slack, Teams o voz. El mismo cerebro, la interfaz que tu usuario prefiera.
app.tu-negocio.com
Local · Gemma 4 26B
¿Cuántos pedidos pendientes tenemos para entrega esta semana?
N
Tenés 247 pedidos pendientes para esta semana.
· 12 con más de 48 hs de retraso
· 89 se entregan hoy o mañana
· 146 programados para el resto de la semana
Fuente: ERP · actualizado hace 12 s
Generá un mail para los 12 retrasados, tono empático
N
Listo. Borrador con tracking incluido, firmado por Atención al Cliente.
N
Preguntale algo a Neurus...
0 ms a la nube
Aplicaciones

Esto no es teoría.
Es lo que ya implementamos.

Casos concretos sobre clientes de e-commerce, retail, salud y logística.

01 · Conocimiento

Asistente sobre tu data con RAG

Chat sobre tus documentos, catálogo, manuales o base de conocimiento. Indexa cambios en tiempo real desde tus sistemas existentes.

Gemma 4 26B ChromaDB API / Webhook
02 · Soporte

Triage automático de tickets

Clasificación, priorización y enrutamiento de tickets de soporte sin que el contenido (datos del cliente, historial de compras) salga jamás de tu red.

Phi-4 mini 3.8B FastAPI Webhook
03 · Contenido

Generación masiva multi-idioma

Descripciones, copy, traducciones o resúmenes consistentes con tu tono de marca. Generación en lote con workflow de revisión humana antes de publicar.

Qwen 3.5 27B Batch processing Multi-idioma
04 · Insights

Análisis de feedback y sentiment

Sentiment analysis, extracción de temas y detección de issues recurrentes sobre miles de reseñas, encuestas o conversaciones. Dashboard ejecutivo con tendencias.

Mistral Small 3.1 Batch processing Pipeline ETL
05 · Salud

Triage clínico y resumen de historias

Pre-clasificación de consultas y resumen automático de historias clínicas. Datos de pacientes nunca tocan internet. HIPAA-ready desde el día 1.

Llama 3.3 8B PostgreSQL+pgvector On-premise total
06 · Conocimiento

Búsqueda semántica corporativa

Tu Confluence, Drive, Notion y Slack unificados en un asistente que responde con citas. Sin que ningún proveedor de IA vea documentos internos.

Llama 4 Scout 10M context Qdrant
Verticales

Donde la privacidad
no es opcional.

Cada vertical tiene sus propios desafíos. Estos son ejemplos concretos de lo que se puede construir con SLMs on-premise en cada industria.

E-commerce

  • Asistente de catálogo que conoce stock, precios y políticas en tiempo real
  • Generación masiva de descripciones SEO con tono de marca
  • Recomendador personalizado sin enviar el comportamiento del usuario a terceros
  • Análisis automático de reviews y detección de issues por SKU

Banca y Fintech

  • Análisis de operaciones para detección de fraude sin exponer datos a APIs externas
  • Asistente para oficiales de cuenta con acceso a historial del cliente
  • Pre-aprobación crediticia conversacional con scoring local
  • Compliance: revisión automática de contratos contra regulaciones BCRA / CNV

Salud

HIPAA-ready
  • Resumen automático de historias clínicas para consultas más rápidas
  • Triage conversacional para call centers de obras sociales y prepagas
  • Búsqueda semántica sobre literatura médica y protocolos internos
  • Asistente para codificación CIE-11 y generación de informes

Retail

  • Reposición inteligente: predicción de demanda por sucursal sobre datos históricos
  • Asistente para gerentes de tienda con KPIs en vivo y alertas
  • Análisis de cámaras y patrones de tráfico (vision models on-premise)
  • Generación dinámica de promociones segmentadas por cluster

Logística

  • Asistente conversacional para choferes (consultas, manifiestos, contingencias)
  • Análisis de incidentes y generación automática de reportes
  • Optimización de rutas y triangulación de carga de regreso
  • OCR + extracción de datos de remitos, facturas y guías

Gobierno

Soberanía de datos
  • Asistente ciudadano sobre trámites, normativa y derechos
  • Análisis de expedientes y resúmenes ejecutivos para funcionarios
  • Búsqueda semántica sobre boletines oficiales y jurisprudencia
  • Clasificación automática de denuncias y reclamos

Seguros

  • Análisis automático de siniestros: fotos, partes y reportes
  • Cotizador conversacional con underwriting asistido
  • Detección de patrones de fraude en denuncias recurrentes
  • Asistente para liquidadores con histórico del asegurado

Agro

  • Asistente para productores: clima, precios de commodities, decisiones de siembra
  • Análisis de imágenes satelitales y drones (detección de plagas, rinde)
  • Logística de cosecha: optimización de camiones, acopios y puertos
  • Trazabilidad y generación automática de documentación de exportación

Legal

Privilegio profesional
  • Revisión y comparación de contratos con cláusulas estándar de tu firma
  • Búsqueda semántica sobre jurisprudencia y precedentes propios
  • Generación de borradores: demandas, escritos, dictámenes
  • Due diligence asistido sobre data rooms confidenciales

Minería

Litio · Cobre · Oro
  • Análisis de datos geológicos y mapas de prospección sin enviar IP a la nube
  • Asistente de operaciones en sitio: protocolos, seguridad, mantenimiento predictivo
  • Procesamiento de informes técnicos, NI 43-101 y reportes para RIGI
  • Análisis de imágenes de drones para monitoreo de pit y tajos a cielo abierto

Petróleo y Gas

Vaca Muerta
  • Análisis de logs de perforación y datos sísmicos en infra propia del operador
  • Mantenimiento predictivo sobre sensores IoT de pozos y plantas
  • Asistente para HSE: cumplimiento normativo, incidentes, capacitación de personal
  • Procesamiento de contratos midstream/upstream y reportes a Secretaría de Energía

¿Tu vertical no está en la lista? Lo mismo aplica. Si tenés datos sensibles y procesos repetibles, hay caso de uso.

La oportunidad

Recuperá el control
de tu inteligencia.

Diseñamos, desplegamos y mantenemos infraestructura de IA privada para empresas que no pueden permitirse que sus datos salgan de su red.

Auditoría
2 semanas
MVP
4–6 semanas
Producción
8–12 semanas
Hablemos →
hola@iurco.com · iurco.com