Deployment Models

Choose the deployment model that fits your security requirements, infrastructure, and budget.

Fully Offline RAG

Every component runs on your infrastructure. No internet, no cloud, no data exposure. Ideal for regulated industries and classified environments.

Legal, Pharma, Finance, Government

Documents stay local while queries leverage frontier LLMs like Gemini, GPT-4, or Claude. Best-in-class answers at lower hardware costs.

Tech, Consulting, Media, Growing Companies

Feature	Fully Offline	Hybrid
Data location	100% on-premise	Documents on-premise, query chunks sent to cloud
LLM	Local open-source models	Gemini, GPT-4, Claude via API
Internet required	No	Yes (API calls only)
Hardware requirements	GPU server required	Standard server (no GPU needed)
Cost model	Fixed (hardware + license)	Lower hardware + per-token API costs
Response quality	Strong (local models)	Frontier-level (cloud models)

Data location

Fully Offline

100% on-premise

Hybrid

Documents on-premise, query chunks sent to cloud

LLM

Fully Offline

Local open-source models

Hybrid

Gemini, GPT-4, Claude via API

Internet required

Fully Offline

Hybrid

Yes (API calls only)

Hardware requirements

Fully Offline

GPU server required

Hybrid

Standard server (no GPU needed)

Cost model

Fully Offline

Fixed (hardware + license)

Hybrid

Lower hardware + per-token API costs

Response quality

Fully Offline

Strong (local models)

Hybrid

Frontier-level (cloud models)

Book a free consultation and we'll help you choose the right deployment for your organization.