← ArchiVist
ArchiVist Vault
← Product A Product B — Active
B
Product B · Secure Government Archive Node

ArchiVist
Vault

Secure AI Archive · Retrieval-First · Privacy-First

Защищённый on-premise узел архивации и интеллектуального поиска по государственным документам. Все вычисления локально — никаких облаков, никаких утечек. OCR, semantic search, RAG, полный audit trail.

0
Утечек данных
P95
Search accuracy
<2s
Query response
100%
Auditability
01 — Вход / Выход

Что принимает.
Что отдаёт.

Входящий поток от ArchiVist Capture (Product A)
approved masters proxies metadata JSON OCR results SHA256 manifest session logs
Внешний вход
  • PDF / отсканированные документы
  • DOC / DOCX — текстовые материалы
  • TIFF / JPEG — архивные сканы
  • WAV / Video — транскрипты
  • Metadata из ArchiVist Capture
Выход
  • Searchable archive — индексированный архив
  • Structured metadata — каталог документов
  • LLM-ответы на запросы по архиву
  • Extractive summaries по документам
  • Audit logs — полная история операций
02 — Программный состав

Стек без компромиссов.

AI / LLM
Qwen2.5:1.5b-instruct
Ollama · локально · без cloud
Whisper (local ASR)
транскрипция аудио/видео
Tesseract OCR
PDF/TIFF/скан → текст
Sentence transformers
local embeddings · no API
Хранение / Поиск
SQLite FTS5
полнотекстовый поиск · FTS5
Vector index (local)
semantic search · FAISS/Chroma
Encrypted storage
AES-256 at rest
PostgreSQL / SQLite
structured metadata store
Безопасность
RBAC engine
роли · права · политики
DLP / изоляция
no egress · airgap mode
Audit trail
append-only log · все операции
MFA / session control
аутентификация операторов
03 — Программные модули

Восемь модулей.
Один периметр.

ingest
Приём и валидация входящих материалов
ocr-asr
Tesseract OCR + Whisper ASR → текст
metadata-extraction
Структурированные метаданные из документов
indexing
FTS5 + vector index · обновление в реальном времени
rag
Retrieval-Augmented Generation pipeline
llm-query
Qwen2.5 · ответы на запросы по архиву
policy-access
RBAC · MFA · политика доступа к документам
audit
Append-only audit log · все операции · экспорт
04 — Archive Pipeline

От документа до ответа.

01
Ingest + валидация
Входящий файл проходит checksum-верификацию, определение типа, карантин. Только одобренные материалы идут дальше.
ingest · SHA256 · file validation
02
OCR / ASR → текст
Tesseract обрабатывает PDF/TIFF/JPEG. Whisper транскрибирует аудио и видео. Результат — plain text + confidence score.
ocr-asr · Tesseract · Whisper
03
Extraction метаданных
Qwen2.5 извлекает структурированные поля: дата, автор, тип, теги, ключевые сущности. Без отправки данных наружу.
metadata-extraction · Qwen2.5 · Ollama
04
Индексация: FTS5 + vector
Текст идёт в SQLite FTS5 для keyword-поиска и в local vector index для semantic search. Оба индекса на диске, без API.
indexing · SQLite FTS5 · FAISS
05
RAG + LLM-запрос
Запрос оператора → retrieval топ-N документов → контекст → Qwen2.5 генерирует ответ с источниками. Всё локально.
rag · llm-query · Qwen2.5
06
Контроль доступа + Audit
Каждая операция проходит RBAC-проверку. Каждое действие — в append-only audit log с timestamp и user ID.
policy-access · audit · RBAC
05 — Безопасность

Периметр без исключений.

Airgap / изоляция
Узел работает без исходящего интернета. DLP блокирует любую передачу данных наружу. VLAN isolation от корпоративной сети.
Шифрование at rest
Все хранимые данные — AES-256. Ключи хранятся в аппаратном HSM или TPM. Резервные копии — только зашифрованные.
RBAC + MFA
Ролевая модель доступа: оператор, архивист, аудитор, администратор. Каждая роль — минимальный набор прав. MFA обязателен.
Audit trail
Append-only лог всех операций: вход, поиск, просмотр, экспорт, изменение. Лог подписан и защищён от изменения.
Local LLM only
Qwen2.5 работает через Ollama on-premise. Ни один запрос, ни один документ не покидает узел через AI-слой.
No cloud, no API
Все компоненты — открытый код, локальный деплой. Нет зависимости от иностранных SaaS, нет vendor lock-in.
06 — KPI

Критерии готовности MVP.

0
Утечек данных наружу
P95
Точность поиска по архиву
<2s
Response time на запрос
100%
Auditability всех операций
07 — MVP v1 Roadmap

Три фазы до production.

MVP v1 — Фазы
Фаза 1 — Ingest
PDF / DOC / TIFF → OCR pipeline → SQLite FTS5. Базовый keyword-поиск работает. Метаданные извлекаются автоматически.
Фаза 2 — AI
RAG pipeline: FTS5 + vector retrieval → Qwen2.5 → ответ с источниками. LLM-запросы работают полностью локально.
Фаза 3 — Security
RBAC + MFA. Append-only audit log. DLP / изоляция. Шифрование at rest. Airgap mode верифицирован.
Searchable archive Structured metadata LLM-ответы по архиву Extractive summaries Audit logs RBAC policy