ИИ Декларант — система автоматической классификации товаров по ТН ВЭД ЕАЭС. Работает в 5 этапов: загрузка → скрапинг → обогащение → классификация → валидация.
declarant_products. Или используется встроенный набор товаров. Каждый товар получает статус new.declarant_products. Статус → scraped.tnved_evidence.{"material":"...", "function":"...", "candidate_groups":[84,85,90]}done, иначе → review (требует ручной проверки). Затраты логируются в usage_log.Все источники разбиты на чанки по ~1000 символов с overlap, хранятся в MariaDB с FULLTEXT-индексом и OpenAI-эмбеддингами (text-embedding-3-large, 3072 dims). Гибридный поиск: keyword MATCH + vector cosine similarity + RRF merge.
| Источник | Тип | Описание | Обновление |
|---|---|---|---|
| НСИ ЕАЭС | API | Предварительные решения по классификации (nsi.eaeunion.org) | Snapshot |
| Goodscollection | OData | Реестр товаров прошедших таможню (90K+ записей) | Snapshot |
| ТН ВЭД 2026 | Excel/JSON | 13 279 кодов (10-зн.) + ставки пошлин из TWS | Ежегодно |
| Пояснения к ТН ВЭД | PDF+OCR | 217 PDF — пояснения по группам 01-97 | Snapshot |
| Решения ЕЭК | PDF+OCR | 9 161 PDF + OCR документов ЕЭК | Snapshot |
| Решения о классификации | JSON+PDF | 246 решений ЕЭК по спорной классификации | Snapshot |
| Нетарифные меры (ЕЭК №30) | PDF+OCR | 67 PDF — запреты, квоты, лицензирование | Snapshot |
| Юр. база adilet.zan.kz | PDF+OCR | Таможенный, налоговый кодексы, законы | Snapshot |
| Техрегламенты ЕАЭС | JSON | 47 ТР ТС / ТР ЕАЭС | Snapshot |
| Keden API (КГД) | REST | Дерево ИТТ ЕАЭС в реальном времени | Live |
| Kaspi.kz | Scraping | Характеристики товаров через Scrape.do | Per request |
| Google Search | Grounding | Дополнительная техинфо через Gemini | Per request |
| Компонент | Технология | Детали |
|---|---|---|
| Сервер | Node.js + Express | Порт 5001, OFFLINE_ONLY=true |
| БД | MariaDB | showcase_db, utf8mb4 |
| AI Модели | Google Gemini | gemini-3-flash-preview (основная), gemini-3-pro-preview (fallback) |
| Эмбеддинги | OpenAI | text-embedding-3-large, 3072 dims, ~197K чанков |
| RAG | Hybrid Search | FULLTEXT keyword + vector cosine + RRF merge |
| Scraping | Scrape.do | Прокси для парсинга Kaspi.kz |
| ИТТ API | Keden (КГД) | Дерево ТН ВЭД + ставки в реальном времени |
| OCR | Python (pdf2image + pytesseract) | Для PDF → текст |
| OS | Ubuntu 22.04 | Node.js v25, systemd |
| Статус | Описание | Следующий шаг |
|---|---|---|
new | Товар загружен, нет данных Kaspi | → Scraping |
scraping | Идёт парсинг Kaspi.kz | Ждать |
scraped | Данные Kaspi получены | → Classify |
classifying | Идёт классификация (AI pipeline) | Ждать |
done | Код подобран, confidence ≥ 60% | Готово ✅ |
review | Код подобран, confidence < 60% | Ручная проверка |
error | Ошибка на любом этапе | Повторить |
error_scrape | Ошибка при парсинге Kaspi | Повторить scraping |
batch_pending | В очереди батч-обработки | Ждать |