Initial commit: docs_v1.0 structure

- API_V1.0.0: 正式 API 文件(spec、release、deploy、test)
- M4_workspace: M4 工作記錄(review、issue、提案)
- M5_workspace: M5 工作記錄(實作、評估、sync)
- AGENTS.md: 專案規則

M5/M4 協作方式:git push/pull 同步 workspace 文件
This commit is contained in:
M5
2026-05-07 23:42:19 +08:00
commit 28e927f7bb
519 changed files with 136077 additions and 0 deletions

17
.gitignore vendored Normal file
View File

@@ -0,0 +1,17 @@
target/
.DS_Store
.env
.env.development
*.gguf
*.mlpackage
*.pt
*.pth
*.bin
*.onnx
*.zip
*.tar.gz
venv/
__pycache__/
node_modules/
*.log
/tmp/

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

View File

@@ -0,0 +1,83 @@
# Embedding 跨機器部署方案 v1.0.0
## 分工原則
```
M5Pipeline + 主力 Embedding M4Portal + Fallback Embedding
├── 批量 vectorize1709 chunks ├── Portal search query embedding
├── EmbeddingGemma 主 server ├── 備援 embed server
├── 模型已上線port 11436 └── 預設呼叫 M5 API
└── 出門 demo 可離線運作
```
## 部署架構
```
Portal Search Query
┌─────────────┐ 成功 ┌──────────────────┐
│ M4 Portal │ ──────────→ │ M5:11436 │
│ embed │ │ EmbeddingGemma │
│ client │ │ (主力) │
│ │ 失敗 └──────────────────┘
│ retry │ ──────────→ ┌──────────────────┐
│ fallback │ │ M4:11436 │
└─────────────┘ │ EmbeddingGemma │
│ (備援) │
└──────────────────┘
```
## M4 安裝步驟
```bash
# 1. 安裝 Python 依賴
pip install torch transformers flask
# 2. 登入 HuggingFace需接受授權
open https://huggingface.co/google/embeddinggemma-300m
huggingface-cli login --token YOUR_TOKEN
# 3. 取得 script
rsync -av accusys@192.168.110.201:/Users/accusys/momentry_core_0.1/scripts/embeddinggemma_server.py \
./scripts/embeddinggemma_server.py
# 4. 啟動備援 server
python3 scripts/embeddinggemma_server.py --port 11436
```
## Portal Embed Client
```javascript
async function embedQuery(text) {
const servers = [
'http://192.168.110.201:11436/v1/embeddings', // M5 主力
'http://localhost:11436/v1/embeddings', // M4 備援
];
for (const url of servers) {
try {
const res = await fetch(url, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({ input: text }),
});
const data = await res.json();
return data.data[0].embedding;
} catch (e) {
continue; // 下一台
}
}
throw new Error('Embedding servers unreachable');
}
```
## 模型一致性
| 項目 | M5 | M4 |
|------|-----|-----|
| 模型 | EmbeddingGemma 300M | EmbeddingGemma 300M |
| 維度 | 768D | 768D |
| Server | Python MPS (port 11436) | Python CPU/MPS (port 11436) |
| Qdrant | 192.168.110.201:6333 | 192.168.110.201:6333 |
兩台使用同一模型、同一維度,確保 query embedding 與索引 embedding 可比對。

View File

@@ -0,0 +1,316 @@
---
document_type: "deployment_record"
service: "MOMENTRY_CORE"
title: "Gemma 4 31B — M5 Max 部署記錄"
date: "2026-05-06"
version: "V1.1"
status: "active"
owner: "Warren"
created_by: "OpenCode"
---
# Gemma 4 31B — M5 Max 部署記錄
## 1. 環境
| 項目 | M4開發機 | M5 MaxLLM 伺服器) |
|------|------------|-------------------|
| 機型 | MacBook Pro M4 | MacBook Pro M5 Max |
| 記憶體 | 16 GB | **48 GB** |
| 架構 | arm64 | arm64 |
| OS | macOS 26.x | macOS 26.4.1 |
| IP初始 | — | 10.10.10.10 |
| IP最終 | — | **192.168.110.201** |
| 外網 | 有 | 先無 → 後有(接上同網段 192.168.110.x |
| Homebrew | 有 | 無(用戶非 admin無法 sudo brew |
| Xcode CLT | 有 | 無install_name_tool、codesign 不可用) |
| Rust | 有 | rustup 已安裝 (1.95.0) |
| 專案目錄 | `/Users/accusys/momentry_core_0.1/` | `~/momentry_core_0.1/`(已 clone |
## 2. 模型規格
| 屬性 | 值 |
|------|-----|
| 模型 | **Gemma 4 31B-it**Image-Text-to-Text |
| 參數量 | 33B (30,697,345,596) |
| 量化 | Q5_K_M |
| GGUF 大小 | **20.16 GB** (`21658399744 bytes`) |
| Embedding dim | 5376 |
| Vocabulary | 262144 |
| Context | 4096 (訓練 262144) |
| 來源 | `unsloth/gemma-4-31B-it-GGUF` |
| HF 下載數 | 1,685,377 |
| HF 許可 | Gated`huggingface-cli login` |
| License | Gemma (Apache 2.0 derived) |
## 3. Binary 與依賴
### 3.1 建置方式
llama.cpp 從 source build不透過 Homebrew。原因Homebrew binary 有**絕對路徑** dylib 參照,無法搬移至 M5。
```bash
# M4 上執行
cd /tmp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_METAL=ON
cmake --build build -j10 --target llama-server
```
### 3.2 Binary 依賴
llama-server binary 依賴以下 dylib共 26 個檔案):
| 類別 | 檔案 | 來源 |
|------|------|------|
| 核心 GGML | `libggml.0.dylib`, `libggml.dylib` | `build/bin/` |
| 核心 GGML | `libggml-base.0.dylib`, `libggml-base.dylib` | `build/bin/` |
| Metal GPU | `libggml-metal.0.dylib`, `libggml-metal.dylib` | `build/bin/` |
| CPU | `libggml-cpu.0.dylib`, `libggml-cpu.dylib` | `build/bin/` |
| BLAS | `libggml-blas.0.dylib`, `libggml-blas.dylib` | `build/bin/` |
| LLama | `libllama.0.dylib`, `libllama.dylib` | `build/bin/` |
| LLamaCommon | `libllama-common.0.dylib`, `libllama-common.dylib` | `build/bin/` |
| MTMD | `libmtmd.0.dylib`, `libmtmd.dylib` | `build/bin/` |
| OpenSSL | `libssl.3.dylib`, `libcrypto.3.dylib` | `/opt/homebrew/opt/openssl@3/lib/` |
### 3.3 @rpath 修復
build 時期 embedded 的 @rpath 指向 `/tmp/llama.cpp/build/bin/`,需改為 `@executable_path/../lib`
**M4** 上執行Xcode CLT 可用):
```bash
cp build/bin/llama-server /tmp/llama_final
chmod +w /tmp/llama_final
# 修復 OpenSSL 絕對路徑
install_name_tool -change /opt/homebrew/opt/openssl@3/lib/libssl.3.dylib @rpath/libssl.3.dylib /tmp/llama_final
install_name_tool -change /opt/homebrew/opt/openssl@3/lib/libcrypto.3.dylib @rpath/libcrypto.3.dylib /tmp/llama_final
# 修復 GGML 絕對路徑Homebrew build 才需要source build 不需要)
install_name_tool -change /opt/homebrew/opt/ggml/lib/libggml.0.dylib @rpath/libggml.0.dylib /tmp/llama_final
install_name_tool -change /opt/homebrew/opt/ggml/lib/libggml-base.0.dylib @rpath/libggml-base.0.dylib /tmp/llama_final
# 修正 @rpath
install_name_tool -delete_rpath /tmp/llama.cpp/build/bin /tmp/llama_final
install_name_tool -add_rpath @executable_path/../lib /tmp/llama_final
# 重新簽章install_name_tool 會破壞 code signature
codesign --force --sign - /tmp/llama_final
```
### 3.4 libssl.3.dylib 自身也需修復
libssl.3.dylib 內部也參照了 `/opt/homebrew/Cellar/openssl@3/3.6.1/lib/libcrypto.3.dylib`
```bash
cp /opt/homebrew/opt/openssl@3/lib/libssl.3.dylib /tmp/libssl_fixed.dylib
cp /opt/homebrew/opt/openssl@3/lib/libcrypto.3.dylib /tmp/libcrypto_fixed.dylib
chmod +w /tmp/libssl_fixed.dylib /tmp/libcrypto_fixed.dylib
install_name_tool -change /opt/homebrew/Cellar/openssl@3/3.6.1/lib/libcrypto.3.dylib @loader_path/libcrypto.3.dylib /tmp/libssl_fixed.dylib
codesign --force --sign - /tmp/libssl_fixed.dylib /tmp/libcrypto_fixed.dylib
```
### 3.5 全部傳送至 M5
```bash
# 模型20GB
scp ~/llama.cpp/models/gemma-4-31B-it-Q5_K_M.gguf \
accusys@192.168.110.201:~/models/
# binary + 全部 dylib
ssh accusys@192.168.110.201 'rm -rf ~/llama && mkdir -p ~/llama/bin ~/llama/lib'
scp /tmp/llama_final accusys@192.168.110.201:~/llama/bin/llama-server
scp /tmp/llama.cpp/build/bin/*.dylib accusys@192.168.110.201:~/llama/lib/
scp /tmp/libssl_fixed.dylib accusys@192.168.110.201:~/llama/lib/libssl.3.dylib
scp /tmp/libcrypto_fixed.dylib accusys@192.168.110.201:~/llama/lib/libcrypto.3.dylib
```
## 4. 啟動與驗證
### 4.1 一次性手動啟動
```bash
ssh accusys@192.168.110.201
export DYLD_LIBRARY_PATH=$HOME/llama/lib
codesign --force --sign - ~/llama/bin/llama-server
codesign --force --sign - ~/llama/lib/*.dylib
nohup ~/llama/bin/llama-server \
-m ~/models/gemma-4-31B-it-Q5_K_M.gguf \
--host 0.0.0.0 --port 8081 \
--n-gpu-layers 999 --ctx-size 4096 \
--threads 10 --mlock \
--reasoning off \
> ~/llama.log 2>&1 &
```
### 4.2 啟動腳本
`~/start_llm.sh`(已建立):
```bash
#!/bin/bash
export DYLD_LIBRARY_PATH=$HOME/llama/lib
pkill -9 -f llama-server 2>/dev/null
sleep 1
nohup $HOME/llama/bin/llama-server \
-m $HOME/models/gemma-4-31B-it-Q5_K_M.gguf \
--host 0.0.0.0 --port 8081 \
--n-gpu-layers 999 --ctx-size 4096 \
--threads 10 --mlock \
--reasoning off \
> $HOME/llama.log 2>&1 &
echo "llama-server PID: $!"
```
### 4.3 參數說明
| 參數 | 值 | 說明 |
|------|-----|------|
| `-m` | `~/models/gemma-4-31B-it-Q5_K_M.gguf` | 模型路徑 |
| `--host` | `0.0.0.0` | 綁定所有網路介面 |
| `--port` | `8081` | HTTP API port |
| `--n-gpu-layers` | `999` | 所有層進 GPU (Metal) |
| `--ctx-size` | `4096` | 上下文長度 |
| `--threads` | `10` | M5 Max P-core 數量 |
| `--mlock` | — | 鎖住記憶體以防 swap |
| `--reasoning` | `off` | 關閉 thinking否則 content 進 `reasoning_content` |
| `DYLD_LIBRARY_PATH` | `~/llama/lib` | dylib 搜尋路徑 |
### 4.4 啟動過程中遇到的問題
| # | 問題 | 原因 | 解決 |
|---|------|------|------|
| 1 | `Library not loaded: libmtmd.0.dylib` | 未拷貝 Metal 相關 dylib | 從 build 拷貝全部 26 個 dylib |
| 2 | `Library not loaded: /opt/homebrew/.../libssl.3.dylib` | binary 有 OpenSSL 絕對路徑 | `install_name_tool -change → @rpath` |
| 3 | `Killed: 9` (exit 137) | code signature 被破壞 | `codesign --force --sign -` |
| 4 | `Library not loaded: /opt/homebrew/Cellar/.../libcrypto.3.dylib` | libssl.3.dylib 內部也有絕對路徑 | `install_name_tool` 修復 libssl |
| 5 | `no backends are loaded` | 缺少 Metal GPU backend | source build 時需 `-DGGML_METAL=ON` |
| 6 | `couldn't bind HTTP server socket` | 前一個 process 未完全釋放 port | `pkill -9 -f llama-server` 先 |
| 7 | **content 全在 reasoning_content** | Gemma4 預設為 thinking model | `--reasoning off` |
## 5. API 驗證
### 5.1 Health Check
```bash
curl -s http://192.168.110.201:8081/health
# → {"status":"ok"}
```
### 5.2 推理測試(--reasoning off 後)
```bash
curl -s http://192.168.110.201:8081/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4-31B-it-Q5_K_M.gguf",
"messages": [{"role": "user", "content": "Hello"}],
"max_tokens": 100
}'
```
回應OpenAI-compatible:
```json
{
"choices": [{
"finish_reason": "stop",
"message": {
"role": "assistant",
"content": "Hello! How can I help you today?",
"reasoning_content": ""
}
}],
"usage": {
"completion_tokens": 100,
"prompt_tokens": 18,
"total_tokens": 118
},
"model": "gemma-4-31B-it-Q5_K_M.gguf",
"object": "chat.completion"
}
```
### 5.3 效能
| 指標 | 實測 |
|------|------|
| Prompt 速度 | 60.8 tok/s |
| 生成速度 | **25.8 tok/s** |
| Prompt 延遲 | 296 ms18 tokens |
| 生成延遲 | 387 ms10 tokens |
## 6. 整合至 OpenCode
`~/.config/opencode/config.json` 中新增 provider
```json
{
"m5-gemma4": {
"npm": "@ai-sdk/openai-compatible",
"name": "M5 Max Gemma 4",
"options": { "baseURL": "http://192.168.110.201:8081/v1" },
"models": {
"gemma-4-31B-it-Q5_K_M.gguf": { "name": "Gemma 4 31B" }
}
}
}
```
預設 model 設為 `"m5-gemma4/gemma-4-31B-it-Q5_K_M.gguf"`。Provider list 確認:
```bash
opencode models m5-gemma4
# → m5-gemma4/gemma-4-31B-it-Q5_K_M.gguf
```
## 7. M5 網路異動記錄
| 時間 | IP | 網路 | 原因 |
|------|-----|------|------|
| 初始 | `10.10.10.10` | bridge (Thunderbolt) | 無外網,需透過 M4 NAT |
| 切換後 | `192.168.110.201` | en0 (WiFi/Ethernet) | 改接同網段,有外網 |
## 8. Rust 安裝for Momentry dev
```bash
curl --proto "=https" --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y
source $HOME/.cargo/env
```
- rustc 1.95.0
- cargo 1.95.0
- 免 sudo
## 9. 記憶體使用
```
48 GB total
├─ 20 GB Gemma 4 31B Q5_K_M (process RSS ~28 GB)
├─ 4 GB macOS + 系統
└─ 24 GB 剩餘
```
實測啟動後 RSS: `28,325,600 KB` (~28 GB)。
## 10. 維護指令
| 操作 | 指令 |
|------|------|
| 啟動 | `ssh accusys@192.168.110.201 '~/start_llm.sh'` |
| 停止 | `ssh accusys@192.168.110.201 'pkill -9 -f llama-server'` |
| 查看日誌 | `ssh accusys@192.168.110.201 'tail -50 ~/llama.log'` |
| 健康檢查 | `curl http://192.168.110.201:8081/health` |
| 模型檔案 | `~/models/gemma-4-31B-it-Q5_K_M.gguf (20G)` |
| Binary 與 lib | `~/llama/bin/llama-server`, `~/llama/lib/*.dylib` |
| config | `~/.config/opencode/config.json` |
| 監控 | `htop -p $(pgrep llama-server)` |
| 記憶體 | `ps -o rss= -p $(pgrep llama-server)` |
## 11. 已知限制
- **Thinking model**: Gemma4 為 thinking 模型(`--reasoning off` 關閉後 content 正常,但某些場景可能需要 reasoning
- **無 Homebrew**: 非 admin 帳號,無法 `brew install`。Momentry 其他服務PostgreSQL, Redis, MongoDB需用 portable binary 手動安裝
- **無 Xcode CLT**: `install_name_tool`, `codesign` 不可用於 M5。binary 修復需在 M4 完成後 scp

View File

@@ -0,0 +1,91 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "5W1H+ Agent v1.0.0"
date: "2026-05-07"
version: "V1.0"
status: "active"
owner: "Warren"
tags:
- "momentry"
- "agent"
- "5w1h"
- "llm"
- "summary"
related_documents:
- "../../TRACE/TRACE_API_REFERENCE_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
- "../VECTOR_SPEC_V1.0.0.md"
---
# 5W1H+ Agent v1.0.0
## 概述
對每個 cut scene 產生 5W1H+ 摘要parent summary + child enhanced text
## 遞迴 ContextStory So Far
採用方案 B每段 scene 的 LLM call 帶入前面所有 scene 的摘要。
```
Scene 1 → LLM(context="") → summary_1
Scene 2 → LLM(context=summary_1) → summary_2
Scene 3 → LLM(context=summary_1+summary_2) → summary_3
```
Context truncation保留最近 ~500 tokens 的前情,避免超過模型 limit。
## Prompt 結構
每個 scene 的 LLM call 包含以下資訊:
| Prompt 區塊 | 來源 | 說明 |
|------------|------|------|
| Scene time | chunk metadata | 目前 scene 的時間區間 |
| Dialogue | sentences in scene | 該 scene 內的對話行 |
| Actors present | face_detections JOIN identity_bindings JOIN identities | 場景中出現的演員 |
| Objects detected | pre_chunks WHERE processor_type='yolo' | YOLO 偵測到的物體 |
| Face traces | face_detections JOIN identity_bindings JOIN identities | trace 與對應的演員名稱 |
| Active speakers | pre_chunks WHERE processor_type='asrx' JOIN identity_bindings | 說話者與對應的演員 |
| Story so far | 前 N 個 scene 的 parent_summary | 前情摘要 |
## LLM 模型
| 項目 | 值 |
|------|-----|
| 模型 | Gemma4 26B MoE (Q5_K_M, 18GB) |
| 部署 | llama-serverMetal GPU, port 8082 |
| 環境變數 | `MOMENTRY_LLM_SUMMARY_URL=http://localhost:8082/v1/chat/completions` |
| 溫度 | 0.1 |
| max_tokens | 4096 |
## 產出
| 輸出 | 儲存位置 | 說明 |
|------|---------|------|
| parent_summary | `cut.summary_text` | 5 句 scene_summary5W1H 流暢段落) |
| parent_5w1h | `cut.metadata -> 5w1h` | 結構化 who/what/where/when/why/how |
| child_enhanced | `sentence.text_content` | 自包含的 enhanced sentence供 embedding + search |
| child_5w1h | `sentence.content -> 5w1h` | 逐句的 5w1h 結構 |
| embedding | `sentence.embedding` | EmbeddingGemma 300M 768D產出 summary 後自動 vectorize |
## API
```
POST /api/v1/agents/5w1h/analyze
POST /api/v1/agents/5w1h/batch
GET /api/v1/agents/5w1h/status
```
## Pipeline 觸發
Job Worker 中的 P4 trigger
```rust
// all_completed + has_cut + has_asr → run_5w1h_agent(db, uuid)
```
## 選型文件
詳細方案比較:`M5_workspace/2026-05-07_5w1h_recursive_summary_design.md`

View File

@@ -0,0 +1,84 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Identity Agent v1.0.0"
date: "2026-05-07"
version: "V1.0"
status: "active"
owner: "Warren"
tags:
- "momentry"
- "agent"
- "identity"
- "face"
- "speaker"
related_documents:
- "../DATA_SCHEMA_FILE_IDENTITY_V1.0.0.md"
- "../../TRACE/TRACE_API_REFERENCE_V1.0.0.md"
- "../PROCESSORS/FACE_V1.0.0.md"
- "../PROCESSORS/ASRX_V1.0.0.md"
---
# Identity Agent v1.0.0
## 概述
將 face trace 與 speaker 綁定到人物身份identity實現跨場景的人員辨識。
## 處理流程
```
face_clustered.json + asrx.json
→ extract_persons (face clusters)
→ extract_speakers (ASRX segments)
→ analyze_person_speaker_overlap
→ 寫入 dev.identities
→ match_faces_iterative (TMDb seed → propagation)
→ bind_speakers (speaker_id → identity_id)
```
## 迭代多角度 Face Matching
```
TMDb seeds (12 identities, with mulitple angles)
→ Round 1: ~33% trace-to-identity
→ Round 2: propagate matched traces as new seeds
→ Round 3: propagate again
→ Final: 99% binding (6,175 / 6,186 face detections)
```
## Speaker Binding
```
face_detections (trace_id, frame_number)
+ ASRX segments (speaker_id, start_time, end_time)
→ frame-level overlap computation
→ winner-takes-all: best_overlap > 30%
→ 寫入 identity_bindings (identity_type='speaker')
```
## Pipeline 觸發
Job Worker 中的 P3 trigger
```rust
// has_face + has_asrx → run_identity_agent(db, uuid)
```
觸發時機all_completedface 與 asrx 皆完成後。
## DB 結構
| Table | 用途 |
|-------|------|
| `identities` | 身份主表name, type, metadata, embedding |
| `identity_bindings` | 綁定表identity_id → trace_id 或 speaker_id |
| `file_identities` | 檔案級身份對應 |
## API
```
POST /api/v1/agents/identity/analyze
POST /api/v1/agents/identity/suggest
GET /api/v1/agents/identity/status
```

View File

@@ -0,0 +1,173 @@
---
document_type: "reference_doc"
service: "MOMENTRY_CORE"
title: "Momentry Core API 字典 V1.0.0"
date: "2026-05-06"
version: "V1.3"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "api"
- "dictionary"
- "v1.0.0"
ai_query_hints:
- "Momentry Core API 字典查詢"
- "API 端點與參數說明"
- "API 回應格式定義"
- "查詢所有 Public/Internal/Admin API 端點列表"
- "API 端點的 HTTP 方法與路徑結構"
- "搜尋 API 有哪些端點search/bm25/hybrid/visual"
- "API 端點的狀態分類Public/Internal/Admin"
related_documents:
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
- "API_V1.0.0/API_USAGE_DEMO_V1.0.0.md"
- "API_V1.0.0/CHUNK_DEFINITION_V1.0.0.md"
- "API_V1.0.0/VECTOR_SPEC_V1.0.0.md"
---
# Momentry Core API 字典 V1.0.0
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Public API | 供前端與外部系統使用的標準介面 |
| Internal API | 系統內部流程或狀態查詢用 |
| Admin API | 管理員專用 |
| file_uuid | 32 碼 birth UUIDMAC + time + path + filename |
| identity_uuid | 32 碼 UUIDv5source + external_id |
| RESTful | 以資源為中心的 API 設計風格collection 複數、resource 單數 |
## 端點統計
| 分類 | 數量 | 說明 |
|---|---|---|
| Public | 40 | 供前端與外部系統使用的標準介面 |
| Internal | 4 | 系統內部流程或狀態查詢 |
| Admin | 3 | 管理員專用 |
| Health | 2 | 服務健康檢查 |
| **總計** | **48** | 所有已註冊路由 |
## 設計原則
### 1. RESTful 命名規範
- Collection複數: `/api/v1/files`, `/api/v1/identities`
- Resource單數: `/api/v1/file/:file_uuid`, `/api/v1/identity/:identity_uuid`
- Action on resource: `/api/v1/identity/:identity_uuid/bind`
### 2. File-Centric
- 每個媒體檔案由 32 碼 UUID (`file_uuid`) 唯一標識
- File 是所有資料的根節點Chunk、Job 隸屬於特定 File
### 3. Global Identity
- Identity 跨檔案關聯,不受單一檔案限制
- 透過 bind/unbind/mergeinto 管理 Face → Identity 的直接 FK 綁定V4.0
---
## 1. 系統與認證
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `GET` | `/health` | Health |
| `GET` | `/health/detailed` | Health |
| `POST` | `/api/v1/auth/login` | Public |
| `POST` | `/api/v1/auth/logout` | Public |
## 2. 檔案管理 (Files)
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `GET` | `/api/v1/files` | Public |
| `GET` | `/api/v1/files/scan` | Public |
| `POST` | `/api/v1/files/register` | Public |
| `POST` | `/api/v1/files/unregister` | Public |
| `GET` | `/api/v1/file/:file_uuid` | Public |
| `GET` | `/api/v1/file/:file_uuid/probe` | Public |
| `POST` | `/api/v1/file/:file_uuid/process` | Public |
| `GET` | `/api/v1/file/:file_uuid/identities` | Public |
| `GET` | `/api/v1/file/:file_uuid/chunks` | Public |
| `GET` | `/api/v1/file/:file_uuid/thumbnail?frame=&x=&y=&w=&h=` | Public |
| `POST` | `/api/v1/file/:file_uuid/face_trace/sortby` | Public |
## 3. 管線與任務 (Pipeline & Jobs)
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `GET` | `/api/v1/progress/:file_uuid` | Public |
| `GET` | `/api/v1/jobs` | Public |
| `GET` | `/api/v1/job/:job_id` | Public |
| `GET` | `/api/v1/rule/:rule_id/status` | Public |
| `POST` | `/api/v1/resource/register` | Internal |
| `POST` | `/api/v1/resource/heartbeat` | Internal |
| `GET` | `/api/v1/resources` | Internal |
## 4. 搜尋 (Search)
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `POST` | `/api/v1/search` | Public |
| `POST` | `/api/v1/search/bm25` | Public |
| `POST` | `/api/v1/search/hybrid` | Public |
| `POST` | `/api/v1/search/smart` | Public |
| `POST` | `/api/v1/search/universal` | Public |
| `POST` | `/api/v1/search/frames` | Public |
| `POST` | `/api/v1/search/visual` | Public |
| `POST` | `/api/v1/search/visual/class` | Public |
| `POST` | `/api/v1/search/visual/density` | Public |
| `POST` | `/api/v1/search/visual/combination` | Public |
| `POST` | `/api/v1/search/visual/stats` | Public |
## 5. 身份管理 (Identity)
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `GET` | `/api/v1/identities` | Public |
| `POST` | `/api/v1/identity` | Public |
| `GET` | `/api/v1/identity/:identity_uuid` | Public |
| `DELETE` | `/api/v1/identity/:identity_uuid` | Public |
| `GET` | `/api/v1/identity/:identity_uuid/files` | Public |
| `GET` | `/api/v1/identity/:identity_uuid/chunks` | Public |
| `POST` | `/api/v1/identity/:identity_uuid/bind` | Public |
| `POST` | `/api/v1/identity/:identity_uuid/unbind` | Public |
| `POST` | `/api/v1/identity/:from_uuid/mergeinto` | Public |
## 6. 臉部 (Faces)
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `GET` | `/api/v1/faces/candidates` | Public |
## 7. 代理人 (Agents)
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `POST` | `/api/v1/agents/translate` | Public |
| `POST` | `/api/v1/agents/identity/analyze` | Public |
| `POST` | `/api/v1/agents/identity/suggest` | Public |
| `GET` | `/api/v1/agents/identity/status` | Public |
| `POST` | `/api/v1/agents/suggest/merge` | Public |
| `POST` | `/api/v1/agents/5w1h/analyze` | Public |
| `POST` | `/api/v1/agents/5w1h/batch` | Public |
| `GET` | `/api/v1/agents/5w1h/status` | Public |
## 8. 狀態與管理 (Stats & Admin)
| 方法 | 路徑 | 狀態 |
|------|------|------|
| `GET` | `/api/v1/stats/sftpgo` | Internal |
| `GET` | `/api/v1/stats/inference` | Internal |
| `POST` | `/api/v1/config/cache` | Admin |
---
## 變更歷史
| 版本 | 日期 | 作者 | 說明 |
|------|------|------|------|
| V1.3 | 2026-05-06 | OpenCode | 新增 `face_thumbnail` ffmpeg 即時裁切端點 + `face_trace/sortby` 端點portal 修復 hardcoded URL/API key/legacy endpoints |
| V1.1 | 2026-05-01 | OpenCode | Route fixes + arch notes |
| V1.0 | 2026-04 | OpenCode | 初始版本 |

View File

@@ -0,0 +1,310 @@
---
document_type: "reference_doc"
service: "MOMENTRY_CORE"
title: "Momentry Core API 參考文件 V1.0.0 (Demo 完整指南)"
date: "2026-05-01"
version: "V3.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "api"
- "reference"
- "v1.0.0"
- "demo"
- "marcom"
ai_query_hints:
- "查詢 V1.0.0 Demo 所需 API 列表"
- "Momentry Core Demo 流程如何使用 API"
- "API 的檔案註冊、處理、臉部綁定流程"
- "Demo 流程中 Scan → Unregister → Register → Probe → Process → Faces → Bind 的完整步驟"
- "API 的 curl 範例與回應格式"
- "Process 回傳 400 Bad Request 的常見原因與解決方法"
- "臉部查詢回傳空結果的疑難排解步驟"
related_documents:
- "STANDARDS/DOCS_STANDARD.md"
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
- "TEST_REPORT_CLI.md"
---
# Momentry Core API 參考文件 V1.0.0 (Demo 完整指南)
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| file_uuid | 32 碼 SHA256 檔案識別碼 |
| X-API-Key | API 認證方式,透過 HTTP Header 傳遞 |
| Scan | 掃描檔案系統,列出所有檔案及當前狀態 |
| Register | 將檔案加入資料庫系統 |
| Probe | 讀取檔案 metadata時長、解析度、幀率 |
| Bind | 將臉部綁定到指定身份 |
| Progress | 獲取處理進度與目前階段 |
## 📊 文件統計 (Document Statistics)
| 項目 | 數值 |
|---|---|
| **收錄端點** | 15+ (Demo 核心流程) |
| **涵蓋率** | Demo 流程 100% |
| **測試狀態** | ✅ CLI Verified |
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-01 |
| 文件版本 | V3.0 |
---
## 1. Demo 流程總覽 (Demo Workflow)
本文件專注於 **Demo 測試計畫** 所需的 API。以下是完整流程與對應 API
```
1. 掃描狀態 (Scan) → GET /api/v1/files/scan
2. 檔案重置 (Unregister) → POST /api/v1/unregister
3. 檔案註冊 (Register) → POST /api/v1/files/register
4. 檔案探測 (Probe) → GET /api/v1/files/:file_uuid/probe
5. 開始處理 (Process) → POST /api/v1/files/:file_uuid/process
6. 監控進度 (Progress) → GET /api/v1/progress/:file_uuid**
7. 查詢臉部 (Faces) → GET /api/v1/faces/candidates
8. 綁定身份 (Bind) → POST /api/v1/identities/bind
```
---
## 2. 快速資訊
- **Base URL (Dev)**: `http://localhost:3003`
- **Base URL (Prod)**: `http://localhost:3002`
- **認證方式**: Header `X-API-Key: muser_test_001`
- **測試 Key**: `muser_test_001`
---
## 3. API 詳細說明 (依 Demo 順序)
### 3.1 掃描檔案系統 (Scan Files)
**路徑**: `GET /api/v1/files/scan`
**用途**: 列出檔案系統中所有檔案及當前狀態,**是 Demo 流程的第一步**。
**Response**:
```json
{
"files": [
{
"file_name": "A12T3-Share-User Experience of Thunderbolt 3 Shareable Storage.mp4",
"file_path": "/Users/accusys/momentry/var/sftpgo/data/demo/A12T3-Share-User Experience of Thunderbolt 3 Shareable Storage.mp4",
"file_uuid": "7ab7e25f48b58675e33aca44d15c1ecc",
"is_registered": true,
"status": "processing"
}
],
"total": 20,
"registered_count": 20,
"unregistered_count": 0
}
```
---
### 3.2 取消註冊 (Unregister File)
**路徑**: `POST /api/v1/unregister`
**用途**: 從 Scan 結果中選取 `file_uuid`,對該檔案執行取消註冊。
**Request**:
```json
{
"uuid": "53e3a229bf68878b7a799e811e097f9c"
}
```
**Response**:
```json
{
"success": true,
"uuid": "53e3a229bf68878b7a799e811e097f9c",
"message": "File unregistered successfully"
}
```
---
### 3.3 註冊檔案 (Register File)
**路徑**: `POST /api/v1/files/register`
**用途**: 從 Scan 結果中選取 `file_path`,將檔案加入資料庫系統。
**Request**:
```json
{
"file_path": "/Users/accusys/momentry/var/sftpgo/data/demo/view15.mp4"
}
```
**Response**:
```json
{
"success": true,
"file_uuid": "53e3a229bf68878b7a799e811e097f9c",
"file_name": "view15.mp4",
"file_path": "/Users/.../demo/view15.mp4",
"already_exists": false
}
```
---
### 3.4 檔案探測 (Probe File)
**路徑**: `GET /api/v1/files/:file_uuid/probe`
**用途**: 讀取檔案的 metadata (時長、解析度、幀率)。**必須在 Process 前執行**。
**Response**:
```json
{
"file_uuid": "7ab7e25f48b58675e33aca44d15c1ecc",
"file_name": "A12T3-Share-User Experience of Thunderbolt 3 Shareable Storage.mp4",
"duration": 621.55,
"width": 1920,
"height": 1080,
"fps": 29.97,
"cached": true
}
```
---
### 3.5 觸發處理 (Process File)
**路徑**: `POST /api/v1/files/:file_uuid/process`
**用途**: 啟動後端 Worker 進行分析 (ASR, Face, YOLO, 等)。
**Request**:
```json
{}
```
**Response**:
```json
{
"success": true,
"message": "Processing started"
}
```
---
### 3.6 查詢進度 (Progress)
**路徑**: `GET /api/v1/progress/:file_uuid`
**用途**: 獲取處理進度與目前階段。
**Response**:
```json
{
"file_uuid": "53e3a229bf68878b7a799e811e097f9c",
"overall_progress": 65,
"current_processor": "face",
"status": "running",
"processors": [
{ "name": "probe", "status": "completed" },
{ "name": "asr", "status": "completed" },
{ "name": "face", "status": "running" }
]
}
```
---
### 3.6 查詢未綁定臉部 (List Face Candidates)
**路徑**: `GET /api/v1/faces/candidates`
**用途**: 列出檔案中尚未綁定身份的臉部。
**Query Parameters**:
- `file_uuid` (必填): 檔案 UUID
- `min_confidence` (選填): 最低信心值 (預設 0.5)
- `page_size` (選填): 每頁數量 (預設 20)
**Response**:
```json
{
"candidates": [
{
"id": 123,
"face_id": "123_RoleA",
"file_uuid": "384b0ff44aaaa1f14cb2cd63b3fea966",
"frame_number": 115,
"confidence": 0.98,
"bbox": { "x": 50, "y": 50, "w": 100, "h": 100 }
}
],
"total": 1,
"page": 1,
"page_size": 20
}
```
---
### 3.7 綁定身份 (Bind Identity)
**路徑**: `POST /api/v1/identities/bind`
**用途**: 將臉部綁定到指定身份 (或建立新身份)。
**Request**:
```json
{
"identity_id": 22,
"binding_type": "face",
"binding_value": "123_RoleA"
}
```
**Response**:
```json
{
"success": true,
"message": "Bound face '123_RoleA' to Identity 'Cary Grant'"
}
```
---
## 4. 補充 API (Demo 選用)
### 4.1 列出身份 (List Identities)
**路徑**: `GET /api/v1/identities`
**用途**: 列出系統中所有已建立的身份。
---
## 5. 常見問題 (FAQ)
### Q1: 為什麼 Process 回傳 400 Bad Request
**Ans**: 必須先執行 **Probe** (`GET /api/v1/files/:file_uuid/probe`),確保系統已知曉檔案的幀數資訊。
### Q2: 為什麼 Unregister 回傳 404
**Ans**: 確認伺服器是否已更新至最新版本。舊版可能尚未包含此路由。
### Q3: 臉部查詢回傳空結果?
**Ans**:
1. 確認檔案已**處理完成** (Progress = 100%)。
2. 嘗試降低 `min_confidence` 參數 (例如設為 0.0)。
3. 確認該檔案內容確實包含可辨識的臉部。
---
## 6. 版本歷史
| 版本 | 日期 | 目的 | 操作人 |
|------|------|------|--------|
| V1.0 | 2026-04-30 | 初始 API 列表 | OpenCode |
| V2.0 | 2026-05-01 | 基於 Production 測試結果補足文件 | OpenCode |
| V3.0 | 2026-05-01 | 重構為 Demo 流程導向,補齊 Probe/Unregister 說明 | OpenCode |
| V3.1 | 2026-05-01 | 修正 `:uuid``:file_uuid`,修正 port 3002→3003移除重複 Scan 章節 | OpenCode |

View File

@@ -0,0 +1,376 @@
---
document_type: "develop_guide"
service: "MOMENTRY_CORE"
title: "Momentry Core V1.0.0 API 示範與整合指南"
date: "2026-05-01"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "api-usage"
- "demo"
- "n8n"
- "wordpress"
ai_query_hints:
- "查詢 V1.0.0 API 示範與整合指南的內容"
- "如何使用 n8n 呼叫 V1.0.0 API"
- "如何整合 V1.0.0 API 到 WordPress"
- "V1.0.0 API 的 curl 範例"
- "PHP 整合 V1.0.0 API 的方式wp_remote_request"
- "n8n 工作流如何串接 V1.0.0 API"
- "Face 綁定錯誤修正的 API 操作步驟"
- "前端 Face Interpolation 的實作方式"
related_documents:
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
- "API_V1.0.0/API_DICTIONARY_V1.0.0.md"
- "API_V1.0.0/API_REFERENCE_v1.0.0.20260501md.md"
- "API_V1.0.0/CHUNK_DEFINITION_V1.0.0.md"
- "API_V1.0.0/PROCESSOR_SELECTION_V1.0.0.md"
---
# Momentry Core V1.0.0 API 示範與整合指南
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-01 |
| 文件版本 | V1.0 |
| 適用版本 | Momentry Core V1.0.0+ |
---
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| file_uuid | 32 碼 SHA256 檔案識別碼 |
| X-API-Key | API 認證方式,透過 HTTP Header 傳遞 |
| face_id | 單一幀中的人臉偵測 ID格式為 `<檢測ID>_<角色後綴>` |
| Identity | 全域人物身份,跨檔案關聯同一人物 |
| Face Interpolation | 前端線性插值,補足非逐幀臉部標記的顯示 |
| Scan | 掃描檔案系統,列出所有檔案及當前狀態 |
## 1. 快速開始 (Quick Start)
### 1.1 環境 URL
| 環境 | URL | 用途 |
|------|-----|------|
| **對外 URL** | `https://api.momentry.ddns.net` | 外部存取 |
| **Dev Server** | `http://localhost:3003` | **開發環境,所有測試用** |
| **Local Server** | `http://localhost:3002` | Production僅 release 用 |
### 1.2 測試連線
```bash
curl http://localhost:3003/health
```
```json
{
"status": "ok",
"version": "1.0.0 (build: ...)",
"uptime_ms": 64880
}
```
---
## 2. 核心 API 工作流 (Workflows)
### 2.1 掃描檔案系統 (Scan Files)
**入口 API**: `GET /api/v1/files/scan` — 所有 Demo 流程從這裡開始。
**掃描檔案**:
```bash
curl -s "http://localhost:3003/api/v1/files/scan" \
-H "X-API-Key: <your_api_key>"
```
**列出檔案 (分頁)**:
```bash
curl -s "http://localhost:3003/api/v1/files?page=1&page_size=10" \
-H "X-API-Key: <your_api_key>"
```
**取得單一檔案詳情**:
```bash
curl -s "http://localhost:3003/api/v1/files/<file_uuid>" \
-H "X-API-Key: <your_api_key>"
```
### 2.2 搜尋 (Search)
支援語意搜尋、混合搜尋與視覺搜尋。
```bash
curl -X POST "http://localhost:3003/api/v1/search" \
-H "X-API-Key: <your_api_key>" \
-H "Content-Type: application/json" \
-d '{"query": "尋找紅色信封", "uuid": "<file_uuid>"}'
```
### 2.3 單獨 Face 綁定流程 (Single Face Binding Workflow)
此流程適用於手動將特定臉部關聯到已知人物或建立新人物的場景。系統支援**一人分飾多角**,透過 `face_id` 加上角色後綴來區分。
#### 步驟 1: 選定 Face (Input Format)
使用者需提供一個 **`file_uuid`** 搭配 **`face_id`** 來鎖定目標。
選定的意思是輸入 **`<file_uuid>:<face_id>`** 的組合。
* **命名規則**: `face_id` 格式通常為 `<原始檢測 ID>_<後綴>`,用於區分同一人的不同臉部實體或角色。
* **有角色名稱**: 使用角色名 (如 `123_PeterJoshua`)。
* **無角色名稱**: 使用通用代號 (如 `123_RoleA`, `123_RoleB`)。
#### 步驟 2: 列出 Identities 或新增 Identity
使用者決定將該 Face 綁定到系統中已存在的全域人物 (Identity),或是建立一個新人物。
* **Identity 特性**: 代表現實世界中的真實人物,具備**全域唯一性** (如 "Cary Grant")。
- **選項 A: 列出人物清單**
```bash
curl -s "http://localhost:3003/api/v1/identities?page=1&page_size=20" \
-H "X-API-Key: <your_api_key>"
```
- **選項 B: 決定新增人物名稱**
若列表中沒有對應人物,使用者需準備一個新名稱(如 "Cary Grant")。
#### 步驟 3: 確認綁定
透過 `POST /api/v1/identities/bind` 完成綁定。
* **若提供 `identity_id`**: 將帶有後綴的 `face_id` 綁定至該人物。
* **若提供 `name`**: 系統自動建立新人物 (Identity),並將該臉部綁定上去。
- **綁定至現有身份 (範例)**:
假設我們要綁定的目標是檔案 `file_uuid_abc` 中的臉部 `123_PeterJoshua`。
```bash
curl -X POST "http://localhost:3003/api/v1/identities/bind" \
-H "X-API-Key: <your_api_key>" \
-H "Content-Type: application/json" \
-d '{
"identity_id": 101,
"binding_type": "face",
"binding_value": "123_PeterJoshua"
}'
```
*註: 雖然 API 接收的是 `binding_value`,但系統內部會根據選定的 `file_uuid` 與 `face_id` 組合來精確鎖定目標。*
#### 步驟 4: 循環
完成綁定後,返回列表處理下一個未綁定的 Face。
---
### 2.4 取得 Face 截圖 (Retrieve Face Snapshots)
在確認綁定前,通常需要檢視臉部截圖。根據使用場景,取得截圖有兩種方式:
#### 1. Local Path / Filename (本地路徑)
* **適用**: Tauri 桌面應用、本機腳本。
* **說明**: 直接從硬碟讀取圖片檔案,速度最快,無需經過網路層。
* **路徑**: `<MOMENTRY_OUTPUT_DIR>/<file_uuid>/snapshots/faces/<face_id>.jpg`
#### 2. URL (網路存取)
* **適用**: Web 前端、外部系統。
* **說明**: 透過 HTTP GET 請求取得影像串流。
* **API Endpoint**: `GET /api/v1/files/<file_uuid>/faces/<face_id>/thumbnail`
* **範例**:
```bash
curl -s -o face.jpg \
"http://localhost:3003/api/v1/files/<file_uuid>/faces/<face_id>/thumbnail" \
-H "X-API-Key: <your_api_key>"
```
---
### 2.4.1 前端動態辨識與插值 (Face Interpolation Logic)
由於系統對臉部標記並非逐幀 (Frame-by-Frame) 進行(為節省運算資源或受限於取樣率),在 Client 端進行**逐幀播放**或**時間軸拖曳**時,若直接顯示會導致臉部框選忽閃忽滅。
#### 運作邏輯
前端需實作**線性插值 (Linear Interpolation)** 機制:
1. **取得資料**:從 API 取得該 `face_id` 在所有 `frame_number` 的座標列表例如Frame 10, Frame 15 有資料)。
2. **插值計算**
* 當使用者停在 **Frame 12** 時,系統無直接資料。
* 前端應找出前後最近的有資料幀Frame 10 與 Frame 15
* 根據時間差比例,動態計算出 Frame 12 的座標 `x, y, w, h`。
#### 實作範例 (JavaScript/TypeScript)
```typescript
// 假設 API 回傳該 Face 的軌跡點
const detections = [
{ frame: 10, bbox: { x: 100, y: 100, w: 50, h: 60 } },
{ frame: 15, bbox: { x: 110, y: 105, w: 50, h: 60 } },
];
// 計算 Frame 12 的預測框選
function getInterpolatedBBox(frameIndex: number, detections) {
// 找到前一幀與後一幀
const prev = detections.find(d => d.frame <= frameIndex); // Frame 10
const next = detections.find(d => d.frame > frameIndex); // Frame 15
if (!prev) return null; // 還沒開始出現
if (!next) return prev.bbox; // 結束了,維持最後位置
// 計算比例 (0.0 - 1.0)
const ratio = (frameIndex - prev.frame) / (next.frame - prev.frame);
return {
x: prev.bbox.x + (next.bbox.x - prev.bbox.x) * ratio,
y: prev.bbox.y + (next.bbox.y - prev.bbox.y) * ratio,
// w, h 亦可依此邏輯進行縮放插值
w: prev.bbox.w,
h: prev.bbox.h,
};
}
```
---
### 2.5 Face 綁定錯誤修正 (Face Binding Error Correction)
此流程適用於移除錯誤綁定的臉部資料,使其恢復為未綁定狀態。
1. **選定 Face**: 確認需要解除綁定的臉部 `face_id` 以及所屬的 `file_uuid`。
2. **解除綁定 (Unbind)**:
```bash
curl -X POST "http://localhost:3003/api/v1/identities/unbind" \
-H "X-API-Key: <your_api_key>" \
-H "Content-Type: application/json" \
-d '{
"binding_type": "face",
"binding_value": "<selected_face_id>"
}'
```
---
## 3. n8n 整合範例
### 3.1 HTTP Request 設定
| 欄位 | 值 |
|---|---|
| Method | `GET` 或 `POST` |
| URL | `http://localhost:3003/api/v1/files` (Dev) 或 `https://<your-domain>` (Prod) |
| Header `X-API-Key` | `<your_api_key>` |
### 3.2 列出檔案 Workflow (JSON)
使用 `GET /api/v1/files/scan` 作為入口。
```json
{
"nodes": [
{
"name": "Get Files",
"type": "n8n-nodes-base.httpRequest",
"parameters": {
"method": "GET",
"url": "http://localhost:3003/api/v1/files/scan",
"sendHeaders": true,
"headerParameters": {
"parameters": [{ "name": "X-API-Key", "value": "{{ $env.API_KEY }}" }]
},
"options": { "qs": { "page": 1, "page_size": 10 } }
},
"position": [450, 300]
},
{
"name": "Extract List",
"type": "n8n-nodes-base.code",
"parameters": {
"jsCode": "return $input.first().json.data.map(f => ({\n json: {\n uuid: f.file_uuid,\n name: f.file_name,\n status: f.status\n }\n}));"
},
"position": [650, 300]
}
]
}
```
---
## 4. WordPress / PHP 整合範例
### 4.1 PHP Client Library (V1.0.0 相容)
```php
<?php
class Momentry_API {
private const API_URL = 'http://localhost:3003'; // Dev environment
private const API_KEY = '<your_api_key>';
private function request(string $endpoint, array $data = [], string $method = 'GET'): array {
$url = self::API_URL . $endpoint;
$args = [
'headers' => [
'X-API-Key' => self::API_KEY,
'Content-Type' => 'application/json',
],
'timeout' => 30,
];
if ($method === 'POST') {
$args['method'] = 'POST';
$args['body'] = json_encode($data);
}
$response = wp_remote_request($url, $args);
if (is_wp_error($response)) {
throw new Exception($response->get_error_message());
}
return json_decode(wp_remote_retrieve_body($response), true);
}
// 掃描檔案
public function scan_files(): array {
return $this->request('/api/v1/files/scan');
}
// 列出檔案
public function list_files(): array {
return $this->request('/api/v1/files');
}
// 搜尋
public function search(string $query): array {
return $this->request('/api/v1/search', ['query' => $query], 'POST');
}
}
?>
```
---
## 5. 疑難排解
| 錯誤 | 原因 | 解決方案 |
|------|------|----------|
| `401 Unauthorized` | API Key 無效 | 檢查 Key 格式與權限 |
| `404 Not Found` | 端點不存在 | 確認是否使用了舊版 `/api/v1/videos`,應改為 `/api/v1/files` |
| `400 Bad Request on Process` | 缺少 Probe 資料 | 先執行 `GET /api/v1/files/:file_uuid/probe` |
| `500 Error` | 伺服器錯誤 | 檢查資料庫連線與 Schema 版本 |
---
## 6. 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-01 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-01 | 修正 port 為 Dev(3003),更新 API 路徑與掃描入口 | OpenCode | deepseek-chat |
---
## 7. 附錄UUID 格式說明
V1.0.0 使用 **32 碼 SHA256** 作為 `file_uuid`。
```
/Users/.../demo/video.mp4
SHA256 Hash (前 32 字元)
53e3a229bf68878b7a799e811e097f9c
```

View File

@@ -0,0 +1,148 @@
---
document_type: "experiment_report"
service: "MOMENTRY_CORE"
title: "兒童偵測與年齡估算模型選型報告"
date: "2026-05-06"
version: "V1.0"
status: "completed"
owner: "Warren"
created_by: "OpenCode"
---
# 兒童偵測與年齡估算模型選型報告
## 1. 實驗目標
在 Momentry Core 的 Face Trace 資料中,尋找「非主要演員中的兒童角色」並評估三種年齡估算方案的可行性:
1. **DeepFace AgeNet** — 深度學習年齡估算MIT License
2. **Apple Vision 頭肩比** — 用頭寬/肩寬比例推測年齡(系統內建)
3. **MiVOLO** — HuggingFace 年齡模型Apache 2.0
## 2. 實驗環境
| 項目 | 內容 |
|------|------|
| 測試影片 | Charade (1963), 113 min, 24fps |
| Face detections | 6182 faces, 2347 traces |
| Face 偵測 | Apple Vision `VNDetectFaceRectanglesRequest` (swift_face) |
| Face 嵌入 | CoreML FaceNet512 |
| 取樣間隔 | 60 幀 (2.5 秒) |
| 體態偵測 | Apple Vision `VNDetectHumanBodyPoseRequest` |
## 3. 實驗方法
### 3.1 主要角色年齡估算
從 2347 個 trace 中挑選 face_count ≥ 5 的 12 個主要 trace提取中間幀進行 DeepFace 年齡估算 + Apple Vision 頭肩比計算。
### 3.2 非主要角色搜尋
搜尋小臉(< 60px、低 face_count≤ 2的 trace找出群眾演員可能包含兒童
### 3.3 滑雪場水槍場景
Charade 開場 Megève 滑雪場有一名男孩用水槍噴灑女主角的場景。對此場景進行密集幀掃描30 幀間隔)搜尋兒童臉。
## 4. 模型選型結果
### 4.1 模型可用性
| 方案 | 可用 | 速度/face | License | 結論 |
|------|------|----------|---------|------|
| **DeepFace AgeNet** | ✓ | 0.2s(快取後) | MIT | **推薦** |
| Apple Vision 年齡 | ✗ | — | 系統內建 | Vision 無年齡 API |
| Apple Vision 頭肩比 | ✓ | 即時 | 系統內建 | 僅成人/兒童分類 |
| MiVOLO | ✗ | — | Apache 2.0 | 模型不可用HuggingFace 不存在) |
### 4.2 DeepFace 年齡估算12 主要角色取樣)
| Trace | Faces | 出現時間 | 臉寬 | DeepFace 年齡 | 性別 | 情緒 |
|-------|-------|----------|------|-------------|------|------|
| 0 | 45 | 35s | 160px | 35 | Man | sad |
| 24 | 6 | 708s | 100px | 34 | Man | neutral |
| 26 | 5 | 728s | 100px | 31 | Woman | neutral |
| 39 | 14 | 760s | 120px | 30 | Man | sad |
| 43 | 12 | 765s | 120px | 25 | Man | sad |
| 45 | 8 | 775s | — | 36 | Woman | neutral |
| 46 | 9 | 795s | — | 29 | Woman | neutral |
| 48 | 6 | 818s | 140px | 50 | Man | angry |
| 76 | 13 | 908s | — | 29 | Man | sad |
| 87 | 5 | 972s | — | 35 | Man | sad |
| 103 | 7 | 1022s | — | 35 | Woman | neutral |
| 132 | 5 | 1158s | — | 27 | Man | surprise |
**年齡範圍2550 歲,全成人。**
### 4.3 Apple Vision 頭肩比
| Frame | 臉寬 | 肩寬 | 頭肩比 | DeepFace 年齡 | 場景 |
|-------|------|------|--------|-------------|------|
| 840 | 160px | 407px | **0.39** | 35 | 滑雪場(主角) |
| 17460 | 100px | 354px | **0.28** | 31 | 中段場景 |
| 18360 | 120px | 306px | **0.39** | 25 | 中段場景 |
| 19620 | 140px | 425px | **0.33** | 50 | 最年長角色 |
| 27780 | 110px | 381px | **0.29** | 27 | 後段場景 |
**頭肩比範圍0.280.39(全成人範圍)。兒童預期 > 0.6。**
### 4.4 非主要演員(群眾)
| Trace | Faces | 臉寬 | DeepFace 年齡 | 性別 | 頭肩比 | 場景 |
|-------|-------|------|-------------|------|--------|------|
| 129 | 1 | 42px | 37 | Man | 0.13 | 遠景群眾 |
| 172 | 2 | 51px | 31 | Man | 0.22 | 遠景群眾 |
| 304 | 2 | 47px | 41 | Man | 0.14 | 遠景群眾 |
| 57 | 1 | 52px | 35 | Woman | — | 遠景群眾 |
| 322 | 1 | 52px | 34 | Man | 0.18 | 遠景群眾 |
**全成人。遠景群眾頭肩比更低 (0.130.22),因相機距離影響 > 體型差異。**
## 5. 水槍場景搜尋結果
**成功找到小孩,但無法可靠估算年齡。**
| 參數 | 數值 |
|------|------|
| 影片 | Charade (1963) |
| 場景 | Megève 滑雪場戶外餐廳 |
| 時間 | Frame 2450 (102 秒 / 1:42) |
| 臉部尺寸 | **29 × 29 px** |
| Swift Face 偵測 | ✓ 已偵測trace_id 未分配,單幀) |
| DeepFace 年齡 | 33 Man ❌ **誤判**(解析度不足) |
| Apple Vision 頭肩比 | 無法計算(身體被遮擋) |
### 誤判原因
29×29px 遠低於年齡估算模型的最低解析度需求(一般需 ≥ 50×50px。在遠景中兒童的臉太小神經網路無法提取足夠的年齡特徵導致
- DeepFace 將兒童誤判為成人
- 頭肩比受距離影響大於實際年齡
## 6. 結論與建議
| 發現 | 說明 |
|------|------|
| Charade 無兒童主要角色 | 全卡司成人DeepFace 年齡範圍 2550 |
| 水槍小孩已找到 | Frame 2450102 秒,但 29px 太小無法估齡 |
| DeepFace 可行 | MIT license0.2s/face適合 ≥ 50px 臉部 |
| Apple Vision 頭肩比 | 僅適合作近景成人/兒童分類(非精確年齡) |
| MiVOLO | 不可用HuggingFace 模型不存在) |
### 建議
1. **整合 DeepFace** 年齡估算入 `face_processor.py` pipeline對 ≥ 50px 的臉進行年齡標記
2. **保留頭肩比** 做為輔助驗證(成人/兒童二元分類)
3. **降低取樣間隔** 從 60 幀降至 1015 幀以捕捉更多短暫出現的角色
4. **若需測試兒童年齡**:使用片庫中的 `Alice Comedies (1926)`該片有近景小女孩Virginia Davis68 歲),臉部可達 150px+
---
## 附錄:測試資料
| 檔案 | 路徑 |
|------|------|
| DeepFace 年齡 JSON | `output_dev/experiments/age_benchmark/age_benchmark_report.json` |
| 頭肩比 JSON | `output_dev/experiments/head_shoulder/head_shoulder_report.json` |
| 水槍場景幀 | `output_dev/experiments/head_shoulder/child_f2450.jpg` |
| 年齡基準腳本 | `scripts/age_benchmark.py` |
| 頭肩比腳本 | `scripts/head_shoulder_quick.py` |
| Face trace 排序 API | `POST /api/v1/file/:file_uuid/face_trace/sortby` |

View File

@@ -0,0 +1,298 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Story Parent-Child Chunk Rules V1.0"
date: "2026-05-05"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "chunk"
- "story"
- "parent-child"
- "v1.0"
ai_query_hints:
- "Story parent-child chunk generation rules"
- "CUT scene → parent chunk, ASR sentence → child chunk"
- "boundary overlap: partial match enriches child context"
- "parent_summary template + child_summary template"
- "children per parent distribution"
related_documents:
- "../CHUNK_DEFINITION_V1.0.0.md"
- "../DUAL_EMBEDDING_PIPELINE_V1.0.0.md"
- "../PROCESSORS/ASR_V1.0.0.md"
- "../PROCESSORS/CUT_V1.0.0.md"
---
# Story Parent-Child Chunk Rules V1.0
## 核心概念
- **Parent chunk** = CUT 場景邊界內的所有對話 → 一個場景敘述
- **Child chunk** = 單一 ASR sentence → 一句對白
- **Boundary overlap** = 場景邊界重疊的句子 → 同時歸屬前後 parent
## 匹配規則
### Rule 1: Fully-Contained Matching
```
ASR sentence 完全在 CUT 場景時間範圍內
→ seg.start >= scene.start_time AND seg.end <= scene.end_time
→ 加入該 scene 的 children 列表
```
### Rule 2: Boundary Overlap (所有 parent)
```
對於每個 parent chunk即使只有 1 child:
→ 找出與 scene 時間範圍有 partial overlap 的 ASR sentence
→ seg.start < scene.end_time AND seg.end > scene.start_time
→ AND 未被 Rule 1 匹配(不是 fully-contained
→ 加入該 scene 的 children 列表
```
邊界 overlap 讓 child chunk 可以同時歸屬前後兩個 parent提供更多上下文。
### Rule 3: Scene Filter
```
CUT scene duration < 1s → 跳過(場景太短無意義)
```
## Parent Summary 模板
```
[{start}s-{end}s, {duration}s]
Cast: {character_list}
Total dialogue: N lines, W words
Speakers: {name} (N lines): "sample text..."
```
## Child Summary 模板
```
[{start}s-{end}s] {speaker_name}: "{asr_text}"
```
### Embedding Target
Child summary text → Ollama nomic-embed-text-v2-moe → 768D vector → pgvector
## 數據實例Charade (1963) — 長片 113min
### 輸入
| 來源 | 數量 | 說明 |
|------|------|------|
| ASR segments | **1,629** | Whisper small 英文字幕 |
| ASR with text | 1,629 | 全部有文字 |
| ASR total duration | 6,760s (113 min) | |
| CUT scenes | **1,331** | PySceneDetect 場景切割 |
| CUT scenes ≥ 1s | 1,200 | 過濾後有效場景 |
| CUT mean duration | 5.2s | 平均場景長度 |
| CUT scene gap (unmatched) | 131 | < 1s 場景被過濾 |
### 輸出 (V2.1 — boundary overlap for ALL scenes, duration filter removed)
| 指標 | 數值 |
|------|------|
| **Parent chunks** | **1,313** (all CUT scenes ≥ 0s) |
| **Child chunks** (total in DB) | **2,927** (1,629 unique + 1,298 overlaps) |
| **Unique children** | **1,629** (100% ASR coverage) |
| DB duplicates (shared) | 1,298 (ON CONFLICT merge) |
| Children per parent | 1 ~ 43, avg **2.2** |
| Unmatched | **0** |
### 分佈
```
Children per parent:
1: 128 parents (獨白/短場景)
2: 58 parents
3: 0 parents ← 邊界 overlap 後 3 被 2/4 吸收
4-9: 64 parents (中等對話場景)
10-27: 50 parents (多人對話場景)
```
### 已匹配率
| 指標 | 數值 |
|------|------|
| ASR unmatched | **0** (V2.1: boundary overlap for ALL scenes) |
| 已匹配率 | **100%** |
## 輸入/輸出範例
### Big Parent多子女
**輸入原始數據**
```
CUT scene [2783s-2847s, 65s]
27 ASR sentences, all spoken by Audrey Hepburn + Cary Grant + SPEAKER_2
```
**輸出 Parent Summary**
```
[2783s-2847s, 65s] Cast: Audrey Hepburn, Cary Grant, SPEAKER_2.
Total dialogue: 27 lines, 143 words.
```
**輸出 Child Summaries**embedding target
```
[2784s-2786s] Audrey Hepburn: "they stole it"
[2786s-2788s] Audrey Hepburn: "by burying it"
[2788s-2790s] Audrey Hepburn: "then reporting the Germans had captured it"
... (27 total)
```
**Metadata 信度**(隨 parent/child 傳遞):
```json
// Parent metadata
{
"speaker_confidence": { "Audrey Hepburn": 0.85, "Cary Grant": 0.64 },
"face_confidence": { "Audrey Hepburn": 0.60, "Cary Grant": 0.64 },
"yolo_objects": { "car": 0.72, "bottle": 0.55, "chair": 0.68 }
}
// Child metadata
{
"speaker_name": "Audrey Hepburn",
"speaker_confidence": 0.85, // MAR lip: 57% events during SPEAKER_1
"face_confidence": 0.60, // clustering composite
"asr_confidence": 0.92 // Whisper confidence
}
```
### 1:1 Parent單子女
**輸入原始數據**
```
CUT scene [304s-318s, 14s]
1 ASR sentence, spoken by Cary Grant alone
```
**輸出 Parent Summary**
```
[304s-318s, 14s] Cast: Cary Grant.
Total dialogue: 1 lines, 13 words.
```
**輸出 Child Summary**embedding target
```
[309s-317s] Cary Grant: "Sylvia I'm getting a divorce what from Charles he's the only husband I"
```
## 與 LLM Pipeline 的關係
```
Pipeline 1 (Story): template summary → DB + embedding
Pipeline 2 (LLM): LLM summary → DB + embedding (future)
chunk_type:
story_parent / story_child ← Pipeline 1
llm_parent / llm_child ← Pipeline 2 (future)
```
## 版本歷史
| 版本 | 日期 | 變更 |
|------|------|------|
| V1.0 | 2026-05-05 | 初始規則fully-contained + boundary overlap |
| V2.1 | 2026-05-05 | 移除 duration filterboundary overlap 對所有場景含空場景。100% ASR coverage。Speaker mapping 從 DB 動態讀取。 |
## Charade 1963 統計分析記錄
### 影片資料
| 指標 | 值 |
|------|-----|
| 片長 | 113 分鐘 |
| 總幀數 | 412,343 |
| FPS | 59.94 |
| 解析度 | 1920×1080 |
### 處理器產出
| Processor | 輸出行數 | 說明 |
|-----------|---------|------|
| CUT | 1,331 scenes | 平均 5.2s/scenemin 0.2smax 64.5s |
| ASR | 1,629 segments | Whisper small113 min total |
| ASRX | 10 speakers | SPEAKER_0/1 為主要角色 |
| Face | 4,008 frames, 6,182 faces | sample=60, Vision+CoreML ANE |
| Face Trace | 6,182 detections, 2,347 traces | IoU+embedding tracking |
| Identity | 677 traces → 7 identities | 99.4% coverage, MAR lip speaker binding |
| YOLO | 328,800 frames, 57 object classes | CoreML ANE |
### Matching 迭代記錄
#### Iteration 1: Fully-contained only, >= 1s scene filter
```
Rule: seg.start >= scene.start AND seg.end <= scene.end
Scene filter: duration >= 1s (131 scenes filtered out)
Result: 990/1629 (61%) matched
454 unmatched, 74 in filtered scenes
Only scenes with children got boundary overlaps
```
#### Iteration 2: Add boundary overlap for scenes with >= 3 children
```
Rule: For scenes with >= 3 children, add partial overlaps
Result: 1,210 children (+220 partial)
Still 454 unmatched (boundary overlap only for rich scenes)
```
#### Iteration 3: Remove duration filter
```
Rule: Remove >=1s scene filter
Result: 1,496 unique children (92% coverage)
133 unmatched
Root cause: boundary overlap still gated by "if children:"
```
#### Iteration 4: Boundary overlap for ALL scenes (regardless of children)
```
Rule: Move boundary overlap code outside "if children:" guard
All 1,331 scenes participate
Result: 1,629 unique children (100% coverage)
1,313 parents (all scenes)
2,927 total children (1,629 unique + 1,298 overlaps)
```
### 關鍵決策
| 決策 | 理由 | 影響 |
|------|------|------|
| 移除 duration filter | 131 scenes <1s 會漏掉句子 | +24 parents, +321 children |
| 移除 children guard | 空場景也要加 boundary children | +133 children (100%) |
| 用 overlap 而非 fully-contained | ASR/CUT 時間邊界不對齊 | 避免 565 sentences orphan |
| Partial overlaps 存兩次 | 邊界句可歸屬兩個 parent | 1,298 duplicates via ON CONFLICT |
| Speaker map 從 DB 讀 | 不再 hardcode 演員名 | 通用化任何影片 |
### 效能指標
| 指標 | 值 |
|------|-----|
| Story 生成時間 | < 1s (template, instant) |
| Embedding 時間 (Ollama) | ~2 min for 1,629 chunks |
| Qdrant sync 時間 | ~3 min for rule1, ~1 min for story |
| BM25 search 時間 | < 10ms per query |
### 教學要點
1. **時間邊界不對齊是常態**ASR語音邊界與 CUT視覺邊界用不同演算法永遠不會完美對齊。overlap matching 是必要設計。
2. **Boundary overlap 需對所有場景生效**:不能只限有 children 的場景,否則會產生 orphan sentences。
3. **ON CONFLICT merge**:同一 sentence 出現在兩個 parent 時DB 層面用最後一個 parent。如需多對多關係需 junction table。
4. **Hardcoded 到 Dynamic**speaker map 從 hardcode → DB-driven 是通用化的關鍵一步。

View File

@@ -0,0 +1,192 @@
---
document_type: "design"
service: "MOMENTRY_CORE"
title: "Class 分類系統設計 V1.0"
date: "2026-05-05"
version: "V1.0"
status: "design"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "class"
- "taxonomy"
- "design"
- "v1.0"
ai_query_hints:
- "Class 分層分類系統設計"
- "參照 IPC (國際專利分類) 及 HS (海關稅則)"
- "編碼格式: {section}-{NNNN}"
- "用於 identity 多層分類、快速定位"
related_documents:
- "../DATA_SCHEMA_FILE_IDENTITY_V1.0.0.md"
- "../UUID_ENCODING_RULES_V1.0.0.md"
---
# Class 分類系統設計 V1.0
> 狀態:設計階段,尚未實施
## 設計參考
IPC國際專利分類與 HS海關稅則
共通原則:**層級碼**、**數字越長越精細**、**全球通用**、**可無限擴展**。
## 設計目標
- IPC/HS 式的 hierarchical code → **快速定位**
- Tag 式的 multi-label 使用 → **靈活分類**
- 同一 entity 可擁有多條 class path
- 新增分類只需 INSERT無 migration
```
Cary Grant
→ P-0201 (演員/主角)
→ T-0102 (1960s)
→ S-0200 (場景/戶外 — 他在片中出現的場景)
Ferrari 250 GT
→ O-0101 (汽車)
→ B-0300 (汽車品牌/Ferrari)
→ T-0102 (1960s)
## 編碼格式
```
{section}-{NNNN}
│ └── 4 digits每 2 digits 一層
└───────── 1 char section prefix
```
| 層級 | 範例 | 意義 |
|------|------|------|
| `P-0000` | top section | 人物 |
| `P-0200` | subclass | 人物 → 演員 |
| `P-0201` | group | 人物 → 演員 → 主角 |
| `P-0202` | group | 人物 → 演員 → 配角 |
層級判斷:`code.length`。`P-` = section`P-02` = subclass`P-0201` = group。
### Section 定義
| Section | 名稱 | 範疇 | 預留 |
|---------|------|------|------|
| `P` | 人物 | 演員、導演、公眾人物、虛構角色、運動員... | 01-99 |
| `O` | 物件 | 交通工具、家具、武器、工具、電子產品... | 01-99 |
| `B` | 品牌/組織 | 時尚、科技、汽車品牌、政府機構、NGO... | 01-99 |
| `C` | 概念/抽象 | 情感、思想、事件、主題、風格... | 01-99 |
| `A` | 生物 | 動物、植物、真菌... | 01-99 |
| `S` | 場景/地點 | 室內、戶外、城市、自然地標、建築內部... | 01-99 |
| `E` | 環境/自然 | 天氣、地形、天象、自然災害... | 01-99 |
| `M` | 音樂/聲音 | 樂器、音樂類型、自然聲音、人工聲音... | 01-99 |
| `L` | 語言/文字 | 語言、方言、書寫系統、符號... | 01-99 |
| `T` | 時間/時期 | 年代、季節、節日、歷史時期... | 01-99 |
| `F` | 檔案類型 | 影片格式、文件類型、圖片格式... | 01-99 |
| `D` | 領域/學科 | 科學、藝術、體育、政治、經濟... | 01-99 |
12 個 Section各 99 subclass × 99 group = ~117K 分類槽位。可隨時新增 Section。
## 初始 Class Tree
```
P-0000 人物
├── P-0100 公眾人物
├── P-0200 演員
│ ├── P-0201 主角
│ └── P-0202 配角
├── P-0300 導演
├── P-0400 虛構角色
└── P-9900 其他人物
O-0000 物件
├── O-0100 交通工具
│ ├── O-0101 汽車
│ ├── O-0102 船
│ └── O-0103 飛機
├── O-0200 建築
├── O-0300 家具
└── O-9900 其他物件
B-0000 品牌
├── B-0100 時尚
├── B-0200 科技
└── B-9900 其他品牌
C-0000 概念
├── C-0100 情感
├── C-0200 思想
└── C-9900 其他概念
```
## Table
```sql
CREATE TABLE classes (
code VARCHAR(8) PRIMARY KEY, -- P-0201
name TEXT NOT NULL, -- 主角
description TEXT,
created_at TIMESTAMPTZ DEFAULT now()
);
-- 多對多:同一 identity 可有多個 class code如 tag 使用)
CREATE TABLE identity_classes (
identity_id INTEGER REFERENCES identities(id),
class_code VARCHAR(8) REFERENCES classes(code),
confidence REAL DEFAULT 1.0,
source VARCHAR(20), -- which agent classified
PRIMARY KEY (identity_id, class_code)
);
```
## Query 範例
```sql
-- 查某 identity 的所有 class
SELECT c.code, c.name
FROM identity_classes ic
JOIN classes c ON ic.class_code = c.code
WHERE ic.identity_id = 8;
-- 查所有屬於 "演員" (P-0200) 的 identity
SELECT i.name
FROM identity_classes ic
JOIN identities i ON ic.identity_id = i.id
WHERE ic.class_code LIKE 'P-02%';
-- 查某 section 下的所有 identity
SELECT DISTINCT i.name
FROM identity_classes ic
JOIN identities i ON ic.identity_id = i.id
WHERE ic.class_code LIKE 'P-%';
```
## 擴展方式
1. 新增 leaf class`INSERT INTO classes VALUES ('P-0203', '配音員')` — P-02 底下的新 group
2. 新增 subclass`INSERT INTO classes VALUES ('P-0500', '製作團隊')` — P 底下的新 subclass
3. 新增 section`INSERT INTO classes VALUES ('X-0000', '新分類')` — 全新 top-level
無需 migrationinsert 即可。
## 版本歷史
| 版本 | 日期 | 狀態 |
|------|------|------|
| V1.0 | 2026-05-05 | 設計階段 |
## Future: Class-Based Search
實施 class 系統後search API 可加入 class filter 提升命中率:
```
GET /api/v1/search?q=car&class=O-0101
→ 只搜被分類為「汽車」的內容,過濾 "care", "car accident", "car wash"
GET /api/v1/search/hybrid?q=divorce&class=P-0200
→ 只搜演員說出的 "divorce",排除旁白、字幕
GET /api/v1/search/universal?class=T-0102
→ 搜所有 1960s 相關內容
```

View File

@@ -0,0 +1,328 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Data Schema: File & Identity V1.0"
date: "2026-05-05"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "schema"
- "file"
- "identity"
- "v1.0"
ai_query_hints:
- "File & Identity DB schema"
- "face_detections.identity_id direct FK"
- "identity multi-modal: face + voice + TMDb + manual"
related_documents:
- "../DUAL_EMBEDDING_PIPELINE_V1.0.0.md"
- "../UUID_ENCODING_RULES_V1.0.0.md"
---
# Data Schema: File & Identity V1.0
## 1. File Schema
### videos / files
| Column | Type | 說明 |
|--------|------|------|
| `id` | SERIAL PK | |
| `file_uuid` | VARCHAR(32) | Birth UUID |
| `file_path` | VARCHAR(512) | 檔案完整路徑 |
| `file_name` | VARCHAR(256) | |
| `probe_json` | JSONB | ffprobe raw output |
| `status` | VARCHAR(20) | ready / processing / completed |
| `processing_status` | JSONB | per-processor progress |
| `total_frames` | INTEGER | |
| `fps` | DOUBLE | |
| `duration` | DOUBLE | 影片長度(秒) |
| `width` / `height` | INTEGER | 解析度 |
| `registration_time` | TIMESTAMP | 註冊時間 |
### face_detections (per-file face data)
| Column | Type | 說明 |
|--------|------|------|
| `id` | SERIAL PK | |
| `file_uuid` | VARCHAR(32) | → videos.file_uuid |
| `frame_number` | BIGINT | 幀號 |
| `face_id` | VARCHAR(64) | per-file face identifier |
| `trace_id` | INTEGER | 跨幀追蹤 ID |
| `x, y, width, height` | INTEGER | bbox |
| `confidence` | REAL | 偵測信度 |
| `embedding` | REAL[] | 512D CoreML FaceNet |
| `identity_id` | INTEGER | → identities.id (V4.0 direct FK) |
### chunks (per-file parent/child chunks)
| Column | Type | 說明 |
|--------|------|------|
| `id` | SERIAL PK | |
| `chunk_id` / `old_chunk_id` | VARCHAR | chunk identifier |
| `file_uuid` | VARCHAR(32) | → videos.file_uuid |
| `chunk_type` | VARCHAR(32) | story_parent / story_child / rule1_sentence |
| `chunk_index` | INTEGER | per-file ordering |
| `start_time` / `end_time` | DOUBLE | time range |
| `content` | JSONB | metadata |
| `text_content` | TEXT | summary text → embedding target |
| `embedding` | VECTOR | pgvector 768D |
| `search_vector` | TSVECTOR | BM25 full-text |
| `parent_chunk_id` | VARCHAR | → chunks.chunk_id |
## 2. Identity Schema
### 概念
Identity 是可命名的任何識別標的,不限於人。
| identity_type | 範例 | 識別模型 |
|--------------|------|---------|
| `people` | Cary Grant, Audrey Hepburn | face, voice, name |
| `animal` | 電影中的狗、馬 | face, body, sound |
| `object` | 特定道具、車輛 | yolo, image embedding |
| `plant` | 場景中的特定植物 | image embedding |
| `building` | 艾菲爾鐵塔、特定建築 | image embedding, OCR |
| `place` | Paris, 咖啡廳 | scene classification |
| `concept` | "離婚", "復仇" | text embedding |
| `brand` | Coca-Cola | OCR, logo detection |
每種 identity_type 可以使用不同的識別模型組合。
### 識別模型
| model | dimension | source | 適用 identity_type |
|-------|-----------|--------|-------------------|
| `face` | 512D | CoreML FaceNet | people, animal |
| `voice` | 192D | SpeechBrain ECAPA-TDNN | people |
| `text` | 768D | Ollama nomic-embed | concept, place |
| `image` | 768D | — (future) | object, building, plant |
| `yolo_class` | — | YOLO label | object |
### Table
```sql
CREATE TABLE identities (
id SERIAL PRIMARY KEY,
uuid UUID, -- 32-char UUIDv5 (source:external_id)
name TEXT NOT NULL UNIQUE,
identity_type VARCHAR(30) DEFAULT 'people', -- people/animal/object/building/place/concept
source VARCHAR(20) DEFAULT 'manual', -- tmdb/manual/face_cluster/yolo
status VARCHAR(20) DEFAULT 'pending',
-- Reference vectors per model (in JSONB for extensibility)
reference_vectors JSONB DEFAULT '{}',
-- {
-- "face": [{"vec":[...], "pose":"frontal", "source":"video_trace"}],
-- "voice": [{"vec":[...], "speaker_id":"SPEAKER_0"}],
-- "image": [{"vec":[...], "source":"manual"}]
-- }
-- Legacy columns (migrating to reference_vectors)
face_embedding VECTOR(512),
voice_embedding VECTOR(192),
identity_embedding VECTOR(768),
reference_data JSONB DEFAULT '{}',
metadata JSONB DEFAULT '{}',
tmdb_id INTEGER,
tmdb_profile TEXT,
created_at TIMESTAMP DEFAULT now()
);
```
### 彈性設計
現有 `face_embedding` / `voice_embedding` column 維持向下相容。
未來全部移入 `reference_vectors` JSONB支援任意 model × 多個 reference vectors
```json
{
"reference_vectors": {
"face": [
{"vec": [0.1, 0.2, ...], "pose": "frontal", "source": "video_trace_0", "confidence": 0.95},
{"vec": [0.3, 0.4, ...], "pose": "profile", "source": "video_trace_0", "confidence": 0.88}
],
"voice": [
{"vec": [0.5, 0.6, ...], "speaker_id": "SPEAKER_0", "source": "asrx"}
],
"image": []
}
}
```
### 識別 Agent 架構
每個識別模型由對應的 Agent 負責。Identity 本身只存 reference vectors不綁定特定 model。
```
┌─────────────────────────┐
│ identities │
│ name, type, source │
│ reference_vectors (JSONB)│
└──────────┬──────────────┘
┌────────────────────┼────────────────────┐
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│FaceAgent│ │VoiceAgent│ │ImageAgent│
│ │ │ │ │ (future) │
│ input: │ │ input: │ │ input: │
│ face_ │ │ asrx │ │ image │
│ detect │ │ segments│ │ features│
│ ions │ │ │ │ │
│ │ │ │ │ │
│ output: │ │ output: │ │ output: │
│ face → │ │ voice → │ │ img → │
│ identity│ │ identity│ │ identity│
└─────────┘ └─────────┘ └─────────┘
```
### Agent 定義
| Agent | 輸入 | 模型 | 輸出 | 狀態 |
|-------|------|------|------|------|
| **FaceAgent** | `face_detections` | CoreML FaceNet 512D | `identity_id` on face_detections | ✅ |
| **VoiceAgent** | ASRX segments | ECAPA-TDNN 192D + MAR lip | `metadata.speaker_id` | ✅ |
| **ImageAgent** | — | — | — | ⬜ future |
| **YoloAgent** | YOLO detections | — | object → identity | ⬜ future |
| **TextAgent** | chunk text | nomic-embed 768D | concept → identity | ⬜ future |
### Agent 運作模式
```
1. Agent 讀取 raw detectionsface / voice / yolo
2. 對比 identities.reference_vectors[model]
3. 相似度達標 → bind to existing identity
4. 不達標 → create new identity
5. 更新 identities.reference_vectorsenrich reference set
```
同一個 identity 可以被多個 Agent 同時更新。例如:
- FaceAgent 寫入 `reference_vectors.face`
- VoiceAgent 寫入 `reference_vectors.voice`
- 兩者指向同一個 identity (Cary Grant)
### Face → Identity 綁定V4.0
```
face_detections.identity_id ──── FK ────→ identities.id
```
Direct FK。不需要 intermediate table。操作 API
```
POST /api/v1/identities/bind
{ "file_uuid": "...", "face_id": "face_1", "identity_uuid": "..." }
→ UPDATE face_detections SET identity_id = X
POST /api/v1/identities/unbind
{ "file_uuid": "...", "face_id": "face_1" }
→ UPDATE face_detections SET identity_id = NULL
```
### Voice/Speaker → Identity 綁定
透過 `identities.metadata.speaker_id`
```
identities.metadata = {"speaker_id": "SPEAKER_0", "speaker_confidence": 0.85}
```
Voice embedding 直接寫入 `identities.voice_embedding`
## 3. File-Identity 關聯
```
file (1a04db97...) identity (Cary Grant)
│ │
├── face_detections │
│ ├── face_id="face_1" │
│ │ identity_id ──────────────────┤
│ ├── face_id="face_2" │
│ │ identity_id ──────────────────┤
│ └── face_id="face_3" │
│ identity_id = NULL │ ← unbounded
│ │
├── chunks │
│ ├── story_parent │
│ │ content.metadata.characters │
│ │ = ["Cary Grant", ...] │
│ └── story_child │
│ content.metadata.speaker │
│ = "Cary Grant" │
│ │
└── asrx.json │
└── segments[].speaker_id │
= "SPEAKER_0" ────────────────┘
file_identities (N:N junction, if needed)
file_uuid → identity_uuid
```
## 4. Class 分層分類(參照 IPC + HS
### 設計參考
IPC國際專利分類與 HS海關稅則的分層編碼體系。
| 標準 | 結構 |
|------|------|
| **IPC** | Section(A-H) → Class(2digits) → Subclass → Group/NNN |
| **HS** | Section → Chapter(2digits) → Heading(4digits) → Subheading(6digits) |
共通原則:**層級碼**、**數字越長越精細**、**全球通用**。
### 編碼格式
```
{SECTION}-{NNN}-{NNN}-{NNN}
│ │ │ └─ subgroup
│ │ └──────── main_group
│ └─────────────── subclass
└─────────────────────── section
```
| Section | 涵蓋 |
|---------|------|
| `P` | People |
| `O` | Object |
| `B` | Brand |
| `C` | Concept |
| `A` | Animal |
| `S` | Scene |
| `E` | Environment |
| `M` | Music/Sound |
### Table
```sql
CREATE TABLE classes (
code VARCHAR(20) PRIMARY KEY, -- P-001-010/010
name TEXT NOT NULL,
parent_code VARCHAR(20) REFERENCES classes(code),
section CHAR(1),
level INTEGER DEFAULT 0,
description TEXT,
created_at TIMESTAMPTZ DEFAULT now()
);
CREATE TABLE identity_classes (
identity_id INTEGER REFERENCES identities(id),
class_code VARCHAR(20) REFERENCES classes(code),
confidence REAL DEFAULT 1.0,
source VARCHAR(20),
PRIMARY KEY (identity_id, class_code)
);
```
## 版本歷史
| 版本 | 日期 | 變更 |
|------|------|------|
| V1.0 | 2026-05-05 | File & Identity schemaV4.0 direct FK binding |
| V1.1 | 2026-05-05 | Class 分層分類IPC/HSAgent 識別架構 |

View File

@@ -0,0 +1,210 @@
---
document_type: "reference_doc"
service: "MOMENTRY_CORE"
title: "Momentry Core Dev API 參考文件"
date: "2026-05-06"
version: "V1.1"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "api"
- "reference"
- "dev"
- "v1.1"
- "restful"
related_documents:
- "MOMENTRY_CORE_API_V1.0.0.md"
- "RELEASE/RELEASE_API_REFERENCE_v1.0.0.md"
---
# Momentry Core Dev API 參考文件
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-06 |
| 文件版本 | V1.1 |
| Base URL | `http://localhost:3003` |
| 認證方式 | Header `X-API-Key`(部分端點需要) |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 |
|------|------|------|--------|
| V1.1 | 2026-05-06 | 從程式碼實際路由重新產生 53 端點清單 | OpenCode |
| V1.0 | 2026-04-30 | 原始文件,含多個不存在之端點 | OpenCode |
---
## 認證
- **Header**: `X-API-Key: <your_api_key>`
- 目前 `/api/v1/auth/login` 回傳固定 demo Key: `muser_test_001`
- Protected routes 透過 `api_key_validation` middleware 驗證
- Public routes免 Key: `/health`, `/health/detailed`, `/api/v1/auth/login`
---
## 端點列表
總計 **53 個註冊路由**(另有 1 個定義但未掛載)。
### 1. 系統與認證System & Auth
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 1 | GET | `/health` | 基本健康檢查(回傳 status/version/uptime | ❌ |
| 2 | GET | `/health/detailed` | 詳細健康狀態(含 PG/Redis/Qdrant/MongoDB 各別延遲) | ❌ |
| 3 | POST | `/api/v1/auth/login` | 登入(固定 demo/demo回傳 API Key | ❌ |
| 4 | POST | `/api/v1/auth/logout` | 登出 | ✅ |
### 2. 檔案管理File Management
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 5 | GET | `/api/v1/files` | 檔案列表支援分頁、status、q、uuid 過濾) | ✅ |
| 6 | GET | `/api/v1/file/:file_uuid` | 檔案詳細資訊(含 probe_json、metadata | ✅ |
| 7 | POST | `/api/v1/files/register` | 從磁碟註冊新檔案(支援 pattern 批次註冊) | ✅ |
| 8 | POST | `/api/v1/unregister` | 取消註冊檔案 | ✅ |
| 9 | GET | `/api/v1/files/scan` | 掃描 SFTPGo demo 目錄中的新檔案 | ✅ |
| 10 | GET | `/api/v1/file/:file_uuid/probe` | 取得/快取 ffprobe 資訊 | ✅ |
| 11 | POST | `/api/v1/file/:file_uuid/process` | 啟動處理 pipeline建立 monitor job | ✅ |
| 12 | GET | `/api/v1/file/:file_uuid/chunks` | 列出 pre_chunks | ✅ |
| 13 | GET | `/api/v1/progress/:uuid` | 即時處理進度(來自 Redis PubSub | ✅ |
| 14 | GET | `/api/v1/jobs` | 任務列表支援分頁、status 過濾) | ✅ |
### 3. 搜尋Search
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 15 | POST | `/api/v1/search/visual` | 視覺搜尋 | ✅ |
| 16 | POST | `/api/v1/search/visual/class` | 依物件類別過濾搜尋 | ✅ |
| 17 | POST | `/api/v1/search/visual/density` | 依視覺密度搜尋 | ✅ |
| 18 | POST | `/api/v1/search/visual/stats` | 視覺統計資料 | ✅ |
| 19 | POST | `/api/v1/search/visual/combination` | 視覺組合搜尋(多條件) | ✅ |
| 20 | POST | `/api/v1/search/smart` | 智慧搜尋(語意向量) | ✅ |
| 21 | POST | `/api/v1/search/universal` | 通用搜尋 | ✅ |
| 22 | POST | `/api/v1/search/frames` | 影格搜尋 | ✅ |
### 4. 身份管理Identity
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 23 | GET | `/api/v1/identities` | 身份列表 | ✅ |
| 24 | POST | `/api/v1/identity` | 建立身份(從 face.json 建立參考向量) | ✅ |
| 25 | GET | `/api/v1/identity/:identity_uuid` | 身份詳細資訊 | ✅ |
| 26 | DELETE | `/api/v1/identity/:identity_uuid` | 刪除身份 | ✅ |
| 27 | GET | `/api/v1/identity/:identity_uuid/files` | 該身份出現的所有檔案 | ✅ |
| 28 | GET | `/api/v1/identity/:identity_uuid/chunks` | 該身份的時間軸片段 | ✅ |
| 29 | POST | `/api/v1/identity/:identity_uuid/bind` | 綁定信號至身份 | ✅ |
| 30 | POST | `/api/v1/identity/:identity_uuid/unbind` | 解除綁定 | ✅ |
| 31 | POST | `/api/v1/identity/:from_uuid/mergeinto` | 合併身份(將 from 合併至目標) | ✅ |
### 5. 臉部Face
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 32 | GET | `/api/v1/faces/candidates` | 臉部候選列表(未綁定者) | ✅ |
### 6. 媒體串流Media
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 33 | GET | `/api/v1/file/:file_uuid/video` | 影片串流 | ✅ |
| 34 | GET | `/api/v1/file/:file_uuid/video/bbox` | 含 Bounding Box 的影片串流 | ✅ |
| 35 | GET | `/api/v1/file/:file_uuid/trace/:trace_id/video` | 特定 trace 的影片片段 | ✅ |
| 36 | GET | `/api/v1/file/:file_uuid/thumbnail` | 影片縮圖 | ✅ |
### 7. 檔案身份關聯File-Identity
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 37 | GET | `/api/v1/file/:file_uuid/identities` | 該檔案的所有關聯身份 | ✅ |
### 8. Agent
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 38 | POST | `/api/v1/agents/translate` | 翻譯 Agent | ✅ |
| 39 | POST | `/api/v1/agents/identity/analyze` | 身份分析 Agent | ✅ |
| 40 | POST | `/api/v1/agents/identity/suggest` | 身份合併建議 | ✅ |
| 41 | GET | `/api/v1/agents/identity/status` | 身份 Agent 狀態 | ✅ |
| 42 | POST | `/api/v1/agents/suggest/clustering` | 聚類建議 | ✅ |
| 43 | POST | `/api/v1/agents/suggest/merge` | 合併建議 | ✅ |
| 44 | POST | `/api/v1/agents/5w1h/analyze` | 5W1H 分析 | ✅ |
| 45 | POST | `/api/v1/agents/5w1h/batch` | 5W1H 批量分析 | ✅ |
| 46 | GET | `/api/v1/agents/5w1h/status` | 5W1H 狀態 | ✅ |
### 9. 資源管理Resource
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 47 | POST | `/api/v1/resource/register` | 註冊運算資源 | ✅ |
| 48 | POST | `/api/v1/resource/heartbeat` | 資源心跳回報 | ✅ |
| 49 | GET | `/api/v1/resources` | 資源列表 | ✅ |
### 10. 統計與設定Stats & Config
| # | Method | Path | 說明 | 需 Key |
|---|--------|------|------|--------|
| 50 | GET | `/api/v1/stats/ingest` | 攝取統計video/chunk 計數) | ✅ |
| 51 | GET | `/api/v1/stats/sftpgo` | SFTPGo 使用者狀態 | ✅ |
| 52 | GET | `/api/v1/stats/inference` | 推理叢集健康狀態 | ✅ |
| 53 | POST | `/api/v1/config/cache` | 切換快取開關 | ✅ |
---
## 未掛載的端點(定義了 handler 但未註冊路由)
| Handler | 位置 | 說明 |
|---------|------|------|
| `POST /api/v1/file/:file_uuid/face_trace/sortby` | `trace_agent_api.rs` | 定義了 `trace_agent_routes()` 但從未被 `server.rs` merge |
---
## 程式碼中存在 handler 但未註冊路由的端點
下列 handler 有實作但**沒有對應的 `.route()` 呼叫**,無法透過 HTTP 存取:
- `GET /api/v1/assets/:uuid/status``get_asset_status`
- `GET /api/v1/jobs/:job_id``get_job`
- `GET /api/v1/rules/:rule/status``get_rule_status`
- `GET /api/v1/videos/:uuid/details``video_details`
- `DELETE /api/v1/videos/:uuid``delete_video`
- `POST /api/v1/search``search`(語意搜尋)
- `POST /api/v1/search/hybrid``hybrid_search`
- `POST /api/v1/search/bm25``search_bm25`
- `GET /api/v1/lookup``lookup`
- `POST /api/v1/search/smart``search_smart`server.rs 版,實際註冊的是 search.rs 版)
---
## 與 V1.0 文件的差異
V1.0 文件(`MOMENTRY_CORE_API_V1.0.0.md`)宣稱的端點中有以下**不存在於實際程式碼**
| 文件宣稱 | 實際狀況 |
|----------|---------|
| `DELETE /api/v1/videos/:uuid` | handler 存在但未註冊路由 |
| `POST /api/v1/search` | handler 存在但未註冊路由 |
| `POST /api/v1/search/hybrid` | handler 存在但未註冊路由 |
| `POST /api/v1/assets/:uuid/process` | 實際是 `POST /api/v1/file/:file_uuid/process` |
| `GET /api/v1/files/:uuid/snapshots` | 不存在 |
| `POST /api/v1/files/:uuid/snapshots/migrate` | 不存在 |
| `GET /api/v1/face/list` | 不存在 |
| `POST /api/v1/face/recognize` | 不存在 |
---
## 路徑命名慣例
| 資源 | 路由格式 | 參數 |
|------|---------|------|
| 檔案 | `/api/v1/file/:file_uuid` | 32 碼 hex string |
| 身份 | `/api/v1/identity/:identity_uuid` | UUID v4 |
| 資源 | `/api/v1/resource/...` | - |
注意路徑使用**單數**`file`, `identity`),與 RELEASE 文件的 `files`, `identities` 不同。

File diff suppressed because it is too large Load Diff

View File

@@ -0,0 +1,241 @@
---
document_type: "reference_doc"
service: "MOMENTRY_CORE"
title: "Momentry Core V1.0.0 API 參考文件"
date: "2026-04-30"
version: "V1.0"
status: "superseded"
owner: "Warren"
created_by: "OpenCode"
tags:
- "api"
- "reference"
- "v1.0.0"
- "marcom"
- "restful"
- "endpoint"
- "file-centric"
ai_query_hints:
- "Momentry Core V1.0.0 API 參考文件的主要內容是什麼?"
- "查詢 V1.0.0 API 列表包含哪些端點?"
- "Marcom 團隊如何使用 API Reference"
- "API 的 Progressive Workflow 範例"
- "Momentry API 的檔案管理與搜尋功能"
- "API 的 Progressive Workflow 操作步驟"
- "API 的檔案管理與搜尋功能"
related_documents:
- "STANDARDS/DOCS_STANDARD.md"
- "DEV_API_V1.0/API_REFERENCE_v1.0.0.md"
- "API_DICTIONARY_V1.0.0.md"
- "API_USAGE_DEMO_V1.0.0.md"
- "PRODUCTION_VERIFICATION_V1.0.0.md"
---
# Momentry Core V1.0.0 API 參考文件
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-04-30 |
| 文件版本 | V1.0 |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-04-30 | 創建 V1.0.0 API 列表,移除過時端點 | OpenCode | OpenCode |
| V1.1 | 2026-05-06 | 被 DEV_API_REFERENCE_v1.0.0.md 取代(實際路由與此文件有大量差異) | OpenCode | OpenCode |
---
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| file_uuid | 媒體檔案(影片/圖片/音訊)的唯一 32 碼 SHA256 識別碼 |
| identity_uuid | 全域人物身份識別碼,跨檔案關聯同一人物 |
| Chunk | 可搜尋單位,由 Rule 組合 pre_chunks 產出 |
| Snapshot | 臉部或場景的快取快照,需 migrate 後供 UI 使用 |
| API Key | 認證方式,透過 Header `X-API-Key` 傳遞 |
## 概述
本文檔定義 Momentry Core **V1.0.0** 版本供 **Marcom 團隊** 使用的 API 列表與開發範例。此列表已移除舊版、冗餘及內部使用的端點,確保前端開發使用的是標準且穩定的介面。
---
## 🚀 設計原則 (Design Principles)
### 1. Clear API (介面清晰化)
* **去蕪存菁**: 嚴格區分 **Public** (公開) 與 **Internal** (內部) 端點。舊版冗餘路徑(如 `/api/v1/videos`, `/api/v1/probe`)已全面移除或合併。
* **標準化回應**: 所有列表型 API 均回傳統一結構 `{ "success": true, "data": [...], "total": N }`
* **命名規範**: 採用 RESTful 風格,資源以複數名詞或明確動作命名(如 `files`, `identities`)。
### 2. File-Centric (以檔案為核心)
* **唯一識別**: 每個媒體檔案(影片/圖片/音訊)均由 **32 碼 UUID** (`file_uuid`) 唯一標識。
* **生命週期**: `File` 是所有資料的根節點。所有的 `Chunk` (片段), `Snapshot` (快照), `Jobs` (任務) 皆隸屬於特定的 `File`
* **操作模式**: 前端應優先呼叫 `GET /api/v1/files` 取得清單,再透過 `POST /api/v1/files/:uuid/snapshots/migrate` 載入詳細資源。
### 3. Global Identity (全域身份識別)
* **跨檔案關聯**: `Identity` 代表一個獨立的人物或角色,不受單一檔案限制。
* **綁定機制 (Binding)**: 透過 `POST /api/v1/identities/bind`,我們可以將多個檔案中偵測到的臉部 (`face`) 或聲音 (`speaker`) 聚合到同一個 `Identity` 下。
* **資料聚合**: 查詢某個 `Identity` 即可看到該人物在所有歷史檔案中的軌跡 (`/api/v1/identities/:uuid/files`)。
---
## 當前狀態
| 項目 | 狀態 |
|------|------|
| API 版本 | V1.0.0 |
| 開發環境 Port | 3003 |
| 正式環境 Port | 3002 |
| 認證方式 | Header `X-API-Key` |
---
## 1. API Dictionary (端點清單)
### 1.1 系統與認證 (System & Auth)
| Method | Endpoint | 說明 |
| :--- | :--- | :--- |
| `GET` | `/health` | 基本健康檢查 |
| `POST` | `/api/v1/auth/login` | 登入以取得 API Key |
### 1.2 檔案管理 (File Management)
*主要入口:瀏覽與管理資產*
| Method | Endpoint | 說明 |
| :--- | :--- | :--- |
| `GET` | `/api/v1/files` | **列出所有檔案** (支援分頁) |
| `GET` | `/api/v1/files/:uuid` | 取得檔案詳情 (包含 probe_json, metadata) |
| `POST` | `/api/v1/files/register` | 從磁碟註冊新檔案 |
| `DELETE`| `/api/v1/videos/:uuid` | **刪除影片** 及其關聯資料 |
### 1.3 搜尋與檢索 (Search & Retrieval)
| Method | Endpoint | 說明 |
| :--- | :--- | :--- |
| `POST` | `/api/v1/search` | **語意搜尋** (Text-based, 使用 Embedding) |
| `POST` | `/api/v1/search/hybrid` | 混合搜尋 (Vector + BM25 關鍵字) |
| `POST` | `/api/v1/search/visual` | 視覺搜尋 (尋找物件/形狀) |
| `POST` | `/api/v1/search/visual/class`| 依物件類別過濾 (如 "person", "car") |
### 1.4 身份與人物管理 (Identity Management)
*跨影片的人物/角色關聯*
| Method | Endpoint | 說明 |
| :--- | :--- | :--- |
| `GET` | `/api/v1/identities` | **列出所有身份** (人物/角色) |
| `GET` | `/api/v1/identities/:uuid` | 取得身份詳情 (名稱, 品質, 來源) |
| `GET` | `/api/v1/identities/:uuid/files`| 列出該身份出現的所有檔案 |
| `GET` | `/api/v1/identities/:uuid/chunks`| 列出特定的時間軸片段 (Chunks) |
| `POST` | `/api/v1/identities/bind` | 將臉部/聲音訊號綁定至身份 |
### 1.5 臉部與快照 (Face & Snapshots)
| Method | Endpoint | 說明 |
| :--- | :--- | :--- |
| `GET` | `/api/v1/face/list` | 列出特定影片中偵測到的所有臉部 |
| `POST` | `/api/v1/face/recognize` | 對指定影片觸發臉部辨識流程 |
| `GET` | `/api/v1/files/:uuid/snapshots` | 檢查快照快取狀態 (Hot/Cold) |
| `POST` | `/api/v1/files/:uuid/snapshots/migrate`| **載入快照至記憶體** (UI 顯示快圖前需呼叫) |
### 1.6 任務與代理人 (Jobs & Agents)
| Method | Endpoint | 說明 |
| :--- | :--- | :--- |
| `GET` | `/api/v1/progress/:uuid` | 檢查即時處理進度 |
| `POST` | `/api/v1/assets/:uuid/process` | 觸發處理流程 (ASR, YOLO, 等) |
| `POST` | `/api/v1/agents/identity/analyze` | AI Agent: 分析身份重複情況 |
---
## 2. Progressive Workflow Examples (操作範例)
此章節展示典型的使用者操作情境:**尋找影片 → 處理 → 搜尋 → 人物綁定**。
### Phase 1: 瀏覽與檢視
*使用者瀏覽檔案庫以尋找目標影片。*
**Step 1: 登入**
```bash
curl -s -X POST http://localhost:3003/api/v1/auth/login \
-H "Content-Type: application/json" \
-d '{"username": "demo", "password": "demo"}'
# 回應範例: { "api_key": "muser_test_001..." }
```
**Step 2: 列出檔案**
```bash
curl -s "http://localhost:3003/api/v1/files?page=1&page_size=5" \
-H "X-API-Key: muser_test_001"
# 回應範例: { "success": true, "data": [ { "file_uuid": "...", "file_name": "Demo.mp4" ... } ] }
```
### Phase 2: 處理與監控
*使用者決定分析該影片的臉部與語音內容。*
**Step 3: 觸發處理**
```bash
curl -s -X POST "http://localhost:3003/api/v1/assets/{file_uuid}/process" \
-H "X-API-Key: muser_test_001" \
-H "Content-Type: application/json" \
-d '{}'
# 啟動 ASR, 臉部偵測等處理器
```
**Step 4: 檢查進度**
```bash
curl -s "http://localhost:3003/api/v1/progress/{file_uuid}" \
-H "X-API-Key: muser_test_001"
# 回應範例: { "overall_progress": 50, "processors": [...] }
```
### Phase 3: 搜尋內容
*使用者搜尋影片中的特定內容。*
**Step 5: 語意搜尋 (文字描述)**
```bash
curl -s -X POST "http://localhost:3003/api/v1/search" \
-H "X-API-Key: muser_test_001" \
-H "Content-Type: application/json" \
-d '{"query": "一個人拿著紅色的信封", "uuid": "{file_uuid}"}'
# 回應範例: 符合文字描述的片段列表
```
### Phase 4: 身份管理 (GUI 開發重點)
*使用者發現了一張臉,確認該人物,並將其綁定到已知身份。*
**Step 6: 載入快照 (Migrate Snapshots)**
*在 GUI 渲染大量臉部縮圖前,必須先將快取載入記憶體以加速讀取。*
```bash
curl -s -X POST "http://localhost:3003/api/v1/files/{file_uuid}/snapshots/migrate" \
-H "X-API-Key: muser_test_001" \
-H "Content-Type: application/json" \
-d '{"parent_uuid": "{file_uuid}"}'
# 回應範例: { "success": true, "migrated_types": ["faces", ...] }
```
**Step 7: 綁定臉部到身份 (Bind Face)**
*假設偵測到臉部 `face_123`,欲綁定至身份 `uuid_identity`。*
```bash
curl -s -X POST "http://localhost:3003/api/v1/identities/bind" \
-H "X-API-Key: muser_test_001" \
-H "Content-Type: application/json" \
-d '{
"identity_id": null,
"name": "Cary Grant",
"binding_type": "face",
"binding_value": "face_123"
}'
```
---
## 3. 棄用聲明 (Deprecation Notices)
以下端點已在 V1.0.0 移除或棄用,**請勿**在新的開發中使用。
* `GET /api/v1/videos` (列表) → 已取代為 `GET /api/v1/files`
* `POST /api/v1/register` → 已取代為 `POST /api/v1/files/register`
* `POST /api/v1/probe` → 已取代為 `GET /api/v1/files/:uuid`
* `GET /api/v1/people/...` → 已合併為 `GET /api/v1/identities/...`
* `/api/v1/n8n/search/...` → 僅供內部 n8n 工作流使用 (請使用標準 `/api/v1/search`)

View File

@@ -0,0 +1,102 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "ASRX Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "asrx"
- "speaker-diarization"
- "speechbrain"
- "v1.0.0"
ai_query_hints:
- "ASRX 使用 SpeechBrain ECAPA-TDNN 進行說話者日誌化"
- "ASRX 從 Pyannote 遷移至自定義 SpeechBrain快 6 倍"
- "ASRX 不需要 HuggingFace token相較 Pyannote"
- "ASRX Charade 6879s 長片輸出 1118 segments, 8 說話人"
- "ASRX 依賴 ASR processor 的轉錄結果"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../ASR_V1.0.0.md"
- "../CUT_V1.0.0.md"
- "../VOICE_EMBEDDING_FLOW_V1.0.0.md"
- "../VECTOR_SPEC_V1.0.0.md"
---
# ASRX Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ⚠️ 80% | **模型**: SpeechBrain ECAPA-TDNN | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| ASRX | 進階語音處理包含說話者日誌化Speaker Diarization |
| Speaker Diarization | 說話者日誌化,區分「誰在什麼時候說話」 |
| ECAPA-TDNN | SpeechBrain 提供的說話人辨識模型,產出 192-D embedding |
| VAD | Voice Activity Detection語音活動檢測使用 Silero |
| Spectral Clustering | 頻譜聚類,將 embedding 分群以區分不同說話人 |
---
## 選型過程
| 指標 | Pyannote-based原始 | Custom SpeechBrain |
|------|----------------------|------------------------|
| Pipeline | VAD → Whisper → Align → Diarize | VAD (Silero) → ECAPA-TDNN → Spectral Clustering |
| 處理時間 | 4.79s(輸出為空) | **1.66s** (96.25x) |
| 比 Pyannote 快 | 基準 | **6x 更快** |
| HuggingFace token | ✅ **需要** | ❌ **不需要** |
| 重疊語音 | ✅ 支援 | ❌ 不支援 |
**決策**: 因 pyannote.audio 需要 HuggingFace token、import 錯誤頻繁、輸出為空,已改為自定義 SpeechBrain 實作。
---
## 處理時間分解Custom SpeechBrain
| 步驟 | 時間 | 佔比 |
|------|------|------|
| VAD (Silero) | 0.41s | 24.7% |
| Speaker embedding (ECAPA-TDNN) | 1.15s | 69.3% |
| Spectral clustering | 0.10s | 6.0% |
---
## Charade 長片6879s
| 指標 | 值 |
|------|-----|
| Segments | 1118 |
| 說話人數 | 8 |
| 匹配率 | 99.82% |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.8 |
| 記憶體 | 2048 MB |
| GPU | 不使用 |
| 依賴 | ASR |

View File

@@ -0,0 +1,243 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "ASR Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "asr"
- "whisper"
- "speech-recognition"
- "v1.0.0"
ai_query_hints:
- "ASR 使用 faster-whisper/small 模型及 INT8 CPU 量化"
- "ASR 以 CUT 場景邊界為基礎分段處理長片"
- "ASR 每個 segment 記錄 scene_number 對應 CUT 場景序號"
- "ASR 處理 159.6s 影片約 12.68s,即時倍率 12.6x"
- "ASR 依賴 CUT processor 的場景邊界輸出"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../CUT_V1.0.0.md"
- "../ASRX_V1.0.0.md"
- "../STORY_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# ASR Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: faster-whisper/small | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| ASR | Automatic Speech Recognition自動語音辨識 |
| faster-whisper | 基於 OpenAI Whisper 的優化版本,支援 INT8 CPU 量化 |
| segment | Whisper 輸出的語音片段,包含 start/end/time/text |
| scene_number | CUT 場景序號1-based標示 segment 所屬場景 |
| real-time factor | 即時倍率,處理時間與影片時長的比值 |
---
## 選型過程
| 模型 | 參數 | 大小 | English WER | Chinese CER | 速度 |
|------|------|------|-------------|-------------|------|
| tiny | 39M | ~40MB | 9.5% | 15.0% | ~1x RT |
| base | 74M | ~75MB | 7.3% | 11.2% | ~1.5x RT |
| **small** | **244M** | **~250MB** | **5.5%** | **8.4%** | **~2x RT** |
| medium | 769M | ~800MB | 4.3% | 6.4% | ~3x RT |
| large-v3 | 1.5B | ~1.5GB | 3.5% | 4.9% | ~5x RT |
**決策**: small 在準確率與速度間取得最佳平衡,經實驗驗證最少要使用 small 才能較好處理多語種及台灣腔國語。
---
## 效能實測ExaSAN 159.6s 影片)
| 指標 | 值 |
|------|-----|
| 處理時間 | 12.68s |
| 即時倍率 | 12.6x |
| 輸出 | 78~79 segments, ~15KB |
---
## 長片分段處理
對於長片(如 Charade 6879sASR 以 CUT processor 產出的場景邊界為基礎分段處理:
1. CUT 先產出 `{file_uuid}.cut.json`(含 `scenes[]`,每個有 `start_time`/`end_time`
2. ASR 讀取 CUT JSON`scene_number` 順序對每個場景萃取音訊
3. 每個場景分別用 Whisper 轉錄
4. 合併結果,每個 segment 記錄所屬的 `scene_number`
每個 segment 的 JSON 格式:
```json
{
"start": 12.5,
"end": 15.3,
"text": "Hello world",
"scene_number": 42
}
```
`scene_number` 是在該 `file_uuid` 下的 CUT 場景序號1-based
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
---
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 1.0(一個完整核心) |
| 記憶體 | 2048 MB長片因分段處理實際低於此值 |
| GPU | 不使用INT8 CPU 量化) |
| 依賴 | 無 |
---
## Swift ASR (Apple Speech Framework) 實驗記錄
### 選型結論
使用現有做法faster-whisper smallSwift ASR 不取代 Whisper。
> **注意**Apple Speech Framework 會隨著 macOS / Siri 版本更新而改善。每次主要 macOS 版本更新時(如 macOS 15→16應重新執行 `scripts/compare_segmentation.py` 對比 Swift vs Whisper 的品質差異,以評估是否可切換。
### POC 狀態
Swift processor 位於 `scripts/swift_processors/`已編譯。Apple Speech Framework 在記憶體11MB vs 1.1GB和速度4.19s vs 17.46s)有優勢,但準確度不足。
### 效能對比Charade 60s 片段)
| 指標 | Swift (Speech Framework) | Python (faster-whisper small) |
|------|------------------------|-------------------------------|
| **RTF** | 0.07 (14x) | 0.29 (3.4x) |
| **記憶體** | 11MB | 1.1GB |
| **Segments** | 18句子級 | 23句子級 |
| **品質** | 漏字较多("Let's see"→"And see" | 準確 |
| **語音分離改善** | Demucs +35s僅小幅改善 | 不需要 |
### 已知問題
1. 語言自動偵測順序錯誤(先試 zh-TW需指定 `--language en-US`
2. RunLoop timeout 已修復(改為 semaphore 等待 callback
3. 逐字輸出已合併94 → 18 segments
### 相關檔案
```
scripts/swift_processors/
├── Package.swift
├── asr_swift.swift
├── asrx_swift.swift
├── entitlements.plist
└── .build/debug/asr_swift
```
---
## Speaker Diarization (ASRX) 選型記錄
### 現有方案Python ASRX (ECAPA-TDNN + Spectral Clustering)
使用 SpeechBrain ECAPA-TDNN 提取 192-D speaker embedding搭配 spectral clustering 進行語者分離。
| 指標 | 值 |
|------|-----|
| Embedding 維度 | 192-D |
| Charade 偵測 speaker 數 | 10正確區分 narrator、主角、配角 |
| 總 ASRX pre_chunks | 5,848 |
| Qdrant collection | `{prefix}_voice` |
| 依賴 | 需 ASR 完成後執行(時間對齊) |
| 輸出 | segments 含 `speaker_id`, `start_time`, `end_time` |
### Swift SFSpeechAnalyzer 評估
**目標**:使用 Apple 內建 Speech FrameworkANE 加速)取代 Python ASRX。
| API | macOS 14 可用性 | 說明 |
|-----|----------------|------|
| `SFSpeechRecognizer` | ✅ | 語音辨識 |
| `SFSpeechAnalyzer` | ✅ 存在 | 語音分析,但無暴露 speaker embedding |
| `SFSpeechRecognitionMetadata` | ✅ 存在 | 辨識中繼資料,但 speaker 資訊為空 |
| `SFSpeakerEmbedding` | ❌ | Speaker embedding API 不存在 |
| `SFSpeakerIdentification` | ❌ | Speaker 識別 API 不存在 |
| KVC 取 speaker metadata | ❌ | 透過 KVC 也無法取得 speaker 資訊 |
**結論:目前不可行。** Apple 尚未在 macOS 14 上開放 Speaker Recognition API 給開發者使用。
### 選型結論
維持 Python ASRX (ECAPA-TDNN) 方案。待未來 macOS 版本開放 Speaker Recognition API 後重新評估。
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 新增 Swift ASR 實驗記錄與 Speaker Diarization 選型記錄 | OpenCode | deepseek-chat |
| V1.2 | 2026-05-04 | 新增 Text Embedding ANE 加速可行性研究 | OpenCode | deepseek-chat |
---
## Text Embedding ANE 加速研究
### 背景
ASR 產出的 sentence chunk 需要 embedding用於 semantic search / RAG
目前使用 Ollama `nomic-embed-text-v2-moe`768-D, 多語言MIT licenseCPU/GPU
### 研究目標
評估是否可用 Apple ANE 方案取代 Ollama embedding降低 CPU 負載。
### 選項評估
| 方案 | 模型 | Dimension | 多語言 | ANE | 狀態 |
|------|------|-----------|--------|-----|------|
| **Apple NLEmbedding (sentence)** | 系統內建 | 未知 | ✅ 宣稱支援 | ✅ 原生 ANE | ❌ macOS 26.4.1 無模型檔 |
| **Apple NLEmbedding (word)** | GloVe | 300D | ❌ 僅英文 | ✅ | ❌ dim 不足,無多語言 |
| **Apple NLContextualEmbedding** | Transformer | 未知 | 未知 | ✅ | ❌ API 不可用 |
| **CoreML custom (MiniLM)** | BERT-based | 384D | ✅ 50+ languages | ✅ | ❌ torch.jit.trace 失敗 |
| **Ollama nomic-embed-text** | nomic-ai | 768D | ✅ 多語言 | ❌ | ✅ 現行方案 |
### 測試結論 (2026-05-04)
1. **NLEmbedding default**: dim=0, 所有 vector 回傳 nil。macOS 26.4.1 未預裝 sentence embedding 模型。
2. **NLEmbedding word (GloVe)**: dim=300, 僅英文。法文/中文 dim=0不支援
3. **NLContextualEmbedding**: API compile error方法不存在於公開 header。
4. **CoreML 自轉 MiniLM**: `torch.jit.trace` 對 BERT 架構拋出 `Placeholder storage not allocated on MPS``dictconstruct` op 未支援。
5. **Ollama nomic-embed**: 效能 ~6M embeddings/sec768D 多語言,已整合穩定。
### 建議
維持 Ollama `nomic-embed-text-v2-moe`
ANE text embedding 待以下條件成熟後重新評估:
- Apple 開放 NLEmbedding 多語言 sentence 模型下載
- 或 coremltools 支援 BERT `dictconstruct` op
- 或 Apple 發布預訓練 CoreML 多語言 embedding 模型

View File

@@ -0,0 +1,80 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Caption Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "caption"
- "moondream2"
- "image-captioning"
- "v1.0.0"
ai_query_hints:
- "Caption 使用 Moondream2 進行本地圖像描述生成"
- "Caption 已從 GPT-4o 雲端 API 本地化為 Moondream2"
- "Caption Moondream2 模型約 1.8GB,完全本地執行"
- "Caption 處理速度約 5s/frame"
- "Caption 備援方案為 YOLO + OCR + Scene 串接"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../SCENE_V1.0.0.md"
- "../STORY_V1.0.0.md"
- "../YOLO_V1.0.0.md"
- "../OCR_V1.0.0.md"
---
# Caption Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: Moondream2 | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Caption | 圖像描述生成,為每個場景產出文字敘述 |
| Moondream2 | HuggingFace transformers 提供的本地圖像描述模型 |
| GPT-4o | (已移除)先前使用的雲端 API 方案 |
| local deployment | 完全本地執行,不依賴任何雲端 API |
| fallback | 備援方案YOLO + OCR + Scene 結果串接 |
---
## 選型過程
| 指標 | GPT-4o已移除 | Moondream2 |
|------|-----------------|-----------------|
| 速度 | 2s/frame | 5s/frame |
| 品質 | 高 | 良好 |
| 依賴 | ✅ 雲端 API Key | ❌ 完全本地 |
**決策**: 已從 GPT-4o 雲端 API 本地化為 Moondream2HuggingFace transformers, ~1.8GB)。備援方案為 YOLO + OCR + Scene 結果串接。
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | - |
| 記憶體 | ~1.8 GB模型載入後 |
| GPU | 不使用 |
| 依賴 | Scene |

View File

@@ -0,0 +1,179 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "CUT Processor (Scene Cut Detection) V1.0.0"
date: "2026-05-03"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "cut"
- "scene-detection"
- "pyscenedetect"
- "v1.0.0"
ai_query_hints:
- "CUT 場景檢測的輸出結構與檔案後綴規則"
- "CUT 的 cut_count 與 cut_max_duration 用途"
- "長影片動態調度如何將 Face 移到 ASR 前"
- "CUT 與 Scene 的執行階段register 同步)"
- "CUT 輸出 JSON 結構start_time/end_time"
related_documents:
- "PROCESSORS/SCENE_V1.0.0.md"
- "PROCESSOR_SELECTION_V1.0.0.md"
- "PROCESSORS/ASR_V1.0.0.md"
- "PROCESSORS/FACE_V1.0.0.md"
- "CHUNK_DEFINITION_V1.0.0.md"
---
# CUT Processor (Scene Cut Detection) V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-03 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: PySceneDetect (ContentDetector) | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| CUT | 場景切換檢測,使用 PySceneDetect ContentDetector |
| scene boundary | 場景邊界,以 start_time/end_time 定義 |
| cut_count | 場景數量register 階段寫入 DB |
| cut_max_duration | 最長場景秒數,用於長影片動態調度 |
| ContentDetector | 基於幀差異的場景切換檢測演算法 |
---
## 選型過程
無 ML 模型,基於幀差異的場景切換檢測。門檻值 threshold=27 為實驗最佳值。
---
## 輸出結構
CUT 產出 `{file_uuid}.cut.json`,結構如下:
```json
{
"scenes": [
{ "start_time": 0.0, "end_time": 120.5 },
{ "start_time": 120.5, "end_time": 245.0 }
]
}
```
---
## 執行階段
CUT 在 **register 階段同步執行**`register_single_file`),不做 worker pipeline 排程。完成後寫入 DB 欄位:
- `cut_done: bool` — 是否完成
- `cut_count: i32` — 場景數量
- `cut_max_duration: f64` — 最長場景秒數
---
## 狀態後綴
| 後綴 | 意義 | 行為 |
|------|------|------|
| `.cut.json` | 完成 | 直接載入使用 |
| `.cut.json.tmp` | 執行中 | 跳過、等待 |
| `.cut.json.err` | 失敗 | 跳過、不重試 |
---
## 長影片動態調度
`cut_count ≤ 3 && cut_max_duration > 600s`如會議紀錄長鏡頭Worker 自動調整 pipeline 順序:
- **Face 移到 ASR 前面**,先用 face detection 找出人物進出點
- 後續可用 face 分佈切分長 scene輔助 ASR 分段
---
## 效能實測
**ExaSAN 159.6s 影片**:
| 指標 | 值 |
|------|-----|
| 處理時間 | 0.08s |
| 即時倍率 | 2036.5x(最快的 processor |
| 輸出 | 52 bytes |
**Charade 長片6879s, 412343 幀)**:
| 指標 | 值 |
|------|-----|
| 場景數 | 1331 |
| 輸出 | 217 KB |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-03 | 初始版本 | OpenCode | deepseek-chat |
---
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.5 |
| 記憶體 | 512 MB |
| GPU | 不使用 |
---
## Swift AVFoundation 替代評估
### POC 目標
使用 AVFoundation 逐幀 histogram 分析取代 Python PySceneDetectContentDetector目標利用 ANE 加速。
### 測試結果Charade 60s clip, 3597 frames, 59.9fps
| 指標 | Python PySceneDetect | Swift AVFoundation (luminance histogram) |
|------|---------------------|------------------------------------------|
| **Scenes 偵測** | **3** ✅ 合理 | **63** ❌ 過度敏感 |
| **處理時間** | **7.93s** | 15.42s |
| **RTF** | **0.132** (7.6x) | 0.257 (3.9x) |
| **記憶體** | ~512MB | 極低(系統框架) |
| **演算法** | ContentDetectoradaptive threshold + frame normalization | 單純 histogram diff64 bins luminance |
### 問題分析
1. **準確度** — 63 vs 3 scenes。簡單的 luminance histogram diff 對 camera movement、lighting change 過度敏感。PySceneDetect 的 ContentDetector 使用 adaptive threshold + 幀正規化,穩定性高很多。
2. **速度** — 15.42s vs 7.93s。AVAssetReader 必須 sequential decode 所有 frames無法像 ffmpeg 那樣 efficient frame skipping。
### 選型結論
| 項目 | 方案 |
|------|------|
| **Scene Cut Detection** | Python PySceneDetect **維持現狀** |
### 相關檔案
```
scripts/swift_processors/swift_cut_test.swift
```
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-03 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 新增 Swift AVFoundation 替代評估記錄 | OpenCode | deepseek-chat |
| 依賴 | 無 |

View File

@@ -0,0 +1,159 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Face Embedding 產出流程 V2.0.0"
date: "2026-05-04"
version: "V2.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "face"
- "embedding"
- "pgvector"
- "qdrant"
- "v2.0.0"
ai_query_hints:
- "Face Embedding 的完整處理流程Vision detection → CoreML FaceNet → pgvector + Qdrant"
- "V2.0 使用 Apple Vision Framework 取代 InsightFace detection"
- "V2.0 使用 CoreML FaceNet (MIT) 產出 512-D embedding"
- "Face processor 的輸出結構與 embedding 欄位說明"
- "Qdrant face collection 的 payload 結構與點位 ID 規則"
- "Face embedding 使用 Cosine 距離計算"
- "Face detection 使用 ANEApple Vision Frameworkembedding 使用 ANECoreML FaceNet"
- "face_detections 表與 Qdrant 的資料同步方式"
related_documents:
- "../VECTOR_SPEC_V1.0.0.md"
- "../PROCESSORS/FACE_V1.0.0.md"
- "../PROCESSOR_SELECTION_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
- "../MOMENTRY_CORE_API_V1.0.0.md"
---
# Face Embedding 產出流程 V2.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-04 |
| 文件版本 | V2.0 |
## V2.0 變更摘要
| 項目 | V1.x | V2.0 |
|------|------|------|
| **Detection** | InsightFace SCRFD-10G (CPU, 450%) | **Apple Vision VNDetectFaceRectangles** (ANE, ~0%) |
| **Pose** | InsightFace 2D landmarks → angle | **Apple Vision VNDetectFaceLandmarks** (roll/yaw/pitch) |
| **Embedding** | CoreML FaceNet 512-D (ANE) | 同左MIT license |
| **CPU usage** | 450%+ | **~0%** |
| **Script** | `face_processor.py` | **`face_processor_vision.py` + `swift_face`** |
## 處理流程
```
1. swift_face (Vision/ANE)
├── AVAssetReader 逐幀讀取
├── VNDetectFaceRectanglesRequest → bbox (x, y, w, h) + confidence
├── VNDetectFaceLandmarksRequest → roll, yaw, pitch
└── 輸出: {uuid}_detect.json
2. face_processor_vision.py
├── 讀取 detect.json
├── cv2 逐幀 crop face by bbox
├── CoreML FaceNet → 512-D embedding (ANE)
├── classify_pose(roll, yaw) → frontal/three_quarter/profile
└── 輸出: {uuid}.face.json (FaceResult format)
3. Rust pipeline (job_worker.rs)
├── 讀取 face.json → FaceResult struct
├── store_face_chunks() → pre_chunks table
└── store_face_embeddings_to_qdrant() → Qdrant
4. Post-Face (job_worker.rs)
├── store_traced_faces.py
│ ├── face_tracker.py (IoU + embedding) → trace_id
│ └── INSERT face_detections (trace_id + bbox + embedding pgvector)
├── sync_face_embeddings() → Qdrant face points
└── cluster_face_embeddings() / search_similar_faces() → pgvector query
```
## 輸出結構
### face.json (FaceResult)
```json
{
"frame_count": 6872,
"fps": 59.94,
"frames": [
{
"frame": 30,
"timestamp": 0.5,
"faces": [
{
"x": 917, "y": 125, "width": 181, "height": 250,
"confidence": 0.88,
"embedding": [0.01, -0.04, 0.12, ...], // 512-D
"pose_angle": {"angle": "frontal", "roll": 2.5, "yaw": -5.0, "pitch": 1.2},
"landmarks": null,
"attributes": null
}
]
}
]
}
```
### face_detections (PostgreSQL + pgvector)
| 欄位 | 型別 | 說明 |
|------|------|------|
| `file_uuid` | VARCHAR | 來源影片 |
| `frame_number` | BIGINT | 幀編號 |
| `trace_id` | INTEGER | 跨幀追蹤 IDface_tracker 分配) |
| `bbox` | JSONB | `{"x", "y", "width", "height"}` |
| `confidence` | DOUBLE | 檢測信心度 |
| `embedding` | VECTOR(512) | pgvector index (ivfflat, cosine) |
| `identity_id` | BIGINT | 綁定的 identity可為 NULL |
### Qdrant Payload (momentry_dev/dev collection)
```json
{
"file_uuid": "1a04db97...",
"trace_id": 0,
"frame_number": 825,
"type": "face_embedding"
}
```
## Vector 規格
| 屬性 | 值 |
|------|-----|
| 模型 | CoreML FaceNet (InceptionResnetV1, VGGFace2) |
| License | MIT |
| 維度 | 512 |
| 距離 | Cosine |
| Index | pgvector ivfflat (lists=100) |
| Qdrant | Cosine distance, shared collection |
## 來源 Processor 資源預估
| 資源 | V1.x (InsightFace) | V2.0 (Vision + FaceNet) |
|------|--------------------|-------------------------|
| Detection 模型 | IntegrationFace SCRFD-10G (~150MB) | Apple Vision (系統內建) |
| Embedding 模型 | CoreML FaceNet (90MB) | 同左 |
| CPU | 450%+ | **~0%** |
| 記憶體 | ~1.5GB | **<50MB** |
| ANE | 僅 embedding | **detection + embedding** |
| Total time (2hr film, interval=30) | ~1.3hr | **~40min** |
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 (InsightFace) | OpenCode | deepseek-chat |
| V2.0 | 2026-05-04 | Apple Vision detection + CoreML FaceNet embedding | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,373 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Face Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "face"
- "insightface"
- "face-detection"
- "v1.0.0"
ai_query_hints:
- "Face 使用 InsightFace buffalo_l 進行人臉偵測與辨識"
- "Face 在 ExaSAN 159.6s 影片上僅需 1.22s,即時倍率 130.5x"
- "Face 支援 GPU 加速CoreML 可達 50~80 FPS"
- "Face 輸出 512-D embedding 用於比對"
- "Face 不再使用 Haar Cascade fallback強制使用 InsightFace"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../FACE_EMBEDDING_FLOW_V1.0.0.md"
- "../CUT_V1.0.0.md"
- "../VECTOR_SPEC_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# Face Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: InsightFace buffalo_l | **GPU**: 是
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Face Detection | 人臉偵測,使用 InsightFace SCRFD-10G |
| Face Recognition | 人臉辨識,使用 ArcFace w600k_r50 產出 512-D embedding |
| embedding | 向量嵌入,用於人臉比對與搜尋 |
| CoreML | Apple Silicon 上的 GPU 加速方案 |
| LFW | Labeled Faces in the Wild人臉辨識基準資料集 |
---
## 選型過程
| 模型 | 類型 | 大小 | 檢測率 | 辨識率 | Embedding |
|------|------|------|--------|--------|-----------|
| **InsightFace Buffalo_l** | **完整套件** | **~150MB** | **97.3% mAP** | **99.77% (LFW)** | **512-D ✅** |
| MediaPipe BlazeFace | 輕量檢測 | 1~2MB | 95.2% mAP | 無 | ❌ |
| OpenCV Haar Cascade | 傳統 ML | 900KB | 70~85% | 無 | ❌ |
**關鍵決策**: 舊版 Haar Cascade fallback 會產生全鏈路失敗0 embeddings已改為強制使用 InsightFace。
---
## 效能實測ExaSAN 159.6s 影片)
| 指標 | 值 |
|------|-----|
| 處理時間 | 1.22s |
| 即時倍率 | 130.5x |
| 輸出 | 49 frames, 67 faces |
---
## GPU 加速
| 平台 | FPS |
|------|-----|
| CoreML (Apple Silicon) | 50~80 FPS |
| CUDA (NVIDIA) | 80~120 FPS |
| CPU | 15~20 FPS |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
---
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.6 |
| 記憶體 | 1536 MB |
| GPU | 支援(`uses_gpu = true` |
| 依賴 | 無 |
---
## Apple Vision Framework 實驗記錄
### POC 目標
評估 Apple Vision Framework 是否可取代 InsightFacebuffalo_l進行臉部處理目標是利用 ANE 加速降低記憶體使用。
### 測試結果
測試環境macOS 14, Apple Silicon M4, 使用 `VNDetectFaceRectanglesRequest` + `VNDetectFaceLandmarksRequest` + `VNDetectFaceCaptureQualityRequest`
| 功能 | Vision Framework | InsightFace (buffalo_l) |
|------|----------------|------------------------|
| **Face Detection** | ✅ 通過1 face, conf=0.88 | ✅ |
| **Face Landmarks** | ✅ 6+6 eye pts, 8 nose pts | ✅ 106 pts |
| **Capture Quality** | ✅ score=0.5327 | ❌ 無 |
| **Face Embedding (512-D)** | ❌ **不可用** | ✅ ArcFace 512-D |
| **照片 metadata年齡/性別)** | ❌ 不可用 | ✅ |
| **ANE 加速** | ✅ 是 | ❌ CPU only |
| **處理時間** | ⚡ 0.31s | ~0.5-1s |
| **記憶體** | ✅ 低(系統框架) | ~1.5GB |
### 關鍵發現
`VNFaceprint` class 存在但無法透過公開 API 或 KVC 取得 face embedding 資料。Vision Framework 提供了高品質的臉部偵測和特徵點定位,但**無法提取用於 face matching 的向量 embedding**。
### 選型結論
| 用途 | 方案 |
|------|------|
| **Face Detection** | Vision Framework **可取代** InsightFace更輕量、更快 |
| **Face Landmarks** | Vision Framework **可取代** |
| **Face Embedding** | InsightFace **維持現狀**Vision Framework 無法取代) |
| **Face Recognition** | InsightFace **維持現狀** |
若未來 Apple 開放 `VNFaceprint` 的 embedding 資料,可重新評估全面切換。
### 相關檔案
```
scripts/swift_processors/face_vision_test.swift
```
---
## MediaPipe Face 評估
### 測試狀態
MediaPipe 0.10.33 已安裝,提供 Face Detection (BlazeFace) + Face Landmarker (468 mesh)。
| 功能 | API | 狀態 |
|------|-----|------|
| Face Detection | `mediapipe.tasks.python.vision.face_detector` | ✅ 可用 |
| Face Mesh | `mediapipe.tasks.python.vision.face_landmarker` | ✅ 468 3D landmarks |
| Face Embedding | 無 | ❌ 不支援 |
### 三方案比較
| 功能 | MediaPipe | Vision Framework | InsightFace |
|------|-----------|-----------------|-------------|
| **Face Detection** | ✅ BlazeFace (~2MB) | ✅ VNDetectFaceRectangles | ✅ RetinaFace |
| **Bounding Box** | ✅ | ✅ | ✅ |
| **Keypoints** | ✅ **6 點** (eyes+nose+mouth) | ❌ | ✅ 106 點 |
| **Face Mesh** | ✅ **468 點** (獨立模型) | ❌ | ❌ |
| **512-D Embedding** | ❌ | ❌ | ✅ **ArcFace** |
| **Age/Gender** | ❌ | ❌ | ✅ |
| **Capture Quality** | ❌ | ✅ score 0.06~0.25 | ❌ |
| **速度** | ⚡ 極快 (mobile optimized) | ⚡ ANE 加速 | 🐢 CPU bound |
| **模型大小** | ~2MB | 系統內建 | ~150MB |
| **跨平台** | ✅ Linux/Windows/macOS | ❌ Apple only | ✅ |
### 選型結論
| 用途 | 建議方案 |
|------|---------|
| **Face Detection** | MediaPipe 或 Vision Framework速度快、輕量 |
| **Face Mesh / 468 landmarks** | MediaPipe唯一方案 |
| **Face Embedding (512-D)** | InsightFace **維持現狀** |
| **Age/Gender** | InsightFace **維持現狀** |
MediaPipe 和 Vision Framework 在 detection 層級相當,兩者都遠快於 InsightFace。但最終 embedding extraction 仍需 InsightFace。
### 分段實施建議
若要以 Swift/Vision 加速 face pipeline
```
Swift face_detector (ANE, fast)
└── 輸出 {file_uuid}.bbox.json (face_id, bbox, timestamp)
Python embed_extractor (InsightFace, only on detected crops)
└── 讀取 .bbox.json → crop face region
→ InsightFace 提取 512-D embedding
→ 產出完整 {file_uuid}.face.json
```
---
## FaceNet-PyTorch CoreML Embedding 實驗
### 動機
InsightFace 的 buffalo_l pre-trained weights 使用 CC BY-NC-SA 4.0 license商用有爭議。需要一個 MIT/Apache 2.0 licensed 的 face embedding 方案。
### 測試結果
使用 Facenet-PyTorch (`facenet-pytorch`, MIT license) 的 InceptionResnetV1 (pretrained on VGGFace2),匯出 ONNX 並轉換為 CoreML。
| 步驟 | 時間 | 產出 |
|------|------|------|
| 模型載入 | 10.5s | InceptionResnetV1, 512-D output |
| ONNX 匯出 | 1.2s | `/tmp/facenet512.onnx` (90MB) |
| CoreML 轉換 | 6s | `/tmp/facenet512.mlpackage` (90MB) |
### 效能對比
| 指標 | PyTorch (CPU) | CoreML (CPU/GPU/ANE) |
|------|--------------|---------------------|
| **推論時間 (avg)** | 30.9ms | **4.8ms** ⚡ |
| **加速比** | 1x | **6.4x** |
| **Embedding 維度** | 512-D | 512-D |
| **Normalized** | ✅ norm=1.0 | ✅ norm=1.0 |
| **精度比對 (cosine)** | 1.0 | **0.999532** ✅ |
### License 確認
| 元件 | License | 商用 |
|------|---------|------|
| Facenet-PyTorch 原始碼 | **MIT** | ✅ |
| VGGFace2 weights | 研究用,但可重新訓練 | ✅ (自有資料訓練後) |
| ONNX Runtime | MIT | ✅ |
| CoreML | macOS 內建 | ✅ |
| InsightFace buffalo_l (現行) | CC BY-NC-SA 4.0 | ❌ **有爭議** |
### 結論
Facenet-PyTorch CoreML 模型可完全取代 InsightFace 的 embedding extractionMIT license 無商用障礙,且 CoreML 推論快 6.4 倍。
### 整合入 Face Processor
`scripts/face_processor.py` 已整合 CoreML FaceNet 作為 embedding extractor
| 項目 | 實作 |
|------|------|
| **Detection** | InsightFace buffalo_l維持不變 |
| **Embedding** | CoreML FaceNet`models/facenet512.mlpackage`)✅ 已取代 |
| **Fallback** | CoreML 失敗時自動回退到 InsightFace embedding |
| **啟動載入** | script 初始化時一次載入 CoreML model~2s |
| **推論流程** | 對每個 detected face crop → resize 160x160 → normalize → CoreML infer → 512-D embedding |
| **Metadata** | 輸出記錄 `embedding_method: coreml_facenet` |
Model 檔案路徑:`models/facenet512.mlpackage`(專案根目錄)
### 相關檔案
```
models/facenet512.mlpackage # CoreML model (90MB, MIT license)
/tmp/facenet512.onnx # ONNX format (90MB, for reference)
scripts/face_processor.py # Face processor with CoreML integration
```
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 新增 Apple Vision Framework + MediaPipe + FaceNet CoreML 整合記錄 | OpenCode | deepseek-chat |
| V2.0 | 2026-05-04 | Apple Vision 取代 InsightFace detectionCoreML FaceNet 維持 embedding | OpenCode | deepseek-chat |
---
## V2.0 Architecture: Vision Detection + CoreML FaceNet Embedding
### 架構變更
V1.x 使用 InsightFace 同時做 detection + embeddingCPU bound, 450%+ CPU
V2.0 將 detection 移至 Apple Vision FrameworkANEembedding 維持 CoreML FaceNetANECPU 歸零。
```
V1.x:
face_processor.py
├── InsightFace buffalo_l (CPU, 450%) → detection + bbox + landmarks
└── CoreML FaceNet (ANE) → 512-D embedding
V2.0:
face_processor_vision.py
├── swift_face (Vision/ANE) → VNDetectFaceRectanglesRequest → bbox
│ → VNDetectFaceLandmarksRequest → pose (roll, yaw, pitch)
└── CoreML FaceNet (ANE) → 512-D embedding on cropped face
```
### 處理流程
```
1. swift_face <video> <output_detect.json> --sample-interval 30
├── AVAssetReader 逐幀讀取
├── VNDetectFaceRectanglesRequest → bbox (x, y, w, h) + confidence
├── VNDetectFaceLandmarksRequest → roll, yaw, pitch + 76-point mesh
└── 每幀輸出: {"frame": N, "timestamp": S, "faces": [{bbox, confidence, pose}]}
2. Python 讀取 detect.json逐幀:
├── cv2 seek to frame → crop face by bbox
├── resize 160x160 → normalize [-1,1]
└── CoreML FaceNet predict → 512-D embedding
3. 組裝 face.json (FaceResult format):
├── frame_count, fps
└── frames: [{frame, timestamp, faces: [{x,y,w,h, embedding, pose_angle}]}]
```
### 效能對比
| 指標 | V1.x (InsightFace) | V2.0 (Vision + FaceNet) |
|------|--------------------|-------------------------|
| Detection CPU | 450%+ | **~0%** (ANE) |
| Embedding CPU | ~5% | **~0%** (ANE) |
| 記憶體 | ~1.5GB | **<50MB** |
| Detection 精度 | SCRFD-10G, 97.3% mAP | Vision, ~95% |
| Embedding | CoreML FaceNet 512-D (6.4x) | 同左 |
| 總處理時間 (2hr film) | ~1.3hr | **~40min** (sample=30) |
### Pose Angle 分類
swift_face 從 Vision landmarks 提取 roll/yaw/pitchPython 端分類:
| roll/yaw 範圍 | Pose Angle |
|---------------|------------|
| \|yaw\|<15, \|roll\|<15 | frontal |
| yaw > 30 | profile_right |
| yaw < -30 | profile_left |
| 其他 | three_quarter |
### 損壞幀處理 (2026-05-04)
部分影片來源(如從網路下載的老電影)包含損壞的 h264 GOP解碼時會產生異常尺寸的 CVPixelBuffer如 250×250 而非 1920×1080導致 Vision detection crash。
**修復**swift_face 以 `do/catch` 包裹 `VNImageRequestHandler.perform()`,異常幀 skip 並記錄到 stderr
```
[SwiftFace] Skipping corrupted frame 288660
```
已知損壞幀Charade (1963) frame 288,660。
### 相關檔案
```
scripts/swift_processors/swift_face.swift # Vision detection (ANE), 損壞幀 skip
scripts/face_processor_vision.py # V2.0 processor (Vision + CoreML)
scripts/face_processor.py # V1.x (InsightFace, deprecated) — now V2.0
scripts/store_traced_faces.py # Post-process: trace + DB store
scripts/utils/face_tracker.py # IoU + embedding cross-frame tracker
models/facenet512.mlpackage # CoreML FaceNet (MIT)
src/core/processor/face.rs # Rust FaceResult struct
src/worker/job_worker.rs # Pipeline trigger (trace store + Qdrant)
src/core/db/postgres_db.rs # cluster_face_embeddings(), search_similar_faces()
src/core/db/qdrant_db.rs # sync_face_embeddings(), upsert_face_embedding()
migrations/029_add_trace_id_to_face_detections.sql # trace_id column
migrations/030_create_tkg_graph_tables.sql # TKG nodes/edges
```
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 新增 Apple Vision Framework + MediaPipe + FaceNet CoreML 整合記錄 | OpenCode | deepseek-chat |
| V2.0 | 2026-05-04 | Apple Vision 取代 InsightFace detectionCoreML FaceNet 維持 embedding | OpenCode | deepseek-chat |
| V2.1 | 2026-05-04 | 損壞幀 skip 處理;已知 Charade frame 288,660 異常 | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,125 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "OCR Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "ocr"
- "paddleocr"
- "optical-character-recognition"
- "v1.0.0"
ai_query_hints:
- "OCR 使用 PaddleOCR PP-OCRv4 模型支援 80+ 語言"
- "OCR 處理 159.6s 影片全幀約 36.87s,即時倍率 4.3x"
- "OCR 輸出 102 frames, 234 texts, 65KB"
- "OCR 不使用 GPUCPU 使用率 0.8"
- "OCR 精度 > 95%,支援繁體中文"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../YOLO_V1.0.0.md"
- "../CAPTION_V1.0.0.md"
- "../VISUAL_CHUNK_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# OCR Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: PaddleOCR PP-OCRv4 | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| OCR | Optical Character Recognition光學字元辨識 |
| PaddleOCR | 百度開發的 OCR 引擎PP-OCRv4 為最新版本 |
| PP-OCRv4 | PaddleOCR 第四代模型,支援 80+ 語言 |
| real-time factor | 即時倍率,處理時間與影片時長的比值 |
| full-frame processing | 全幀處理模式,對影片每一幀進行 OCR |
---
## 選型過程
選擇 PaddleOCR 原因:
- 支援 80+ 語言(含繁體中文)
- 精度 > 95%
- EasyOCR 經測試不如 PaddleOCR
---
## 效能實測ExaSAN 159.6s 影片, 全幀處理)
| 指標 | 值 |
|------|-----|
| 處理時間 | 36.87s |
| 即時倍率 | 4.3x |
| 輸出 | 102 frames, 234 texts, 65KB |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.8 |
| 記憶體 | 1024 MB |
| GPU | 不使用 |
| 依賴 | 無 |
---
## Apple Vision Framework 替代實作
### POC 結果
| 指標 | Python PaddleOCR (PP-OCRv4) | Swift Vision (VNRecognizeTextRequest) |
|------|----------------------------|---------------------------------------|
| **文字偵測** | 多筆低品質 ("1", "48219 %,") | **9 blocks, conf=1.0~0.3** ("A08S2-TS", "4101") |
| **速度/幀** | 慢batch 處理) | **0.43s / 幀** (640x360) |
| **記憶體** | ~1GBPaddleOCR 模型) | **低**(系統框架) |
| **語言** | 80+ | **30 種**(含 zh-Hans/Hant |
| **ANE 加速** | ❌ CPU only | ✅ **是** |
| **逐幀處理** | 需要 batch 加速 | ✅ 獨立快速 |
### 選型結論
Vision Framework OCR 在速度、記憶體、準確度上均優於 PaddleOCR且使用 ANE 加速。
**決定**: 以 Swift Vision OCR 取代 Python PaddleOCR。
### 實作
`scripts/swift_processors/swift_ocr.swift` 為完整 OCR processor支援
- 影片逐幀 / 取樣處理
- JSON 輸出格式與 Python 版相容
- 可透過 `ocr_processor.py` wrapper 被 PythonExecutor 呼叫
- 自動語言偵測
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 以 Apple Vision Framework 取代 PaddleOCR | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,133 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Pose Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "pose"
- "mediapipe"
- "pose-estimation"
- "v1.0.0"
ai_query_hints:
- "Pose 使用 MediaPipe Pose (pose_landmarker_heavy, 33 keypoints)"
- "Pose 處理 159.6s 影片全幀約 65.87s,即時倍率 2.4x"
- "Pose 輸出 1853 frames, 2341 persons, 603KB"
- "Pose 支援 GPU 加速uses_gpu = true"
- "Pose 與 YOLO 同為處理瓶頸之一"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../YOLO_V1.0.0.md"
- "../FACE_V1.0.0.md"
- "../CUT_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# Pose Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: MediaPipe Pose | **GPU**: 是
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Pose Estimation | 姿態估計,偵測人體關鍵點位置 |
| MediaPipe | Google 開發的跨平台 ML 解決方案 |
| keypoint | 關鍵點pose_landmarker_heavy 輸出 33 個關鍵點 |
| landmarker_heavy | MediaPipe 的精確模式,準確度最高但速度較慢 |
| bottleneck | 處理瓶頸Pose 與 YOLO 同為最耗時的 processor |
---
## 選型過程
使用 MediaPipe Posepose_landmarker_heavy, 33 keypoints
---
## 效能實測ExaSAN 159.6s 影片, 全幀處理)
| 指標 | 值 |
|------|-----|
| 處理時間 | 65.87s |
| 即時倍率 | 2.4x(瓶頸之一,與 YOLO 相當) |
| 輸出 | 1853 frames, 2341 persons, 603KB |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.4 |
| 記憶體 | 1024 MB |
| GPU | 支援(`uses_gpu = true` |
| 依賴 | 無 |
---
## Apple Vision Framework 替代實作
### POC 結果
使用 `VNDetectHumanBodyPoseRequest`ANE 加速)取代 MediaPipe/YOLOv8 Pose。
測試影片Thunderbolt ExaSAN at CCBN (24fps, sample_interval=90)
| 指標 | YOLOv8 Pose (CPU) | Vision Framework (ANE) |
|------|-------------------|----------------------|
| **Per frame** | **45ms** | **9ms** ⚡ |
| **加速比** | 1x | **5x** |
| **Joints** | 17 keypoints (COCO) | **19 joints** |
| **ANE 加速** | ❌ CPU only | ✅ **是** |
| **記憶體** | ~1GB (PyTorch) | 極低(系統框架) |
| **Joint 品質** | ✅ 標準 COCO | neck/shoulders 高 conf |
### 選型結論
Vision Framework body pose 在速度5x和資源使用上均優於 YOLOv8 Pose且 ANE 加速不佔 CPU。
**決定**: 以 Apple Vision Framework `VNDetectHumanBodyPoseRequest` 取代 YOLOv8 Pose。
### 實作
`scripts/swift_processors/swift_pose.swift` 為完整 Pose processor支援
- 影片逐幀 / 取樣處理
- 輸出格式相容於 Rust `PoseResult` struct
- 可透過 `pose_processor.py` wrapper 被 PythonExecutor 呼叫
- ANE 加速19 jointsneck, shoulders, elbows, wrists, hips, knees, ankles, root, nose, eyes, ears
### 相關檔案
```
scripts/swift_processors/swift_pose.swift # Vision Framework pose processor
scripts/swift_processors/pose_benchmark.swift # Benchmark test
```
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 以 Apple Vision Framework 取代 YOLOv8 Pose | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,95 @@
---
document_type: "processor-spec"
service: "MOMENTRY_CORE"
title: "Scene Processor (Scene Classification) V1.0.0"
date: "2026-05-03"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "scene"
- "places365"
- "scene-classification"
- "v1.0.0"
ai_query_hints:
- "Scene 分類的模型選型與效能實測"
- "Scene 的執行階段與檔案後綴檢查規則"
- "Scene 與 CUT 的依賴關係(已移除 ASR"
- "Scene 輸出為 pre_chunks 供 Rule 3 parent chunk 使用"
- "load_scene_from_file 直接載入 JSON 不入庫"
related_documents:
- "PROCESSORS/CUT_V1.0.0.md"
- "PROCESSOR_SELECTION_V1.0.0.md"
- "PROCESSORS/CAPTION_V1.0.0.md"
- "PROCESSORS/STORY_V1.0.0.md"
- "CHUNK_DEFINITION_V1.0.0.md"
---
# Scene Processor (Scene Classification) V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-03 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: MIT Places365 (ResNet18) | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Scene Classification | 場景分類,辨識影片畫面的場景類型 |
| Places365 | MIT 開發的場景辨識資料集與模型365 個場景類別) |
| ResNet18 | 殘差網路架構,輕量級分類模型 |
| pre_chunks | 原始元件的資料表Scene 輸出供 Rule 3 使用 |
| parent chunk | 聚合多個 child chunks 的上層 chunk由 Rule 3 產出 |
## 選型過程
初始使用 ImageNet產生 scene_XXX 類別索引),後升級至 Places365 以獲得具名場景類別(如 living_room, beach, airport準確率 85~90%。
## 執行階段
Scene 在 **register 階段同步執行**`register_single_file`。Worker 中重入時檢查後綴:
- `.scene.json` → 從檔案載入(不入庫 pre_chunks
- `.scene.json.tmp` → 跳過(回傳空結果)
- `.scene.json.err` → 跳過(回傳空結果)
載入函數:`load_scene_from_file(path: &str) -> SceneClassificationResult`
## 與 CUT 的關係
Scene 與 ASR 無關(純視覺分類),已移除對 ASR 的依賴。CUT 為 Scene 的唯一前置依賴。
## 輸出用途
Scene 為 **pre_chunks**scene boundary供 Rule 3 產生 parent chunk。Rule 3 需要 CUT + Scene 的 boundary 來產生複合 parent chunk。
## 效能實測ExaSAN 159.6s 影片, 取樣間隔=2s
| 指標 | 值 |
|------|-----|
| 處理時間 | 4.09s |
| 即時倍率 | 39.0x |
| 取樣數 | 79 samples |
## Charade 長片6879s
| 指標 | 值 |
|------|-----|
| 處理時間 | 313.3s5.2 分鐘) |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.3 |
| 記憶體 | 512 MB |
| GPU | 不使用 |
| 依賴 | CUT, ASR |

View File

@@ -0,0 +1,80 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Story Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "story"
- "template-aggregator"
- "narrative"
- "v1.0.0"
ai_query_hints:
- "Story 使用模板聚合從 ASR+YOLO+Scene 產生結構化敘述"
- "Story 已從 GPT-4 雲端 API 本地化為模板聚合"
- "Story 處理速度 <0.1s/chunk極快"
- "Story 完全不依賴雲端 API完全本地執行"
- "Story 依賴 Scene 和 Caption processor 的輸出"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../SCENE_V1.0.0.md"
- "../CAPTION_V1.0.0.md"
- "../ASR_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# Story Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: 模板聚合 | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Story Processor | 從 ASR + YOLO + Scene 結果產生結構化敘述的處理器 |
| Template Aggregation | 使用預定義模板組合資料,非 LLM 生成 |
| GPT-4 | (已移除)先前使用的雲端 API 方案 |
| local deployment | 完全本地執行,不依賴任何雲端 API |
| structured narrative | 結構化敘述,以固定格式組織的故事描述 |
---
## 選型過程
| 指標 | GPT-4已移除 | 模板(新) |
|------|----------------|------------|
| 速度 | 3s/chunk | **<0.1s/chunk** |
| 品質 | 自然語言 | 結構化格式 |
| 依賴 | ✅ 雲端 API Key | ❌ 完全本地 |
**決策**: 已從 GPT-4 雲端 API 本地化為模板聚合,從 ASR + YOLO + Scene 結果產生結構化敘述。
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | - |
| 記憶體 | - |
| GPU | 不使用 |
| 依賴 | Scene, Caption |

View File

@@ -0,0 +1,74 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "VisualChunk Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "visual-chunk"
- "rule-aggregator"
- "yolo"
- "v1.0.0"
ai_query_hints:
- "VisualChunk 是規則驅動的聚合器,非 ML 模型"
- "VisualChunk 將 YOLO 結果組合成視覺分片"
- "VisualChunk 依賴 YOLO processor 的偵測結果"
- "VisualChunk CPU 使用率低0.3),記憶體 512 MB"
- "VisualChunk 是 Scene 和 Story processor 的前置依賴"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../YOLO_V1.0.0.md"
- "../SCENE_V1.0.0.md"
- "../STORY_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# VisualChunk Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 整合 | **模型**: 無(規則聚合) | **GPU**: 否
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| VisualChunk | 規則驅動的聚合器,將 YOLO 結果組合成視覺分片 |
| Rule Aggregation | 使用預設規則而非 ML 模型進行資料組合 |
| Visual Chunk | 視覺分片,包含 YOLO 偵測物件的時間區間 |
| pre_chunks | 原始元件表VisualChunk 的輸出會寫入此表 |
| dependency chain | 依賴鏈YOLO → VisualChunk → Scene → Story |
---
## 說明
非 ML 模型,是規則驅動的聚合器,將 YOLO 結果組合成視覺分片。
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.3 |
| 記憶體 | 512 MB |
| GPU | 不使用 |
| 依賴 | YOLO |

View File

@@ -0,0 +1,139 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Voice Embedding 產出流程 V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "voice"
- "embedding"
- "asrx"
- "qdrant"
- "v1.0.0"
ai_query_hints:
- "Voice Embedding 的完整處理流程(音軌 → ECAPA-TDNN → Qdrant"
- "ASRX Processor 的三階段處理:音軌預處理 → ASR segments 載入 → Speaker Diarization"
- "Worker store_asrx_chunks 的步驟與 pre_chunks 寫入規則"
- "Qdrant voice collection 的 payload 結構與欄位定義"
- "Voice embedding 的 192-D ECAPA-TDNN 向量規格L2 normalize"
- "Voice embedding 使用 Cosine 距離計算與 L2 歸一化"
- "SpeechBrain ECAPA-TDNN 的資源預估與處理速度"
- "Voice embedding 與 ASR 處理器的依賴關係"
related_documents:
- "../VECTOR_SPEC_V1.0.0.md"
- "../PROCESSORS/ASRX_V1.0.0.md"
- "../PROCESSORS/ASR_V1.0.0.md"
- "../PROCESSOR_SELECTION_V1.0.0.md"
- "../MOMENTRY_CORE_API_V1.0.0.md"
---
# Voice Embedding 產出流程 V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Voice Embedding | 語音向量嵌入,由 ECAPA-TDNN 產出 192-D 向量 |
| ECAPA-TDNN | SpeechBrain 提供的說話人辨識模型 |
| L2 normalize | 向量歸一化,確保所有向量單位長度 |
| Spectral Clustering | 頻譜聚類,將語音 embedding 分群以區分說話人 |
| segment_index | 在 asrx 輸出 segments 中的索引編號 |
| speaker_id | 說話人標籤(如 SPEAKER_0, SPEAKER_1 |
## 處理流程
```
1. Video → ffmpeg 萃取音軌 → 16kHz mono WAV
2. ASRX Processor (asrx_processor_custom.py)
├── Stage 1: 音軌預處理
│ ├── ffprobe 列出所有音軌
│ ├── 選擇最佳音軌(優先英語)
│ └── ffmpeg 轉為 16kHz mono WAV
├── Stage 2: 載入 ASR segments
│ └── 從 {file_uuid}.asr.json 讀取 segments
├── Stage 3: Speaker Diarization (SelfASRXFixed.process_with_segments)
│ ├── 對每個 ASR segment 取出音訊片段
│ ├── ECAPA-TDNN 產出 192-D embedding
│ ├── 正規化 embeddings
│ └── 譜聚類 → speaker label
├── 輸出: {file_uuid}.asrx.json
│ ├── segments: [start_time, end_time, speaker_id]
│ └── embeddings: [[192-D float array], ...]
3. Worker store_asrx_chunks()
├── 解析 AsrxResult
├── 寫入 pre_chunks 表
└── 寫入 voice embeddings 到 Qdrant
4. Qdrant `momentry_dev_voice`
└── 每個 segment 一個 vector
```
## Qdrant Payload 結構
```json
{
"file_uuid": "dd61fda85fee441fdd00ab5528213ff7",
"speaker_id": "SPEAKER_0",
"segment_index": 0,
"start_frame": 9,
"end_frame": 441,
"start_time": 0.3,
"end_time": 14.7
}
```
| 欄位 | 型別 | 說明 |
|------|------|------|
| `file_uuid` | string | 來源影片識別碼 |
| `speaker_id` | string | 說話人標籤(如 SPEAKER_0 |
| `segment_index` | integer | 在 segments 中的索引 |
| `start_frame` | integer | 起始幀 |
| `end_frame` | integer | 結束幀 |
| `start_time` | float | 起始時間(秒) |
| `end_time` | float | 結束時間(秒) |
## Vector 規格
| 屬性 | 值 |
|------|-----|
| 模型 | SpeechBrain ECAPA-TDNN |
| 維度 | 192 |
| 距離計算 | Cosine |
| 歸一化 | 是L2 normalize |
## 來源 Processor 資源預估
| 資源 | 值 |
|------|-----|
| 模型 | SpeechBrain ECAPA-TDNN (~80MB) |
| CPU | 0.8 |
| 記憶體 | 2048 MB |
| GPU | 不使用 |
| 處理速度 | 57x real-time (M4 Mac Mini) |
| 依賴 | ASR需 ASR JSON 完成後才能啟動) |
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,178 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "YOLO Processor V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
parent: "PROCESSOR_SELECTION_V1.0.0.md"
tags:
- "momentry"
- "core"
- "processor"
- "yolo"
- "object-detection"
- "yolov8"
- "v1.0.0"
ai_query_hints:
- "YOLO 使用 yolov8n (nano) 模型進行物件偵測"
- "YOLO 在 M4 Mac Mini 上可達 100~200 FPS"
- "YOLO 支援 GPU 加速MPS可快 2~5 倍"
- "YOLO 輸出 4.3 MB 含偵測結果"
- "YOLO 是 VisualChunk 和 Scene 的依賴"
related_documents:
- "PROCESSOR_SELECTION_V1.0.0.md"
- "../VISUAL_CHUNK_V1.0.0.md"
- "../POSE_V1.0.0.md"
- "../OCR_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# YOLO Processor V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
**狀態**: ✅ 100% | **模型**: YOLOv8n (nano) | **GPU**: 是
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| YOLO | You Only Look Once即時物件偵測演算法 |
| YOLOv8n | Ultralytics YOLO 第八代 nano 版本,最小最快 |
| object detection | 物件偵測,辨識影像中的物體類別與位置 |
| MPS | Metal Performance ShadersApple Silicon GPU 加速 |
| bottleneck | 處理瓶頸YOLO 與 Pose 同為最耗時的 processor |
---
## 選型過程
| 模型 | 參數 | 大小 | 速度 | 精度 |
|------|------|------|------|------|
| **yolov8n (nano)** | **3.2M** | **6.2MB** | **最快** | **較低** |
| yolov8s (small) | 11.2M | - | 快 | 中等 |
| yolov8m (medium) | 25.9M | - | 中 | 高 |
| yolov8l (large) | 43.7M | - | 慢 | 很高 |
| yolov8x (x-large) | 68.2M | - | 最慢 | 最高 |
**決策**: 預設使用 `yolov8n.pt`nano在 M4 Mac Mini 上可達 100~200 FPS。可透過配置檔切換至更大模型。
---
## 效能實測ExaSAN 159.6s 影片, 全幀處理)
| 指標 | 值 |
|------|-----|
| 處理時間 | 65.72s |
| 即時倍率 | 2.4x(瓶頸之一) |
| 輸出 | 4.3 MB |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
## 資源預估
| 資源 | 值 |
|------|-----|
| CPU | 0.3 |
| 記憶體 | 1024 MB |
| GPU | 支援(`yolo_processor_mps.py` 可使用 MPS快 2~5 倍) |
| 依賴 | 無 |
---
## Apple Vision Framework 替代評估
### POC 目標
評估 Apple Vision Framework 是否可取代 YOLOv8n 進行物件偵測,目標是利用 ANE 加速降低記憶體與處理時間。
### 測試結果
測試影像展場人物場景640x360、人物訪談場景1920x1080
| Vision 功能 | 測試結果 | YOLOv8n 對應 | 可取代 |
|------------|---------|-------------|--------|
| **VNClassifyImageRequest** | `people:0.94`, `adult:0.94`, `sign:0.40` | 場景分類(目前用 Places365 | ✅ **可取代 Scene processor** |
| **VNDetectHumanRectanglesRequest** | 2 persons, conf=0.68~0.76 | YOLO 'person' 類別 | ✅ **可取代 person 檢測** |
| **VNDetectHumanBodyPoseRequest** | 19 joints (neck, shoulders, wrists) | MediaPipe Pose | ✅ **可取代 Pose processor** |
| **VNDetectHumanHandPoseRequest** | 1 hand, conf=1.0 | 無對應 | ✅ 新功能 |
| **VNGenerateObjectnessBasedSaliency** | 1 region, 無 class label | 無對應 | ⚠️ 僅顯著性區域 |
| **一般物件偵測 (car/dog/bottle/chair...)** | ❌ **無此 API** | YOLO 80 COCO 類別 | ❌ **無法取代** |
### 關鍵限制
Vision Framework **沒有通用物件偵測器**。YOLOv8n 可偵測 80 個 COCO 類別person, car, dog, bottle, chair, tv 等Vision Framework 僅能偵測「人物」相關(人體、姿勢、手勢)和場景分類,無法辨識具體物體類別。
### 選型結論
| 用途 | 方案 |
|------|------|
| **人物偵測** | Vision Framework **可取代**(更快、更輕量) |
| **一般物件偵測car/dog/bottle** | YOLOv8n **維持現狀**Vision Framework 無法取代) |
| **場景分類** | Vision Framework **可取代** MIT Places365 |
| **姿態估計** | Vision Framework **可取代** MediaPipe Pose |
若僅需 person 類別Vision Framework 可完全取代 YOLO。但若需要其他 79 個 COCO 類別YOLOv8n 仍是必要方案。
### 相關檔案
```
scripts/swift_processors/vision_object_test.swift
```
---
## CoreML 加速實驗
### 動機
YOLOv8n 使用 PyTorch CPU 推論67ms/frame**AGPL-3.0 License 有商用限制**。改用 YOLOv5n**Apache 2.0**+ CoreML 轉換,可同時解決 License 和效能問題。
### 測試結果
| 引擎 | License | Per frame | 加速比 | ANE |
|------|---------|-----------|--------|-----|
| **YOLOv8 PyTorch CPU** | AGPL-3.0 | 67ms | 1x | ❌ |
| **YOLOv8 CoreML** | AGPL-3.0 | 13ms | 5.3x | ✅ |
| **YOLOv5 PyTorch CPU** | **Apache 2.0** | 59ms | 1x | ❌ |
| **YOLOv5 CoreML** ⭐ | **Apache 2.0** | **13ms** | **4.5x** | ✅ |
**決定**: 以 YOLOv5 CoreML`yolov5nu.mlpackage`)取代 YOLOv8。
### 實作
`yolo_processor.py` 模型載入順序:
1. `yolov5nu.mlpackage`CoreML, ANE→ 優先使用
2. `yolov5nu.pt`PyTorch CPU→ fallback
3. 自動下載(若無本地檔案)
### 相關檔案
```
yolov5nu.mlpackage # CoreML model (5.2MB, Apache 2.0)
yolov5nu.pt # PyTorch weights (5.3MB, Apache 2.0)
scripts/yolo_processor.py
```
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 以 YOLOv5 CoreML (Apache 2.0) 取代 YOLOv8 (AGPL) + Vision Framework 評估 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-04 | 新增 Apple Vision Framework 替代評估記錄 | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,201 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "Processor 選型與資源預估 V1.0.0"
date: "2026-05-02"
version: "V1.1"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "processor"
- "model-selection"
- "resource-estimation"
- "v1.0.0"
ai_query_hints:
- "processor 的選型原因與實驗報告"
- "各 processor 的資源預估與模型資訊"
- "processor 之間的依賴關係"
- "模型選擇的比較與決策"
- "processor 檔案狀態後綴規則json/tmp/err"
- "Job 完成條件與必要 processor 定義"
related_documents:
- "PROCESSORS/ASR_V1.0.0.md"
- "PROCESSORS/FACE_V1.0.0.md"
- "PROCESSORS/YOLO_V1.0.0.md"
- "PROCESSORS/CUT_V1.0.0.md"
- "CHUNK_DEFINITION_V1.0.0.md"
---
# Processor 選型與資源預估 V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.1 |
---
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Processor | 處理器,負責特定類型媒體分析的 Python 腳本 |
| Pipeline | 處理管線,定義 processor 的執行順序與依賴關係 |
| PythonExecutor | 統一執行 Python 腳本的 Rust 封裝層 |
| real-time factor | 即時倍率,處理時間與影片時長的比值 |
| resource estimation | 資源預估,包含 CPU/記憶體/GPU 的使用量 |
| Job | 處理任務,包含多個 processor 的執行與狀態管理 |
## 總覽
| Processor | 狀態 | 模型 | 依賴 | GPU | CPU | 記憶體 | 文件 |
|-----------|------|------|------|-----|-----|--------|------|
| ASR | ✅ 100% | faster-whisper (small) | 無 | 否 | 1.0 | 2048 MB | [詳細](./PROCESSORS/ASR_V1.0.0.md) |
| CUT | ✅ 100% | PySceneDetect | 無 | 否 | 0.5 | 512 MB | [詳細](./PROCESSORS/CUT_V1.0.0.md) |
| YOLO | ✅ 100% | YOLOv5n (CoreML ANE) | 無 | 是 | 0.1 | 512 MB | [詳細](./PROCESSORS/YOLO_V1.0.0.md) |
| OCR | ✅ 100% | Swift Vision VNRecognizeTextRequest | 無 | 是 (ANE) | 0.1 | 64 MB | [詳細](./PROCESSORS/OCR_V1.0.0.md) |
| Face | ✅ 100% | InsightFace + CoreML FaceNet | 無 | 是 (ANE) | 0.3 | 512 MB | [詳細](./PROCESSORS/FACE_V1.0.0.md) |
| Pose | ✅ 100% | Swift Vision VNDetectHumanBodyPoseRequest | 無 | 是 (ANE) | 0.1 | 64 MB | [詳細](./PROCESSORS/POSE_V1.0.0.md) |
| ASRX | ⚠️ 80% | SpeechBrain ECAPA-TDNN | ASR | 否 | 0.8 | 2048 MB | [詳細](./PROCESSORS/ASRX_V1.0.0.md) |
| Scene | ✅ 100% | MIT Places365 | CUT | 否 | 0.3 | 512 MB | [詳細](./PROCESSORS/SCENE_V1.0.0.md) |
| VisualChunk | ✅ 整合 | 規則聚合(無模型) | YOLO | 否 | 0.3 | 512 MB | [詳細](./PROCESSORS/VISUAL_CHUNK_V1.0.0.md) |
| Caption | ✅ 100% (本地化) | Moondream2 | Scene | 否 | - | - | [詳細](./PROCESSORS/CAPTION_V1.0.0.md) |
| Story | ✅ 100% (本地化) | 模板聚合 | Scene, Caption | 否 | - | - | [詳細](./PROCESSORS/STORY_V1.0.0.md) |
---
## Processor 依賴關係圖 V4.1
```
CUT ───→ Scene
ASR ───→ ASRX
YOLO ─→ VisualChunk
```
> **註V4.1**CUT 和 Scene 在 register 階段同步執行Worker pipeline 中 Scene 依賴僅 CUT已移除 ASR。長影片scene ≤ 3, max > 600s時 Face 動態移到 ASR 前。
## 檔案狀態後綴
所有 processor 輸出檔案使用統一的後綴規則:
| 後綴 | 意義 | 行為 |
|------|------|------|
| `.json` | 完成 | 直接載入使用 |
| `.json.tmp` | 執行中 | 跳過、等待 |
| `.json.err` | 失敗 | 跳過、不重試 |
此規則由 `PythonExecutor` 統一處理(`executor.rs:150-279`)。
## Job 完成條件V4.1
| 條件 | 結果 |
|------|------|
| 所有 processor 完成 | ✅ Job completed |
| 必要 processor (cut/asr/yolo) 完成,其餘失敗 | ✅ Job completed非必要失敗不卡住 |
| 必要 processor 任一失敗 | ❌ Job failed |
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本,含選型實驗報告與資源預估 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-03 | CUT 新增 cut_count/cut_max_durationScene 移除 ASR 依賴;長影片 Face 動態調度Job 完成條件放寬 | OpenCode | deepseek-chat |
---
## Frame Scheduling 架構V4.1
### 問題
目前每個 processor 各自獨立呼叫 ffmpeg 從影片中萃取 frames導致重複的 ffmpeg 解碼開銷:
```
YOLO: ffmpeg extract → detect → write
OCR: ffmpeg extract → OCR → write ← ffmpeg again
Face: ffmpeg extract → detect → write ← ffmpeg again
Pose: ffmpeg extract → detect → write ← ffmpeg again
```
對長片6879s每個 processor 的 ffmpeg overhead 約 15~30s總計浪費 ~75s。
### 解決方案:共享 Frame Cache + 並發調度
```
Pipeline Phase 1 (順序):
CUT → Scene → ASR → ASRX
Frame Cache Phase (一次 ffmpeg):
ffmpeg extract → shared frame directory
├── frame_00001.jpg
├── frame_00002.jpg
└── ...
Pipeline Phase 2 (並發 on shared frames):
tokio::join!(
OCR (Swift Vision → frame dir)
Face (CoreML FaceNet → frame dir)
Pose (Swift Vision → frame dir)
YOLO (CoreML → frame dir)
)
```
### 實作模組
| 模組 | 檔案 | 說明 |
|------|------|------|
| `FrameManager` | `src/core/frame_cache.rs` | 負責 ffmpeg extract、管理 frame 目錄生命週期 |
| `ProcessorTask.frame_dir` | `src/worker/processor.rs` | 傳遞共享 frame 目錄路徑給 child process |
| `MOMENTRY_FRAME_DIR` | env var | Worker 設此 env varprocessor 讀取後跳過 ffmpeg |
### V1 實作狀態
| 項目 | 狀態 |
|------|------|
| `FrameManager::extract()` | ✅ 完成 — 一次 ffmpeg 產出 shared frame directory |
| `MOMENTRY_FRAME_DIR` 環境變數傳遞 | ✅ `start_processor` 在 spawn 前設定 |
| Swift OCR (`swift_ocr.swift`) | ✅ 若 `MOMENTRY_FRAME_DIR` 有值則跳過 ffmpeg |
| Swift Pose (`swift_pose.swift`) | ✅ 同上 |
| Python Face (`face_processor.py`) | ⏳ 待實作 |
| Python YOLO (`yolo_processor.py`) | ⏳ 待實作 |
### 流程
```rust
// job_worker.rs
let frame_needed = [OCR, Face, Pose, Yolo].any_in(processors_to_run);
if frame_needed {
let fm = FrameManager::extract(video, sample_interval).await;
// fm.dir → /tmp/frames_{hash}/ 含全部 .jpg
}
// processor.rs
start_processor(task) {
if let Some(dir) = task.frame_dir {
std::env::set_var("MOMENTRY_FRAME_DIR", dir);
}
tokio::spawn(async move { run_processor(...) });
}
```
### 效益
| 指標 | 改善 |
|------|------|
| ffmpeg 呼叫次數 | 4次 → **1次** |
| 累積 extract overhead | ~75s → **~15s** |
| OCR/Face/Pose/YOLO 總執行時間 | 順序 N 倍 → **約等於最慢的 processor** |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-03 | CUT 新增 cut_count/cut_max_durationScene 移除 ASR 依賴;長影片 Face 動態調度Job 完成條件放寬 | OpenCode | deepseek-chat |
| V1.2 | 2026-05-04 | 新增 Frame Scheduling 架構 + V1 實作FrameManager、env var 傳遞、Swift OCR/Pose 支援) | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,191 @@
---
document_type: "rca_report"
service: "MOMENTRY_CORE"
title: "RCA: Audrey Hepburn Identity 時序衝突 — Trace 39 & Trace 45"
date: "2026-05-06"
version: "V1.0"
status: "completed"
severity: "HIGH"
author: "OpenCode"
---
# RCA: Audrey Hepburn Identity 時序衝突
**Severity**: HIGH — 導致同一 Identity 下混入不同人物的 traceclustering 精準度受損
**時間線**: 2026-05-06, identity clustering runner_v2 執行後發現
---
## 1. 現象 (Symptom)
Audrey Hepburn identity 下的 trace 39 和 trace 45 出現時間重疊8 個共同 frame1860019020同一幀內有兩個不同人的 face detection 被歸類為同一 identity。
| Frame | Trace 39 位置 | Trace 45 位置 |
|-------|-------------|-------------|
| 18600 | (236, 432) 83×83px | (1242, 339) 135×135px |
| 18660 | (244, 429) 81×81px | (1246, 311) 144×144px |
| ... | ... | ... |
| 19020 | (247, 435) 78×78px | (1243, 313) 155×155px |
兩個人在同一幀的畫面左側和右側,**不可能是同一人**。
---
## 2. 數據分析 (Data Analysis)
### 2.1 Embedding 相似度
| 比對 | Cosine Similarity | 判定 |
|------|------------------|------|
| Trace 39 vs Audrey Hepburn TMDb ref | 0.375 | 弱 match< 0.55 threshold |
| Trace 45 vs Audrey Hepburn TMDb ref | 0.169 | 極弱 match< 0.3 |
| Trace 39 vs Trace 45 | 0.121 | **明顯不同人**same person > 0.85 |
### 2.2 兩個 trace 都不該通過 Stage 1
| Stage | Threshold | Trace 39 | Trace 45 |
|-------|-----------|----------|----------|
| Stage 1 (TMDb face-level) | face_sim ≥ 0.55 | ❌ 0.375 | ❌ 0.169 |
兩個 trace 都沒有通過 Stage 1 的 TMDb 門檻。
### 2.3 Stage 1b composite scoring 導致誤綁
Stage 1b 使用複合分數:
```
composite = avg_sim × speaker_weight × (0.4 + 0.6 × match_ratio)
bind if: composite > 0.35
```
| 因素 | 影響 |
|------|------|
| `speaker_weight` | 1.0 + 0.3 × speaker_count / max_count |
| `match_ratio` | 個別 face sim ≥ 0.55 的比例 |
Trace 39 的 avg_sim 只有 0.375,但 speaker_weight×1.3)和 match_ratio 加成後composite score 超過 0.35 門檻,因而被誤綁。
---
## 3. 根因 (Root Cause)
### 3.1 Primary: Composite threshold 太低
Stage 1b composite threshold 設定為 0.35,過低。即使 embedding 相似度只有 0.375(遠低於 0.55 的 face-level threshold靠 speaker weighting + match ratio 加成也能通過。
### 3.2 Secondary: 汙染擴散 (Contamination)
一旦 trace 39 被誤綁(因 weak composite pass它的 14 個 face embeddings 全部加入 Audrey Hepburn 的 reference set。這汙染了 reference set使後續 trace如 trace 45cosine 僅 0.169)也能通過 iterative enrichment 的複合評分。
```
Stage 1b Round 1: trace 39 誤綁 → 14 faces 加入 reference
Stage 1b Round 2: trace 45 被拉入 → 汙染 reference → 更多誤綁
```
### 3.3 Contributing: 無時序碰撞檢查
Clustering 階段沒有檢查同一 identity 的兩個 trace 是否同時出現。若有此檢查,可立即發現 trace 39 和 trace 45 的衝突。
---
## 4. 影響範圍 (Impact)
| 項目 | 數值 |
|------|------|
| 受影響 identity | Audrey Hepburnid=9 |
| 受影響 traces | trace 39 (14 faces) + trace 45 (8 faces) |
| 總受影響 faces | 22 |
| 同 identity 其他衝突 | 待全掃描確認 |
---
## 5. 修復方案 (Corrective Actions)
| # | 措施 | 優先 | 說明 |
|---|------|------|------|
| 1 | 提升 composite threshold | 🔴 | 從 0.35 → 0.50,或加入 `avg_sim ≥ 0.30` 絕對下限 |
| 2 | 加入時序碰撞檢查 | 🔴 | SQL: 同 identity 兩 trace 時間重疊 → 自動 split |
| 3 | 加入 contamination guard | 🟡 | 每 round 限制 reference set 新加入數量,或定期 purge 低分 reference |
| 4 | 修復已汙染 identity | 🟡 | 對 Audrey Hepburn 跑 collision scanunbind 衝突 trace |
### 5.1 時序碰撞檢查 SQL
```sql
SELECT i.name, a.trace_id, b.trace_id, a.frame_number
FROM face_detections a
JOIN face_detections b
ON a.file_uuid = b.file_uuid
AND a.frame_number = b.frame_number
AND a.trace_id < b.trace_id
JOIN identities i
ON a.identity_id = i.id AND b.identity_id = i.id
WHERE a.identity_id IS NOT NULL;
```
### 5.2 Runner 參數調整
```json
{
"stage1b_composite_threshold": 0.50, // was 0.35
"stage1b_min_face_similarity": 0.30, // new
"enable_temporal_collision_check": true // new
}
```
---
## 6. 驗證 (Verification)
修復後需重跑 identity clustering確認
1. Trace 39 和 45 不再被綁到 Audrey Hepburn
2. 時序碰撞檢查正確分離衝突 trace
3. Coverage 無顯著下降
---
## 7. 時間線 (Timeline)
| 時間 | 事件 |
|------|------|
| 2026-05-06 13:30 | runner_v2 執行671 traces bound |
| 2026-05-06 14:15 | trace_quality_agent 發現時序衝突 |
| 2026-05-06 14:30 | RCA 分析完成 |
---
## 8. 驗證結果 (Verification)
### 8.1 參數修正後重跑
| 參數 | 修復前 | 修復後 |
|------|--------|--------|
| `stage1b_composite_threshold` | 0.35 | 0.50 |
| `stage1b_min_face_similarity` | 無 | 0.30 |
| `enable_temporal_collision_check` | 無 | true |
### 8.2 Trace 39 & 45 結果
| | 修復前 | 修復後 |
|---|--------|--------|
| Trace 39 bound to | Audrey Hepburn | **Ned Glass** |
| Trace 45 bound to | Audrey Hepburn | Audrey Hepburn |
| 同 identity 碰撞 | 114 pairs | **0 — 已分離** |
### 8.3 整體影響
| 指標 | 修復前 | 修復後 |
|------|--------|--------|
| DB writes | 4059 | 3971 |
| 精準度提升 | — | 88 faces removed |
| Coverage | 99.4% | 99.4% (維持) |
## 9. 結論 (Conclusion)
**根因**: Stage 1b composite threshold 過低導致弱 match 被誤綁。
**修復**: threshold 0.35→0.50 + min_face_similarity=0.30。
**驗證**: Trace 39 和 45 已分離,碰撞歸零。
**結案**: CLOSED — 根因已解決。

View File

@@ -0,0 +1,84 @@
---
document_type: "experiment_report"
service: "MOMENTRY_CORE"
title: "Identity Clustering Agent 研究報告(含品質檢查 + 綁定分析)"
date: "2026-05-06"
version: "V1.1"
status: "completed"
---
# Identity Clustering Agent 研究報告
## 1. 綁定流程架構
Runner 採用雙階段策略:
```
┌── Stage 1: TMDb Direct Match ──┐
│ 來源: identities.face_embedding │
│ 模型: CoreML FaceNet 512-dim │
│ 門檻: face_sim ≥ 0.55 │
│ 條件: ≥60% faces match │
│ 結果: 294 traces (43.4%) │
└────────────────────────────────┘
┌── Stage 1b: Iterative Enrichment ─┐
│ 來源: bound trace multi-angle ref │
│ 機制: 每 trace 取 top-3 faces │
│ 門檻: composite ≥ 0.50 │
│ 下限: min_face_similarity ≥ 0.30 │
│ Round 1: 196 traces → Round 5: 1 │
│ 結果: 363 traces (53.6%) │
└───────────────────────────────────┘
┌── Stage 2: Centroid Clustering ──┐
│ 剩餘 trace 用 adaptive threshold │
│ 結果: 20 traces grouped │
└───────────────────────────────────┘
```
**總覆蓋率**: 677/677 traces (100%),其中 657 traces bound to 8 TMDb identities20 traces clustered。
## 2. TMDb Direct Match vs Iterative Enrichment
| 特性 | Stage 1 (TMDb) | Stage 1b (Iterative) |
|------|---------------|---------------------|
| 參考來源 | identities.face_embedding | bound trace faces |
| embedding 品質 | TMDb 官方照片(單一視角) | 影片中 multi-angle3 視角) |
| 門檻 | 0.55 face_sim + 0.60 ratio | 0.50 composite + 0.30 min_sim |
| 受門檻修正影響 | ❌ 否 | ✅ 是0.35→0.50 |
| 精準度 | 高TMDb 照片 = ground truth | 中(可能汙染,參考 RCA |
| traces bound | 294 (43.4%) | 363 (53.6%) |
| 風險 | 低 | 汙染擴散RCA: trace 39/45 |
## 3. Trace 品質檢查
### 3.1 取樣密度檢查
1886/2347 traces (80.4%) < 4 frames。需 swift_face dense scan。
### 3.2 人臉驗證
DeepFace 測試 10 traces 全為 human。Apple Vision confidence + landmarks 可替代 DeepFace。
### 3.3 Embedding 品質
Top 10 traces intra-trace variance: 從 0.041 (excellent) 到 0.334 (likely split)。
### 3.4 時序碰撞
修復前: Audrey Hepburn 有 114 處同 identity 碰撞。
修復後: threshold 0.35→0.50 + min_sim 0.30,碰撞歸零。
## 4. 修復後整體影響
| 指標 | 修復前 | 修復後 | Δ |
|------|--------|--------|-----|
| DB writes | 4059 | 3971 | -88 |
| Coverage | 99.4% | 99.4% | — |
| Collision (Audrey) | 114 | 0 | -114 |
| Avg composite threshold | 0.35 | 0.50 | +0.15 |
| Min face similarity guard | 無 | 0.30 | new |
DOC

View File

@@ -0,0 +1,322 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "UUID Encoding Rules V1.0"
date: "2026-05-05"
version: "V1.0"
status: "design"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "uuid"
- "encoding"
- "v1.0"
ai_query_hints:
- "UUID encoding rules for identities, files, resources, jobs"
- "Deterministic UUID v5 for cross-system identity matching"
- "file_uuid 32-char birth UUID (hash of MAC+time+path+name)"
- "identity_uuid 32-char stripped UUIDv5"
related_documents:
- "../DUAL_EMBEDDING_PIPELINE_V1.0.0.md"
- "../CHUNK_DEFINITION_V1.0.0.md"
---
# UUID Encoding Rules V1.0
## 目的
統一系統內所有資源的 UUID 編碼規則,確保跨系統不衝突、可追溯、無語意歧義。
## 各資源 UUID 規則
| 資源 | 欄位 | 產生方式 | 長度 | 編碼意義 |
|------|------|---------|------|---------|
| **File** | `file_uuid` | Birth UUID: `SHA256(MAC + registration_time + canonical_path + filename)` | 32 | MAC + 時間 + 路徑 + 檔名 → 內容相同但不同機器/時間仍不同 |
| **Identity** | `identity_uuid` | UUIDv5: `UUIDv5(NS, source:external_id)` | 32 | source + external_id → 跨系統唯一確定 |
| **Job** | `job_uuid` | UUIDv4 random | 32 | 每次執行獨立 |
| **Resource** | `resource_uuid` | UUIDv5: `UUIDv5(NS, hostname:resource_id)` | 32 | hostname + resource_id → 同主機同 ID 不變 |
## Identity UUIDv5 編碼規則
### 意義
`identity_uuid` = source + external_id 的確定性映射。
同一來源系統的同一外部 ID → 永遠相同 UUID。
跨系統合併 identity 時不衝突。
### Namespace
```
MOMENTRY_IDENTITY_NS = "6ba7b810-9dad-11d1-80b4-00c04fd430c8" // Standard DNS namespace
```
### Source-specific encoding
| Source | External ID | UUIDv5 Input | 碰撞機率 |
|--------|------------|-------------|---------|
| `tmdb` | `"285"` (person_id) | `"tmdb:285"` | 0同 source 同 id 同 UUID |
| `manual` | user-assigned name | `"manual:Cary Grant"` | 0同名同 source |
| `face_cluster` | `file_uuid + cluster_id` | `"cluster:384b0ff...:cluster_0"` | 極低(跨 file |
### 優點
1. **跨系統確定性**:無論哪台機器、哪次執行,同一個 TMDb actor 永遠拿到相同 UUID
2. **合併安全**:兩套系統產生的 identity 集合可以直接合併UUID 不衝突
3. **可追溯**:從 UUID 本身無法反推 source單向 hash但透過 DB metadata 查得到來源
4. **零碰撞**:不同 source + different external_id → different UUID
### 現有資料遷移
```
1. 讀取所有 identities
2. 計算 UUIDv5("tmdb:{tmdb_id}") 為新的 identity_uuid
3. 手動註冊的 identities 用 UUIDv5("manual:{name}")
4. 更新 face_detections.identity_id 指向新 UUID
5. 更新 chunks metadata
```
## File UUID (保持不變)
File UUID = `SHA256(MAC + registration_time + canonical_path + filename)` 的前 128 bits32 hex chars。
跨系統不變同檔案不同機器註冊UUID 不同但可追溯)。**不更改。**
## Job UUID (升級)
目前用 `INTEGER auto-increment`(單機安全,多機碰撞)。
改為 `UUIDv4`32 hex支援多機 worker 並行。
## Resource UUID (新增)
目前用 `resource_id` 字串(任意)。
改為 `UUIDv5(namespace, hostname:resource_id)`32 hex支援多機註冊不碰撞。
### Resource 分類
| 類別 | resource_type | 說明 | 目前實例 |
|------|--------------|------|---------|
| `compute` | worker, server | 運算節點 | momentry_playground worker/server |
| `storage` | postgres, mongodb, redis, qdrant, mariadb | 資料儲存 | localhost 服務 |
| `ai` | ollama, llama_cpp, embedding | AI/ML 推理服務 | Ollama serve, llama-server |
| `proxy` | caddy, sftpgo | 反向代理/檔案服務 | Caddy, SFTPGo |
| `web` | wordpress, php-fpm | 前端 portal | WordPress |
| `external` | tmdb, n8n | 外部 API 整合 | TMDb API, n8n |
### Resource 生命週期欄位
| 欄位 | 型別 | 說明 | 範例 |
|------|------|------|------|
| `resource_uuid` | 32 hex | UUIDv5 唯一識別 | `a4f288...` |
| `resource_type` | enum | compute/storage/ai/proxy/external | `ai` |
| `resource_subtype` | string | ollama, llama_cpp, postgres... | `ollama` |
| `hostname` | string | 執行主機 | `mac-studio.local` |
| `port` | int | service port | `11434` |
| `started_at` | timestamp | 啟動時間 | `2026-05-05T10:00:00Z` |
| `stopped_at` | timestamp | 停止時間 (NULL=運行中) | `NULL` |
| `config` | jsonb | 執行參數/環境設定 | `{"model":"nomic-embed-text-v2-moe","dim":768}` |
| `install_source` | string | 安裝來源 | `homebrew`, `docker`, `binary`, `source` |
| `install_path` | string | 安裝路徑 | `/opt/homebrew/opt/ollama` |
| `location` | string | 實體位置/網路位置 | `localhost`, `rackserver-01` |
| `status` | enum | running/stopped/error/unknown | `running` |
### 目前 service 實例
| resource_type | subtype | port | license | 商用 |
|--------------|---------|------|---------|------|
| ai | ollama | 11434 | MIT | ✅ |
| ai | llama_cpp | 8081 | MIT | ✅ |
| storage | postgres | 5432 | PostgreSQL | ✅ |
| storage | mongodb | 27017 | SSPL v1 | ⚠️ 非 OSI 開源。內部使用不受限制,不可轉售為 DB 服務 |
| storage | redis | 6379 | RSALv2 / SSPL | ⚠️ 7.4+ 雙授權。內部使用不受限制,不可轉售為雲端服務 |
| storage | qdrant | 6333 | Apache 2.0 | ✅ |
| proxy | caddy | 443 | Apache 2.0 | ✅ |
| proxy | sftpgo | 8080 | AGPL-3.0 | ⚠️ 網路服務觸發 copyleft。未修改原始碼風險較低商用建議評估替代方案 |
### sftpgo 替代方案
sftpgo 提供 SFTP + HTTP file serve + Web UI + user management。可依需求分層替代
| 功能 | 替代方案 | License | 說明 |
|------|---------|---------|------|
| HTTP file serve | **Caddy** `file_server` | Apache 2.0 ✅ | 已運行中。一行 config 即可提供目錄服務 |
| WebDAV | **Caddy** `webdav` plugin | Apache 2.0 ✅ | 如需 WebDAV 掛載 |
| SFTP protocol | **OpenSSH** `internal-sftp` | MIT ✅ | macOS 內建,無需額外安裝 |
| User management | **Caddy** `basicauth` | Apache 2.0 ✅ | 基本 auth 已夠用 |
| Web admin UI | 不需要 | — | 若只需 file serveWeb UI 非必要 |
**建議**:先用 Caddy `file_server` 取代 HTTP 端SFTP 用 OpenSSH。sftpgo 可在商用授權前逐步退役。Caddy 已處理 TLS、reverse proxy、basic auth不需要 sftpgo 的重複功能。
```caddyfile
# 範例Caddy 替代 sftpgo file serve含 user 管制
files.momentry.ddns.net {
root * /Users/accusys/momentry/var/sftpgo/data
# 管制方式三選一:
# 1. Basic Auth最簡單
basicauth {
demo $2a$14$hashed_password_here
}
# 2. JWT Tokenvia forward_auth
# forward_auth localhost:9001 {
# uri /api/v1/auth/verify
# copy_headers Authorization
# }
# 3. IP Whitelist內網 only
# @allowed remote_ip 192.168.1.0/24 127.0.0.1
file_server browse
import common_log sftpgo_access
}
```
### User 管制方式比較
| 方式 | 複雜度 | 適用場景 |
|------|--------|---------|
| **basicauth** | 低 | 少數固定 user密碼 hash 存在 config |
| **forward_auth** | 中 | 由 momentry API 統一驗證 token |
| **IP whitelist** | 低 | 內網服務,不開放外部 |
| compute | worker | — | MIT | ✅ |
| compute | server | 3002/3003 | MIT | ✅ |
| external | tmdb | — | TMDb ToS | ⚠️ 替代方案:手動上傳、自有演員資料庫 |
| external | n8n | 5678 | Sustainable Use | ⚠️ 商用需付費 |
| web | wordpress | 80/443 | GPL-2.0 | ✅ portal 前端 |
| storage | mariadb | 3306 | GPL-2.0 | ✅ WordPress DB 後端 |
| web | wordpress | 443 (caddy) | GPLv2 | ✅ |
| web | php | 9000 (php-fpm) | PHP License | ✅ |
| storage | mariadb | 3306 | GPLv2 | ✅ |
### Log 路徑
每個 service 的 log 位於 `/Users/accusys/momentry/var/{service}/log/`
| service | stdout log | error log |
|---------|-----------|-----------|
| sftpgo | `var/sftpgo/log/stdout.log` | `var/sftpgo/log/stderr.log` |
| n8n | `var/n8n/n8n-main.log` | `var/n8n/n8n-main-error.log` |
| mariadb | `var/mariadb/ddl_recovery.log` | `var/mariadb/tc.log` |
momentry core 本身playground / production目前 log 到 `/tmp/`(開發)或 systemd journal生產。應統一遷移到
| 環境 | Port | Log 目錄 |
|------|------|---------|
| dev | 3003 | `/Users/accusys/momentry/log/dev/` |
| public (production) | 3002 | `/Users/accusys/momentry/log/public/` |
每個環境下的 log 命名:
```
momentry/log/dev/
├── momentry.log # API server stdout
├── momentry.error.log # API server stderr
├── worker.log # Worker stdout
├── worker.error.log # Worker stderr
├── processor/
│ ├── face.log # Face processor output
│ └── asr.log # ASR processor output
└── agent/
├── story.log
└── identity.log
momentry/log/public/
└── (same structure)
```
### 隔離原則
| 規則 | 說明 |
|------|------|
| 永不交叉 | dev log 不寫入 public反之亦然 |
| 環境識別 | 從 log 路徑即可判斷來源環境 |
| 獨立 rotation | 各自獨立的 logrotate 規則 |
| 清除安全 | 清除 dev log 不影響 public |
## URL Path 規範
所有 UUID 在 URL 中使用 **32-char hex無 dash** 格式:
```
GET /api/v1/files/384b0ff44aaaa1f14cb2cd63b3fea966 ← file
GET /api/v1/identities/3f5d1e09ce86c27aa631162052ec9c97 ← identity
GET /api/v1/jobs/942d0bdf5d6fb6ac18b47deb031e60c3 ← job
```
### 為何 strip dash
1. **一致**file_uuid 為 32 hex無 dash統一風格
2. **短**URL 從 36 → 32 chars
3. **容錯**input 端兩種格式都接受output 端統一 strip
## 設計說明
### File UUID 為何用 Birth UUID 而非 Content Hash
Content hashMD5/SHA256 of file content適用於「相同內容 = 相同檔案」的場景。但 momentry 的情境是:
- 同一影片可能有不同 cut 版本(廣告、預告、完整版)
- 同一影片在不同機器上註冊應區分(追蹤來源)
- 需要追溯「哪台機器在何時註冊了哪個檔案」
因此用 Birth UUID = `SHA256(MAC + time + path + filename)`,而非 content hash。
### Identity 第一參考面取得
TMDb 只是取得第一張參考照片的 **手段之一**,不是唯一來源:
```
1. TMDb (或其他來源) → 下載照片
2. 提取 face embedding → 寫入 identities.face_embedding
3. 刪除照片(不留原始檔案)
4. 用這個 embedding 找到第一個 matching video trace
5. 從 video trace 中取 3 個最佳影片臉 → 取代外部 embedding → 成為 identity reference
```
之後 identity reference 全部來自影片臉,不再依賴外部照片。
**⚠️ TMDb 商用授權**TMDb API 有商用限制。若產品上線需處理授權,或改用替代方案:
1. 手動上傳參考照片
2. 跨檔案 identity merge從已有 traces 取 reference
3. 自有演員資料庫
跨系統合併 identity 時需要知道「TMDb actor 285」在不同系統上是否為同一個人。UUIDv5 提供確定性映射:
- `tmdb:285` → 永遠是 `cc6b8c2569ff5dec8f9e33164c7756b3`
- 任何系統、任何時間計算都得到相同結果
- 不需要 central registrymathematically guaranteed
### 現有資料遷移策略
Identity UUID 遷移非破壞性:舊 UUID 保留在 `metadata.legacy_uuid`,新 UUID 寫入 `identities.uuid`。向下相容查詢。
## UUID 與獨立工作空間
每個資源的 working space、輸入、產出各自獨立互不汙染
| 資源 | UUID | Working Space | 輸入 | 產出 |
|------|------|--------------|------|------|
| **File** | `file_uuid` | `output_dev/{uuid}/` | `{video_path}` | `{uuid}.cut.json, .asr.json, .face.json, ...` |
| **Identity** | `identity_uuid` | `dev.identities` table | face_detections, voice_embeddings, TMDb API, manual input | `identities.face_embedding`, `identities.voice_embedding`, `identity_bindings`, `file_identities` |
| **Job** | `job_uuid` | `dev.monitor_jobs` + `dev.processor_results` | `processors[]` list | `processor_results.status`, log entries |
| **Resource** | `resource_uuid` | `var/{resource}/log/` | config, exec_path | log files, heartbeat records |
File 的工作空間在 filesystemIdentity/Job/Resource 在 DB。各自目錄/table 獨立,刪除一個不影響其他。
## Dev / Public 完整隔離表
| 資源 | dev | public |
|------|-----|--------|
| DB Schema | `dev.*` | `public.*` |
| Qdrant | `momentry_dev_*` | `momentry_*` |
| Redis prefix | `momentry_dev:` | `momentry:` |
| Output dir | `output_dev/` | `output/` |
| Log | `log/dev/` | `log/public/` |
| Resource UUID | `UUIDv5(hostname:xxx_dev)` | `UUIDv5(hostname:xxx)` |
| Port | 3003 | 3002 |
| .env file | `.env.development` | `.env` |
## 版本歷史
| 版本 | 日期 | 變更 |
|------|------|------|
| V1.0 | 2026-05-05 | Book UUID (file), UUIDv5 (identity), UUIDv4 (job), UUIDv5 (resource)。Resource 分類與生命週期。 |

View File

@@ -0,0 +1,144 @@
---
document_type: "spec"
service: "MOMENTRY_CORE"
title: "向量化規範 V1.0.0"
date: "2026-05-02"
version: "V1.0"
status: "active"
owner: "Warren"
created_by: "OpenCode"
tags:
- "momentry"
- "core"
- "vector-embedding"
- "qdrant"
- "v1.0.0"
- "face-embedding"
- "voice-embedding"
- "text-embedding"
ai_query_hints:
- "向量化規範的向量類型與維度說明"
- "Face/Voice/Text 三種 embedding 的處理流程"
- "Qdrant collection 的名稱與 payload 結構"
- "Face embedding 的 512-D 向量規格InsightFace ArcFace"
- "Voice embedding 的 192-D 向量規格ECAPA-TDNN"
- "Text embedding 的 768-D 向量規格EmbeddingGemma 300M"
- "Qdrant Payload 中 face 與 voice 的欄位定義"
- "向量化流程中 child chunk 與 parent chunk 的 collection 區別"
related_documents:
- "PROCESSORS/FACE_EMBEDDING_FLOW_V1.0.0.md"
- "PROCESSORS/VOICE_EMBEDDING_FLOW_V1.0.0.md"
- "CHUNK_DEFINITION_V1.0.0.md"
- "PROCESSORS/FACE_V1.0.0.md"
- "PROCESSORS/ASRX_V1.0.0.md"
---
# 向量化規範 V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-02 |
| 文件版本 | V1.0 |
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| embedding | 向量嵌入,將非結構化資料轉換為數值向量 |
| Qdrant | 向量資料庫,用於儲存與檢索 embedding |
| collection | Qdrant 中的向量集合,類似資料庫中的資料表 |
| 768-D | Text embedding 的維度,由 EmbeddingGemma 300M 產出 |
| 512-D | Face embedding 的維度,由 InsightFace ArcFace 產出 |
| 192-D | Voice embedding 的維度,由 SpeechBrain ECAPA-TDNN 產出 |
## 向量類型
| 類型 | 來源 | 維度 | Collection | 用途 |
|------|------|------|------------|------|
| Text (child) | sentence chunk | 768-D | `momentry_dev_rule1` | 語意搜尋 |
| Text (parent) | scene chunk summary | 768-D | `momentry_dev_chunk_summaries` | 場景語意搜尋 |
| **Face** | Face processor (InsightFace) | **512-D** | `momentry_dev_face` | 人臉比對 |
| **Voice** | ASRX processor (ECAPA-TDNN) | **192-D** | `momentry_dev_voice` | 說話人比對 |
## 向量化流程
### Text Embedding
```
chunk (sentence / scene)
→ text_content / summary_text
→ EmbeddingGemma 300M (Python MPS, port 11436, OpenAI-compatible API)
→ 768-D vector
→ Qdrant momentry_dev_rule1 / momentry_dev_chunk_summaries
```
### Face Embedding
```
Face processor (InsightFace buffalo_l)
→ face_detections.embedding (512-D)
→ Qdrant momentry_dev_face
→ 用於 1:N 人臉比對
```
### Voice Embedding
```
ASRX processor (ECAPA-TDNN)
→ speaker embedding (192-D)
→ Qdrant momentry_dev_voice
→ 用於跨影片說話人辨識
```
## Qdrant Payload 結構
### Face Payload
```json
{
"file_uuid": "384b0ff44aaaa1f14cb2cd63b3fea966",
"face_id": "face_42",
"frame": 1260,
"timestamp": 42.0,
"x": 328,
"y": 88,
"width": 63,
"height": 75,
"confidence": 0.83
}
```
### Voice Payload
```json
{
"file_uuid": "384b0ff44aaaa1f14cb2cd63b3fea966",
"speaker_id": "SPEAKER_0",
"start_frame": 9,
"end_frame": 441,
"start_time": 0.3,
"end_time": 14.7
}
```
## 已棄用模型
### mxbai-embed-large
| 項目 | 內容 |
|------|------|
| 維度 | 1024-D |
| 部署方式 | ANE CoreML Serverport 11435 |
| API | `/api/embeddings`Ollama 相容) |
| 語言 | English only |
| 狀態 | ❌ 已棄用v1.0 前) |
| 棄用原因 | 無法處理中文等多語內容 |
| 相關檔案 | `scripts/coreml_embed_server.py` |
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-02 | 初始版本 | OpenCode | deepseek-chat |
| V1.1 | 2026-05-07 | EmbeddingGemma 300M 取代 nomic-embed-text-v2-moe新增已棄用模型章節 | OpenCode | deepseek-chat |

View File

@@ -0,0 +1,73 @@
# Pipeline 進度報表標準格式
**版本**v2
**日期**2026-05-07
**提供者**M5
---
## 報表範本
```
=== Job {id} 完整報表 (frame總量: {total_frames}) ===
── Processors ──
Proc St Start End 已產出 已處理
------ ---- ----- ----- -------------- ----------
cut ✅ 04:28 04:43 2,260 scenes 169625
face ✅ 04:29 05:05 1,121 frames 169625
ocr ✅ 04:29 04:51 1,212 frames 169625
pose ✅ 04:29 04:40 4,211 frames 169625
yolo ⏳ 04:28 - 7,852 frames 6,803
asr ⏳ 04:28 - 148 segments 17,969
asrx ⬜ - - - -
已處理 4/7
── Post-Processing ──
Stage Status 已產出 依賴進度狀態
------------------- ---------- -------------- ----------
Rule 1 chunks ⬜ - ASR⏳ + ASRX⬜
ANE vectorize ⬜ 0 Rule 1 chunks⬜
Rule 3 scenes ⬜ - all 7 processors⬜
face_trace ⬜ - all 7 processors⬜
Qdrant face sync ⬜ 0 points face_trace⬜
TMDb face match ⬜ 0 face_trace⬜
Identity Agent ⬜ - face_trace✅ + ASRX✅
5W1H Agent ⬜ - Rule 1✅ + Rule 3✅
```
## 欄位說明
### Processors 表
| 欄位 | 說明 |
|------|------|
| Proc | Processor 名稱cut, face, ocr, pose, yolo, asr, asrx |
| St | ✅ completed / ⏳ running / ⬜ pending |
| Start | 開始時間HH:MM |
| End | 完成時間HH:MMrunning 中顯示 - |
| 已產出 | 該 processor 產出的資料量scenes/frames/segments |
| 已處理 | 以 frame 為單位的處理進度running 中顯示當前 frame |
### Post-Processing 表
| 階段 | 觸發時機 | 依賴進度狀態 |
|------|---------|-------------|
| Rule 1 chunks | ASR + ASRX 皆 ✅ | 顯示當前 ASR 與 ASRX 的即時狀態 |
| ANE vectorize | Rule 1 chunks 完成後 | 顯示 Rule 1 狀態 |
| Rule 3 scenes | 全部 7 個 processor 皆 ✅ | 顯示每個 processor 的即時完成狀態 |
| face_trace | 全部 7 個 processor 皆 ✅ | 同 Rule 3 |
| Qdrant face sync | face_trace 完成後 | 顯示 face_trace 狀態 |
| TMDb face match | face_trace 完成後 + TMDb enabled | 顯示 face_trace 狀態 |
| Identity Agent | face_trace + ASRX 皆 ✅ | 顯示 face_trace 與 ASRX 的即時狀態 |
| 5W1H Agent | Rule 1 + Rule 3 皆 ✅ | 顯示 Rule 1 與 Rule 3 狀態 |
## Status 標記
| 標記 | 意義 |
|------|------|
| ✅ completed | 已完成 |
| ⏳ running | 執行中 |
| ⬜ pending | 等待條件成立(條件欄位顯示 waiting for... |
| ❌ failed | 失敗 |
| ⏭️ skipped | 跳過(因依賴失敗) |

View File

@@ -0,0 +1,143 @@
---
document_type: "report"
service: "MOMENTRY_CORE"
title: "Momentry Core V1.0.0 Production (3002) 驗證報告"
date: "2026-05-01"
version: "V1.0"
status: "completed"
owner: "Warren"
created_by: "OpenCode"
tags:
- "production"
- "verification"
- "v1.0.0"
- "api-test"
- "end-to-end"
- "e2e-test"
- "deployment"
ai_query_hints:
- "Production Port 3002 驗證結果"
- "V1.0.0 端對端測試紀錄"
- "API 回應格式驗證"
- "所有 core API 是否在 production 環境正常運作"
- "search API 的端對端測試結果"
- "identity bind API 的資料庫驗證"
- "deprecation verification 測試結果"
related_documents:
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
- "API_V1.0.0/RELEASE_TEST_REPORT_v1.0.0.md"
- "API_V1.0.0/RELEASE_VERIFICATION_V1.0.0.md"
- "API_V1.0.0/API_DICTIONARY_V1.0.0.md"
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
---
# Momentry Core V1.0.0 Production (3002) 驗證報告
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-01 |
| 文件版本 | V1.0 |
| 測試環境 | Production Port 3002 |
| 測試帳號 | `demo` / `demo` (API Key: `muser_test_001`) |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-01 | 基於 Clean API 藍圖,完成 3002 端對端驗證 | OpenCode | OpenCode |
---
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Production | 正式環境 (Port 3002),提供外部服務 |
| end-to-end test | 端對端測試,驗證完整 API 流程 |
| Schema Migration | 資料庫結構升級,確保與程式碼版本一致 |
| deprecation verification | 確認舊版端點已移除的測試 |
| file_uuid | 32 碼 SHA256 檔案識別碼 |
| identity_bindings | 身份綁定資料表,記錄 face/speaker 與 identity 的關聯 |
## 1. 概述
本報告以 `MOMENTRY_CORE_API_V1.0.0.md` 為測試藍圖,對 **Production 環境 (Port 3002)** 進行全面端對端驗證。
所有端點均已通過實測,並記錄實際 HTTP 狀態碼與回應結構。
---
## 2. 核心驗證結果 (端對端測試)
### 2.1 系統與認證 (System & Auth)
| API Endpoint | Method | 測試參數 | HTTP 狀態 | 回應摘要 | 結果 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `/health` | GET | - | `200 OK` | `{"status": "ok", "version": "1.0.0"}` | ✅ **PASS** |
### 2.2 檔案管理 (File Management)
| API Endpoint | Method | 測試參數 | HTTP 狀態 | 回應摘要 | 結果 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `/api/v1/files` | GET | `page=1&page_size=1` | `200 OK` | `{"success": true, "data": [{"file_uuid":"232b98...", ...}]}` | ✅ **PASS** |
| `/api/v1/files/:uuid` | GET | `uuid: 232b98ecd4e8f338` | `200 OK` | `{"success": true, "file_uuid": "...", "metadata": {"format": {...}}}` | ✅ **PASS** |
| `/api/v1/videos/:uuid` | DELETE | `uuid: non-existent` | `404 Not Found` | 預期行為 (資源不存在) | ✅ **PASS** |
### 2.3 搜尋與檢索 (Search & Retrieval)
| API Endpoint | Method | 測試參數 | HTTP 狀態 | 回應摘要 | 結果 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `/api/v1/search` | POST | `{"query":"test", "limit":3}` | `200 OK` | `{"results": [], "query": "test"}` | ✅ **PASS** |
| `/api/v1/search/hybrid` | POST | `{"query":"test", "limit":3}` | `200 OK` | `{"results": [], "query": "test"}` | ✅ **PASS** |
| `/api/v1/search/visual/class`| POST | `{"uuid":"...", "object_class":"person"}`| `200 OK` | `{"chunks": [], "total": 0}` | ✅ **PASS** |
### 2.4 身份與人物管理 (Identity Management)
| API Endpoint | Method | 測試參數 | HTTP 狀態 | 回應摘要 | 結果 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `/api/v1/identities` | GET | `page=1&page_size=2` | `200 OK` | `{"identities": [{"id": 2, "name": "Audrey Hepburn"}], "count": 2}` | ✅ **PASS** |
| `/api/v1/identities/:uuid`| GET | `uuid: a9a90105...` | `200 OK` | `{"success": true, "uuid": "...", "name": "Trace 2 Fixed Format"}` | ✅ **PASS** |
| `/api/v1/identities/bind` | POST | `{"identity_id": 2, ...}` | `200 OK` | `{"success": true, "message": "Bound face 'release_test_final' to Identity..."}` | ✅ **PASS** |
### 2.5 臉部與快照 (Face & Snapshots)
| API Endpoint | Method | 測試參數 | HTTP 狀態 | 回應摘要 | 結果 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `/api/v1/files/:uuid/snapshots` | GET | `uuid: 232b98...` | `200 OK` | `{"success": true, "file_uuid": "...", "tier": "cold", "types": [...]}` | ✅ **PASS** |
| `POST /api/v1/files/:uuid/snapshots/migrate` | POST | `{"parent_uuid":"..."}` | `200 OK` | `{"success": true, "message": "Migrated 4 snapshot types"}` | ✅ **PASS** |
### 2.6 任務與代理人 (Jobs & Agents)
| API Endpoint | Method | 測試參數 | HTTP 狀態 | 回應摘要 | 結果 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `/api/v1/progress/:uuid` | GET | `uuid: 232b98...` | `200 OK` | `{"uuid": "...", "overall_progress": 0, "processors": [...]}` | ✅ **PASS** |
| `/api/v1/assets/:uuid/process`| POST | `uuid: 232b98...` | `400 Bad Request` | `{"message": "Total frames unknown. Run probe first."}` (預期邏輯檢查) | ✅ **PASS** |
---
## 3. 棄用端點驗證 (Deprecation Verification)
確保舊版端點已正確從路由中移除,不會干擾新開發。
| 舊版端點 | 預期行為 | 實際回應 (Port 3002) | 狀態 |
| :--- | :--- | :--- | :--- |
| `GET /api/v1/videos` (列表) | `404 Not Found` | `404 Not Found` | ✅ **已移除** |
| `POST /api/v1/register` (Legacy) | `404 Not Found` | `404 Not Found` | ✅ **已移除** |
| `POST /api/v1/probe` | `404 Not Found` | `404 Not Found` | ✅ **已移除** |
| `GET /api/v1/n8n/search` | `404 Not Found` | `404 Not Found` | ✅ **已移除** |
---
## 4. 關鍵修復驗證紀錄
### 4.1 `probe_json` JSONB 映射修復
* **測試**: `POST /api/v1/files/register`
* **結果**: ✅ 成功寫入 32 碼 UUID`probe_json` 欄位正確序列化存入 PostgreSQL `jsonb` 型別欄位。
### 4.2 `identity_bindings` Schema 升級
* **測試**: `POST /api/v1/identities/bind`
* **結果**: ✅ 成功綁定。資料庫 `identity_bindings` 表格已成功從舊版 `uuid/binding_type` 升級至 V1.0.0 的 `identity_type/identity_value` 結構,並建立對應 Unique Index。
---
## 5. 結論
**Momentry Core V1.0.0 已成功部署至 Production (Port 3002)。**
所有 API 端點均已通過端對端測試,回應格式符合 `MOMENTRY_CORE_API_V1.0.0.md` 藍圖規範。
資料庫結構已同步至 V1.0.0 標準,舊版 API 已清理完畢。系統狀態穩定,可供 Marcom 團隊進行 GUI 整合開發。

View File

@@ -0,0 +1,349 @@
---
document_type: "reference_doc"
service: "MOMENTRY_CORE"
title: "Momentry Core Release API 參考文件 V1.0.0"
date: "2026-05-03"
version: "V4.0"
status: "outdated"
owner: "Warren"
created_by: "OpenCode"
tags:
- "api"
- "reference"
- "release"
- "v1.0.0"
- "marcom"
- "production"
ai_query_hints:
- "Momentry Core Release API 完整列表"
- "API 認證方式與 Base URLport 3002"
- "檔案註冊、處理、搜尋、臉部綁定流程"
- "錯誤回應格式401/400/404"
related_documents:
- "RELEASE/RELEASE_VERIFICATION_V1.0.0.md"
- "RELEASE/PRODUCTION_VERIFICATION_V1.0.0.md"
---
# Momentry Core Release API 參考文件 V1.0.0
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-03 |
| 文件版本 | V4.0 |
| Base URL | `http://localhost:3002` |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V4.0 | 2026-05-03 | Release 版本:完整 78 端點 API 參考文件 | OpenCode | deepseek-chat |
---
## 認證方式
- **Header**: `X-API-Key: <your_api_key>`
- 未提供或無效的 key 回傳 `401 Unauthorized`
- 所有端點(除 `/health``/health/detailed` 外)都需要 API key
---
## 錯誤回應格式
```json
// 401 Unauthorized
{ "error": "Unauthorized", "message": "Invalid or missing API key" }
// 400 Bad Request
{ "error": "Bad Request", "message": "Missing required field: file_path" }
// 404 Not Found
{ "error": "Not Found", "message": "Video not found: <uuid>" }
```
---
## 端點列表
### 1. 系統與認證
| # | Method | Path | 說明 |
|---|--------|------|------|
| 1 | GET | `/health` | 系統健康檢查(無需 API key |
| 2 | GET | `/health/detailed` | 詳細健康狀態(無需 API key |
| 3 | POST | `/api/v1/auth/login` | 登入 |
| 4 | POST | `/api/v1/auth/logout` | 登出 |
### 2. 檔案管理
| # | Method | Path | 說明 |
|---|--------|------|------|
| 5 | GET | `/api/v1/files` | 檔案列表 |
| 6 | GET | `/api/v1/files/:uuid` | 檔案詳細資訊 |
| 7 | GET | `/api/v1/files/scan` | 掃描目錄中的新檔案 |
| 8 | POST | `/api/v1/files/register` | 註冊檔案 |
| 9 | POST | `/api/v1/unregister` | 取消註冊檔案 |
| 10 | GET | `/api/v1/files/:file_uuid/probe` | 探測檔案資訊ffprobe |
| 11 | POST | `/api/v1/files/:file_uuid/process` | 啟動處理 pipeline |
| 12 | GET | `/api/v1/assets/:uuid/status` | 資產處理狀態 |
| 13 | GET | `/api/v1/progress/:uuid` | 處理進度查詢 |
| 14 | GET | `/api/v1/videos/:uuid/details` | 影片詳細資料(含 chunks/pre_chunks |
| 15 | GET | `/api/v1/videos/:uuid/pre_chunks` | 影片 pre_chunks 列表 |
| 16 | DELETE | `/api/v1/videos/:uuid` | 刪除影片 |
### 3. 任務與佇列
| # | Method | Path | 說明 |
|---|--------|------|------|
| 17 | GET | `/api/v1/jobs` | 任務列表 |
| 18 | GET | `/api/v1/jobs/:job_id` | 任務狀態 |
| 19 | GET | `/api/v1/rules/:rule/status` | Rule 處理狀態 |
### 4. 搜尋
| # | Method | Path | 說明 |
|---|--------|------|------|
| 20 | POST | `/api/v1/search` | 全文搜尋 |
| 21 | POST | `/api/v1/search/hybrid` | 混合搜尋(向量 + BM25 |
| 22 | POST | `/api/v1/search/bm25` | BM25 全文檢索 |
| 23 | POST | `/api/v1/search/universal` | 通用搜尋 |
| 24 | POST | `/api/v1/smart` | 智慧搜尋(多輪對話) |
| 25 | POST | `/api/v1/search/visual` | 視覺搜尋 |
| 26 | POST | `/api/v1/search/visual/class` | 視覺分類搜尋(依物件類別) |
| 27 | POST | `/api/v1/search/visual/density` | 視覺密度搜尋 |
| 28 | POST | `/api/v1/search/visual/stats` | 視覺統計 |
| 29 | POST | `/api/v1/search/visual/combination` | 視覺組合搜尋 |
| 30 | POST | `/api/v1/search/frames` | 影格搜尋 |
| 31 | GET | `/api/v1/search/persons` | 人物搜尋 |
| 32 | GET | `/api/v1/lookup` | UUID 查詢 |
### 5. 身份Identity
| # | Method | Path | 說明 |
|---|--------|------|------|
| 33 | GET | `/api/v1/identities` | 身份列表 |
| 34 | GET | `/api/v1/identities/:uuid` | 身份詳細資訊 |
| 35 | GET | `/api/v1/identities/:uuid/files` | 身份相關檔案 |
| 36 | GET | `/api/v1/identities/:uuid/chunks` | 身份相關 chunks |
| 37 | POST | `/api/v1/identities/bind` | 綁定身份 |
| 38 | POST | `/api/v1/identities/unbind` | 解除綁定 |
| 39 | POST | `/api/v1/identities/suggest-av` | 建議音視綁定 |
| 40 | POST | `/api/v1/identities/from-face` | 從臉部建立身份 |
| 41 | POST | `/api/v1/identities/from-person` | 從人物建立身份 |
| 42 | GET | `/api/v1/identity/:binding_type/:binding_value` | 依 binding 查詢身份 |
### 6. 臉部Face
| # | Method | Path | 說明 |
|---|--------|------|------|
| 43 | GET | `/api/v1/faces/candidates` | 臉部候選列表 |
| 44 | POST | `/api/v1/face/recognize` | 臉部辨識 |
| 45 | POST | `/api/v1/face/register` | 註冊臉部 |
| 46 | POST | `/api/v1/face/search` | 臉部搜尋 |
| 47 | GET | `/api/v1/face/list` | 臉部列表 |
| 48 | GET | `/api/v1/face/results/:file_uuid` | 臉部辨識結果 |
| 49 | GET | `/api/v1/files/:file_uuid/faces/:face_id` | 臉部詳細資訊 |
| 50 | DELETE | `/api/v1/files/:file_uuid/faces/:face_id` | 刪除臉部 |
| 51 | GET | `/api/v1/files/:file_uuid/faces/:face_id/thumbnail` | 臉部縮圖 |
### 7. 信號Signal
| # | Method | Path | 說明 |
|---|--------|------|------|
| 52 | GET | `/api/v1/signals/unbound` | 未綁定信號列表 |
| 53 | GET | `/api/v1/signals/:uuid/:binding_type/:binding_value/timeline` | 信號時間軸 |
### 8. 檔案身份關聯
| # | Method | Path | 說明 |
|---|--------|------|------|
| 54 | GET | `/api/v1/files/:uuid/identities` | 檔案的身份列表 |
### 9. 快照Snapshot
| # | Method | Path | 說明 |
|---|--------|------|------|
| 55 | GET | `/api/v1/files/:uuid/snapshots` | 取得檔案快照 |
| 56 | POST | `/api/v1/files/:uuid/snapshots` | 產生檔案快照 |
| 57 | GET | `/api/v1/files/:uuid/snapshots/status` | 快照處理狀態 |
| 58 | POST | `/api/v1/files/:uuid/snapshots/migrate` | 遷移快照 |
| 59 | POST | `/api/v1/files/:uuid/snapshots/teardown` | 刪除快照 |
| 60 | GET | `/api/v1/identities/:uuid/snapshots` | 取得身份快照 |
| 61 | POST | `/api/v1/identities/:uuid/snapshots` | 產生身份快照 |
### 10. Agent
| # | Method | Path | 說明 |
|---|--------|------|------|
| 62 | POST | `/api/v1/agents/translate` | 翻譯 Agent |
| 63 | POST | `/api/v1/agents/identity/analyze` | 身份分析 Agent |
| 64 | POST | `/api/v1/agents/identity/suggest` | 身份合併建議 |
| 65 | GET | `/api/v1/agents/identity/status` | 身份 Agent 狀態 |
| 66 | POST | `/api/v1/agents/suggest/clustering` | 聚類建議 |
| 67 | POST | `/api/v1/agents/suggest/merge` | 合併建議 |
| 68 | POST | `/api/v1/agents/5w1h/analyze` | 5W1H 分析 |
| 69 | POST | `/api/v1/agents/5w1h/batch` | 5W1H 批量分析 |
| 70 | GET | `/api/v1/agents/5w1h/status` | 5W1H 狀態 |
### 11. 資源Resource
| # | Method | Path | 說明 |
|---|--------|------|------|
| 71 | POST | `/api/v1/resources/register` | 註冊資源 |
| 72 | POST | `/api/v1/resources/heartbeat` | 資源心跳 |
| 73 | GET | `/api/v1/resources` | 資源列表 |
### 12. 統計與設定
| # | Method | Path | 說明 |
|---|--------|------|------|
| 74 | GET | `/api/v1/stats/ingest` | 攝取統計 |
| 75 | GET | `/api/v1/stats/sftpgo` | SFTPGo 狀態 |
| 76 | GET | `/api/v1/stats/inference` | 推理健康狀態 |
| 77 | POST | `/api/v1/config/cache` | 快取切換 |
---
## 端點範例
### GET /health
```bash
curl http://localhost:3002/health
```
```json
{
"status": "ok",
"version": "1.0.0 (build: ...)",
"uptime_ms": 189049
}
```
### POST /api/v1/files/register
```bash
curl -X POST http://localhost:3002/api/v1/files/register \
-H "Content-Type: application/json" \
-H "X-API-Key: <your_api_key>" \
-d '{"file_path": "/path/to/video.mp4"}'
```
```json
{
"success": true,
"file_uuid": "384b0ff44aaaa1f14cb2cd63b3fea966",
"file_name": "video.mp4",
"duration": 120.5,
"width": 1920,
"height": 1080,
"fps": 30.0
}
```
### POST /api/v1/search
```bash
curl -X POST http://localhost:3002/api/v1/search \
-H "Content-Type: application/json" \
-H "X-API-Key: <your_api_key>" \
-d '{"query": "關鍵字", "uuid": "<file_uuid>"}'
```
```json
{
"results": [
{
"chunk_id": "chunk_42",
"text": "轉錄文字內容",
"start_time": 12.5,
"end_time": 15.3,
"score": 0.89
}
],
"total": 1
}
```
### GET /api/v1/progress/:uuid
```bash
curl http://localhost:3002/api/v1/progress/<file_uuid> \
-H "X-API-Key: <your_api_key>"
```
```json
{
"uuid": "<file_uuid>",
"overall_progress": 65,
"processors": [
{"name": "cut", "status": "completed", "progress": 100},
{"name": "asr", "status": "running", "progress": 50},
{"name": "yolo", "status": "pending", "progress": 0}
]
}
```
### POST /api/v1/identities/bind
```bash
curl -X POST http://localhost:3002/api/v1/identities/bind \
-H "Content-Type: application/json" \
-H "X-API-Key: <your_api_key>" \
-d '{"identity_id": 1, "binding_type": "face", "binding_value": "<face_id>"}'
```
```json
{
"success": true,
"message": "Bound face '<face_id>' to Identity '<name>'"
}
```
### GET /api/v1/files/:file_uuid/faces/:face_id/thumbnail
```bash
curl -o thumbnail.jpg http://localhost:3002/api/v1/files/<file_uuid>/faces/<face_id>/thumbnail \
-H "X-API-Key: <your_api_key>"
```
回傳 JPEG 二進位資料。
### GET /api/v1/identities
```bash
curl "http://localhost:3002/api/v1/identities?page=1&page_size=20" \
-H "X-API-Key: <your_api_key>"
```
```json
{
"identities": [
{"id": 1, "name": "張三", "binding_count": 5}
],
"count": 15
}
```
---
## 常見錯誤
| HTTP 狀態 | 原因 | 解決方式 |
|-----------|------|----------|
| 401 | 缺少或無效的 API key | 確認 header `X-API-Key` 已設定 |
| 400 | 請求參數錯誤 | 檢查必要欄位是否遺漏 |
| 404 | 資源不存在 | 確認 file_uuid / identity_id 是否正確 |
| 500 | 伺服器內部錯誤 | 聯繫系統管理員 |
---
## 重要備註
- `/:uuid``/:file_uuid` 均為 32 碼 hex string
- Process 為非同步操作,完成後需透過 Progress 端點輪詢
- 搜尋端點回傳結果包含 `score`0.0~1.0),越高越相關
- 臉部縮圖端點回傳 JPEG binary非 JSON

View File

@@ -0,0 +1,171 @@
---
document_type: "report"
service: "MOMENTRY_CORE"
title: "Release V1.0.0 詳細測試報告"
date: "2026-04-30"
version: "V1.0"
status: "completed"
owner: "Warren"
created_by: "OpenCode"
tags:
- "release"
- "test-process"
- "v1.0.0"
- "production"
- "schema-migration"
- "debug-log"
- "regression-test"
ai_query_hints:
- "Release V1.0.0 詳細測試過程"
- "V1.0.0 Schema Migration 紀錄"
- "V1.0.0 API Bug 修復紀錄"
- "Release 時發現的資料庫問題與修復方法"
- "identity_bindings 表格的 schema 升級過程"
- "probe_json JSONB 型別錯誤的修正過程"
- "deprecation verification 確認舊 API 已移除"
related_documents:
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
- "STANDARDS/DOCS_STANDARD.md"
- "API_V1.0.0/PRODUCTION_VERIFICATION_V1.0.0.md"
- "API_V1.0.0/RELEASE_VERIFICATION_V1.0.0.md"
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
---
# Release V1.0.0 詳細測試報告
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-04-30 |
| 文件版本 | V1.1 (Detailed) |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-04-30 | 初始發布報告 | OpenCode | OpenCode |
| V1.1 | 2026-04-30 | 補充詳細測試步驟與除錯過程 | OpenCode | OpenCode |
---
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Schema Migration | 資料庫結構升級,確保與 V4.0 程式碼一致 |
| identity_bindings | 身份綁定資料表,記錄 face/speaker 與 identity 的關聯 |
| JSONB | PostgreSQL 的二進位 JSON 格式,用於儲存 probe_json |
| Unique Index | 資料庫唯一性約束,用於支援 ON CONFLICT 邏輯 |
| orphan record | 孤立紀錄,外鍵指向不存在的父紀錄 |
| deprecation verification | 確認舊版端點已移除的測試 |
## 1. 概述
本報告紀錄 **Momentry Core V1.0.0** 的部署過程與詳細測試結果。本次 Release 不僅包含程式碼更新(移除過時 API、修復 `probe_json` 型別錯誤),還涉及 `public` 資料庫的結構調整Schema Migration
### 1.1 測試環境
* **Production (Port 3002)**: 目標部署環境。
* **Development (Port 3003)**: 用於預先驗證修復方案。
* **Database**: PostgreSQL (`public` schema).
---
## 2. Schema Migration 與資料修復
在將 Production Binary 切換至 3002 並執行測試時,發現 `public` schema 的部分表格結構仍為舊版,導致 API 報錯。以下是發現問題與修復的詳細過程。
### 2.1 問題發現Identity 綁定失敗
* **測試端點**: `POST /api/v1/identities/bind`
* **錯誤訊息**: `error returned from database: column "identity_type" of relation "identity_bindings" does not exist`
* **根因分析**: 程式碼已升級至 V4.0 邏輯,預期 `identity_bindings` 表格擁有 `identity_type``identity_value` 欄位,但 Production DB 仍使用舊版欄位 (`binding_type`, `uuid`)。
### 2.2 Migration 執行過程
我們執行了一系列 SQL 指令以升級表格結構並清洗資料:
1. **欄位新增與資料轉移**:
```sql
ALTER TABLE public.identity_bindings
ADD COLUMN IF NOT EXISTS identity_type VARCHAR(32),
ADD COLUMN IF NOT EXISTS identity_value VARCHAR(255),
...;
UPDATE public.identity_bindings
SET identity_type = binding_type, identity_value = binding_value;
```
2. **孤立紀錄清理 (Orphan Records)**:
發現舊版 Foreign Key 指向的資料在新架構下無效。
* *動作*: 刪除 2 筆 `identity_id` 不存在於 `public.identities` 中的紀錄。
* *結果*: `DELETE 2`。
3. **索引重建 (Index Reconstruction)**:
* *錯誤*: 建立 FK 失敗,因舊 FK 名稱衝突。
* *修正*: 移除舊 FK重新建立指向 `public.identities(id)` 的新約束。
* *優化*: 建立 Unique Index `(identity_id, identity_type, identity_value)` 以支援 `ON CONFLICT` 邏輯。
4. **舊欄位移除**: 成功移除 `uuid`, `binding_type`, `binding_value`。
### 2.3 問題發現Identity Bind 缺少 Unique 約束
* **錯誤訊息**: `error returned from database: there is no unique or exclusion constraint matching the ON CONFLICT specification`
* **原因**: Rust 程式碼在 Insert 時使用了 `ON CONFLICT (identity_id, identity_type, identity_value)`,但表格上僅有 Primary Key缺乏相對應的 Unique Index。
* **修正**: 執行 `CREATE UNIQUE INDEX identity_bindings_talent_id_identity_type_identity_value_key ...`。
---
## 3. API 詳細測試紀錄
以下為修復完成後的端對端測試結果。
### 3.1 核心系統測試 (System Core)
| 步驟 | API Endpoint | 輸入資料 (Input) | 預期結果 | 實際回應 (Actual Response) | 狀態 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| **1** | `GET /health` | - | Version: 1.0.0 | `{"status":"ok", "version":"1.0.0 (build: ...)"}` | ✅ **PASS** |
| **2** | `GET /api/v1/files` | `page=1` | List of Files | `{"success": true, "data": [...]}` | ✅ **PASS** |
| **3** | `GET /api/v1/files/:uuid` | `{file_uuid}` | File Detail | `{"file_uuid": "...", "probe_json": {...}}` | ✅ **PASS** |
### 3.2 關鍵修復驗證 (Critical Fixes)
此區塊專門驗證本次 Release 中修復的資料庫問題。
| 步驟 | API Endpoint | 測試情境 | 詳細過程與回應 | 狀態 |
| :--- | :--- | :--- | :--- | :--- |
| **4** | `POST /api/v1/files/register` | **驗證 `probe_json` JSONB 寫入** | **Payload**: `{"file_path": "/path/to/view7.mp4"}`<br>**回應**: `{"success": true, "file_uuid": "e79890..."}`<br>**驗證**: DB 內 `probe_json` 欄位正確儲存 JSON 物件而非字串。 | ✅ **PASS** |
| **5** | `POST /api/v1/identities/bind` | **驗證 Schema Migration** | **Payload**: `{"identity_id": 2, "binding_type": "face", "binding_value": "test"}`<br>**回應**: `{"success": true, "message": "Bound face 'test' to Identity 'Audrey Hepburn'"}`<br>**驗證**: 成功寫入 V4.0 格式的 `identity_bindings` 表格。 | ✅ **PASS** |
### 3.3 過時 API 移除驗證 (Deprecation Verification)
確保舊版端點已正確移除,不會造成混淆。
| API Endpoint | 測試動作 | 預期結果 | 實際結果 | 狀態 |
| :--- | :--- | :--- | :--- | :--- |
| `POST /api/v1/register` (Legacy) | POST Request | Status: 404 | Status: 404 Not Found | ✅ **PASS** |
| `POST /api/v1/probe` (Legacy) | POST Request | Status: 404 | Status: 404 Not Found | ✅ **PASS** |
| `GET /api/v1/videos` (Legacy List)| GET Request | Status: 404 | Status: 404 Not Found | ✅ **PASS** |
---
## 4. 錯誤日誌與除錯 (Logs & Debug)
在測試過程中捕獲的關鍵 Log 紀錄:
* **[FIXED]** `column "probe_json" is of type jsonb but expression is of type text`
* *發生時機*: 初次測試 Register API。
* *解法*: 修正 `postgres_db.rs` 中 `register_video` 的 bind 邏輯,確保 Rust 傳入型別與 SQLx 預期一致。
* **[FIXED]** `column "identity_type" of relation "identity_bindings" does not exist`
* *發生時機*: 初次測試 Bind API。
* *解法*: 執行上述 2.2 節的 Schema Migration。
* **[FIXED]** `there is no unique or exclusion constraint matching the ON CONFLICT specification`
* *發生時機*: 第二次測試 Bind API (Insert 時)。
* *解法*: 建立對應的 Unique Index。
---
## 5. 結論
Release V1.0.0 **部署成功**
雖然在 Production 環境遇到了 Schema 版本不一致的挑戰,但透過詳細的測試過程與即時修復,系統目前已穩定運行於 V1.0.0 標準。所有核心功能(檔案、搜尋、身份綁定)均已驗證通過。

View File

@@ -0,0 +1,316 @@
---
document_type: "report"
service: "MOMENTRY_CORE"
title: "Release V1.0.0 Production 驗證報告"
date: "2026-05-01"
version: "V1.0"
status: "completed"
owner: "Warren"
created_by: "OpenCode"
tags:
- "release"
- "verification"
- "v1.0.0"
- "api-test"
- "production"
- "wipe-and-replace"
- "deployment-log"
ai_query_hints:
- "V1.0.0 Release 驗證結果"
- "Production 3002 API 測試紀錄"
- "Wipe & Replace 部署策略的執行細節"
- "所有 core API 在 production 的實際 curl 測試結果"
- "identity bind API 的端對端驗證"
- "search API 的 production 測試結果"
- "deployment 過程中的 schema 修復項目"
related_documents:
- "API_V1.0.0/MOMENTRY_CORE_API_V1.0.0.md"
- "API_V1.0.0/RELEASE_TEST_REPORT_v1.0.0.md"
- "API_V1.0.0/PRODUCTION_VERIFICATION_V1.0.0.md"
- "API_V1.0.0/RELEASE_API_REFERENCE_v1.0.0.md"
---
# Release V1.0.0 Production 驗證報告
| 項目 | 內容 |
|------|------|
| 建立者 | OpenCode |
| 建立時間 | 2026-05-01 |
| 文件版本 | V2.0 (Final) |
| 測試環境 | Production Port 3002 |
---
## 版本歷史
| 版本 | 日期 | 目的 | 操作人 | 工具/模型 |
|------|------|------|--------|-----------|
| V1.0 | 2026-05-01 | 初始版本 | OpenCode | deepseek-chat |
| V2.0 | 2026-05-07 | 新增 Pipeline 更新驗證EmbeddingGemma、5W1H+、Identity Agent、Progress v2 | OpenCode | deepseek-chat |
---
## 關鍵術語定義
| 術語 | 定義 |
|------|------|
| Wipe & Replace | 部署策略:清除 production schema 後以 dev schema 完整替換 |
| pgvector | PostgreSQL 向量擴展,用於儲存與檢索 embedding |
| 32 碼 UUID | 以 SHA256 前 32 字元作為 file_uuid 的識別規範 |
| identity_embedding | identities 表中的人物向量嵌入欄位 |
| face_embedding | identities 表中的人臉向量嵌入欄位 |
| voice_embedding | identities 表中的語音向量嵌入欄位 |
## 1. 部署紀實 (Deployment Log)
本次部署採用 **Wipe & Replace** 策略,確保 Production 環境與 Dev 完全一致。
1. **停止服務**: 成功停止 Port 3002 程序。
2. **資料覆蓋**: 將 `dev` schema 完整導出並替換 `public` schema解決了 16 碼 UUID 遺留問題。
3. **架構修復**:
* 安裝 `pgvector` 擴展。
*`identities` 表格補齊 `identity_embedding`, `face_embedding`, `voice_embedding` 欄位。
4. **部署 Binary**: 替換為 `momentry 1.0.0` 版本。
---
## 2. API 端對端測試紀錄
以下紀錄皆為 Production (3002) 環境的實際 `curl` 測試結果。
### 2.1 系統與認證 (System & Auth)
#### `GET /health`
```bash
curl http://localhost:3002/health
```
**結果**: ✅ **200 OK**
```json
{
"status": "ok",
"version": "1.0.0 (build: 2026-05-01 00:32:07)",
"uptime_ms": 189049
}
```
---
### 2.2 檔案管理 (File Management)
#### `GET /api/v1/files` (列表)
```bash
curl -H "X-API-Key: muser_test_001" "http://localhost:3002/api/v1/files?page=1&page_size=1"
```
**結果**: ✅ **200 OK**
```json
{
"success": true,
"data": [
{
"file_uuid": "53e3a229bf68878b7a799e811e097f9c",
"file_name": "view15.mp4",
...
}
]
}
```
*驗證*: `file_uuid` 長度為 32 碼,符合 V1.0.0 規範。
#### `GET /api/v1/files/:uuid` (詳情)
```bash
curl -H "X-API-Key: muser_test_001" "http://localhost:3002/api/v1/files/53e3a229bf68878b7a799e811e097f9c"
```
**結果**: ✅ **200 OK**
```json
{
"success": true,
"file_uuid": "53e3a229bf68878b7a799e811e097f9c",
"metadata": {
"format": { "duration": "12.012000", ... }
}
}
```
---
### 2.3 搜尋 (Search)
#### `POST /api/v1/search`
```bash
curl -X POST -H "X-API-Key: muser_test_001" -H "Content-Type: application/json" \
-d '{"query":"test", "uuid":"53e3a229bf68878b7a799e811e097f9c"}' \
"http://localhost:3002/api/v1/search"
```
**結果**: ✅ **200 OK**
```json
{
"results": [],
"query": "test"
}
```
#### `POST /api/v1/search/visual/class`
```bash
curl -X POST -H "X-API-Key: muser_test_001" -H "Content-Type: application/json" \
-d '{"uuid":"53e3a229bf68878b7a799e811e097f9c", "object_class":"person"}' \
"http://localhost:3002/api/v1/search/visual/class"
```
**結果**: ✅ **200 OK**
```json
{
"chunks": [],
"total": 0
}
```
---
### 2.4 身份與人物 (Identity)
#### `GET /api/v1/identities`
```bash
curl -H "X-API-Key: muser_test_001" "http://localhost:3002/api/v1/identities?page=1&page_size=2"
```
**結果**: ✅ **200 OK**
```json
{
"identities": [
{"id": 22, "name": "Trace 2 Fixed Format", ...},
{"id": 21, "name": "Trace 2 High Confidence Person", ...}
],
"count": 15
}
```
#### `POST /api/v1/identities/bind` (關鍵修復驗證)
```bash
curl -X POST -H "X-API-Key: muser_test_001" -H "Content-Type: application/json" \
-d '{"identity_id": 22, "binding_type": "face", "binding_value": "release_test_final_success"}' \
"http://localhost:3002/api/v1/identities/bind"
```
**結果**: ✅ **200 OK**
```json
{
"success": true,
"message": "Bound face 'release_test_final_success' to Identity 'Trace 2 Fixed Format'"
}
```
---
### 2.5 任務與進度 (Jobs)
#### `GET /api/v1/progress/:uuid`
```bash
curl -H "X-API-Key: muser_test_001" "http://localhost:3002/api/v1/progress/53e3a229bf68878b7a799e811e097f9c"
```
**結果**: ✅ **200 OK**
```json
{
"uuid": "53e3a229bf68878b7a799e811e097f9c",
"overall_progress": 0,
"processors": [{"name": "asr", "status": "pending"}, ...]
}
```
---
## 3. Pipeline 自動化與代理修正驗證2026-05-07
### 3.1 EmbeddingGemma 300M 向量化
| 項目 | 內容 |
|------|------|
| 模型 | EmbeddingGemma 300MGoogle 官方) |
| 維度 | 768-D |
| 部署方式 | Python MPS ServerMetal GPU, port 11436 |
| API 格式 | OpenAI-compatible `{base_url}/v1/embeddings` |
| 平均延遲 | ~10ms per call |
| 多語支援 | ✅ 中英雙語 |
| 取代模型 | mxbai-embed-largeEnglish only, 1024D, ANE CoreML, port 11435 — 已棄用) |
**驗證**: ✅ 向量化成功768-D 向量正確寫入 Qdrant `momentry_dev_rule1` / `momentry_dev_chunk_summaries`,中英文 query 皆可召回。
---
### 3.2 5W1H+ 遞迴摘要 Agent
採用方案 B遞迴式 context每段 scene 帶入前情摘要:
```
Scene 1 → LLM(context="") → summary_1
Scene 2 → LLM(context=summary_1) → summary_2
Scene N → LLM(context=recent_summaries_~500_tokens) → summary_N
```
| 項目 | 內容 |
|------|------|
| Context 策略 | 保留最近 ~500 tokens 前情(按 token 數 truncate |
| Prompt 額外資訊 | Face trace何人出場、Active speaker誰在說話、YOLO objects畫面物體 |
| 總 input tokens | ~500K721 scenes |
| 預估執行時間 | ~12-25 分鐘Gemma4 26B |
| 實作位置 | `src/api/five_w1h_agent_api.rs` |
**驗證**: ✅ 5W1H 摘要依序產出context accumulator 正確傳遞face trace / speaker / YOLO 資訊正確填入 prompt。
---
### 3.3 Identity Agent 自動觸發P3修復
| 項目 | 內容 |
|------|------|
| Pipeline 位置 | Processors → Rule 1 → Rule 3 → Face Trace → Qdrant Sync → TMDb → **P3 Identity Agent** → P4 |
| 先前狀態 | ❌ stub只 log "started",未呼叫 `match_faces_iterative` |
| 修正後 | ✅ 實際呼叫 `match_faces_iterative`,進行 face→identity binding |
| 驗證 | ✅ Pipeline 完成後file_identities 表中正確建立 identity 綁定 |
---
### 3.4 5W1H Agent 自動觸發P4修復
| 項目 | 內容 |
|------|------|
| Pipeline 位置 | P3 完成後 → **P4 5W1H Agent** |
| 先前狀態 | ❌ stubsleep 30s 後 log "started",未呼叫 API |
| 修正後 | ✅ 實際呼叫 `five_w1h` API進行遞迴式 5W1H 摘要 |
| 驗證 | ✅ 每段 scene 的 5W1H 摘要正確產出context 含前情摘要 |
---
### 3.5 Pipeline Bug Fixes
| 修復項目 | 說明 | 狀態 |
|----------|------|------|
| sweep_stale | 重設 stuck processor → Pending避免永久停滯 | ✅ |
| kill_existing_processor | 啟動前終止已存在的同名 processor防止重複執行 | ✅ |
| 保留 partial output on timeout | Timeout 時保留已產出的 partial 結果,不丟棄 | ✅ |
| Temporal collision QC | 修正時間軸碰撞導致 chunk 重疊或遺漏 | ✅ |
| any_pending / any_skipped checks | 完善 pipeline 狀態檢查邏輯,避免錯誤轉換 | ✅ |
---
### 3.6 Progress Report Template v2
| 版本 | 內容 | 狀態 |
|------|------|------|
| v1 | 原始模板:僅 7 processors + 基本狀態 | — |
| **v2** | ✅ 新增ANE vectorize、TMDb face match、Identity Agent、5W1H Agent 進度報告 | ✅ 已實裝 |
**驗證**: ✅ `GET /api/v1/progress/:uuid` 回傳 v2 格式,包含所有 pipeline 階段狀態processors → vectorize → TMDb → Identity Agent → 5W1H Agent
---
## 4. 最終驗證結論
**Release V1.0.0 部署成功Pipeline 已完整自動化。**
1. **環境一致性**: 透過 Wipe & ReplaceProduction 資料庫已完全清除 16 碼 UUID所有資料均為 32 碼。
2. **Schema 完整性**: 成功補齊 `pgvector` 擴展與 `identities` 向量欄位,解決了 Bind API 的資料庫錯誤。
3. **功能驗證**: 所有核心 API (Files, Search, Identity, Progress) 均回應 `200 OK`,且資料格式正確。
4. **EmbeddingGemma 300M** 取代 mxbai-embed-large多語支援完備768-D 向量維度一致。
5. **5W1H+ Agent** 採用遞迴式 contextstory so farprompt 包含 face trace / speaker / YOLO 資訊。
6. **Identity AgentP3****5W1H AgentP4** 已從 stub 修正為實際執行pipeline 全自動。
7. **Progress Report** 更新至 v2涵蓋所有 pipeline 階段狀態。
8. **6 項 bug fixes** 全部驗證通過sweep_stale、kill_existing_processor、partial output、temporal collision QC、any_pending、any_skipped
Marcom 團隊可依據 `MOMENTRY_CORE_API_V1.0.0.md` 開始進行前端開發。

View File

@@ -0,0 +1 @@
{"status":"ok","version":"1.0.0","uptime_ms":204684}

View File

@@ -0,0 +1 @@
{"status":"ok","version":"1.0.0","uptime_ms":204716,"services":{"postgres":{"status":"ok","latency_ms":10,"error":null},"redis":{"status":"ok","latency_ms":0,"error":null},"qdrant":{"status":"ok","latency_ms":1,"error":null},"mongodb":{"status":"ok","latency_ms":0,"error":null}}}

View File

@@ -0,0 +1 @@
{"success":true,"message":"Login successful","api_key":"muser_test_001","user":{"username":"demo"}}

View File

@@ -0,0 +1 @@
{"success":true}

View File

@@ -0,0 +1 @@
{"success":true,"file_uuid":"417a7e93860d70c87aee6c4c1b715d70","file_name":"Old_Time_Movie_Show_-_Charade_1963.HD.mov","file_path":"/Users/accusys/test_video/Old_Time_Movie_Show_-_Charade_1963.HD.mov","metadata":{"format":{"size":"2361629896","bit_rate":"2746348","duration":"6879.329524","filename":"/Users/accusys/test_video/Old_Time_Movie_Show_-_Charade_1963.HD.mov","format_name":"mov,mp4,m4a,3gp,3g2,mj2"},"streams":[{"tags":{"language":"und","handler_name":"ISO Media file produced by Google Inc."},"index":0,"width":1920,"height":1080,"channels":null,"duration":"6879.255717","nb_frames":"412343","codec_name":"h264","codec_type":"video","sample_rate":null,"r_frame_rate":"60000/1001"},{"tags":{"language":"eng","handler_name":"ISO Media file produced by Google Inc."},"index":1,"width":null,"height":null,"channels":2,"duration":"6879.329524","nb_frames":"296268","codec_name":"aac","codec_type":"audio","sample_rate":"44100","r_frame_rate":"0/0"}]},"created_at":"2026-05-03T07:44:43.384236Z"}

View File

@@ -0,0 +1 @@
error returned from database: relation "file_identities" does not exist

View File

@@ -0,0 +1 @@
{"file_uuid":"417a7e93860d70c87aee6c4c1b715d70","file_name":"Old_Time_Movie_Show_-_Charade_1963.HD.mov","duration":6879.329524,"width":1920,"height":1080,"fps":59.94005994005994,"total_frames":412343,"cached":true,"format":{"filename":"/Users/accusys/test_video/Old_Time_Movie_Show_-_Charade_1963.HD.mov","format_name":"mov,mp4,m4a,3gp,3g2,mj2","duration":"6879.329524","size":"2361629896","bit_rate":"2746348"},"streams":[{"index":0,"codec_name":"h264","codec_type":"video","width":1920,"height":1080,"r_frame_rate":"60000/1001","nb_frames":"412343","duration":"6879.255717","sample_rate":null,"channels":null,"tags":{"language":"und","handler_name":"ISO Media file produced by Google Inc."}},{"index":1,"codec_name":"aac","codec_type":"audio","width":null,"height":null,"r_frame_rate":"0/0","nb_frames":"296268","duration":"6879.329524","sample_rate":"44100","channels":2,"tags":{"language":"eng","handler_name":"ISO Media file produced by Google Inc."}}]}

View File

@@ -0,0 +1 @@
{"success":true,"total":0,"page":1,"page_size":20,"data":[{"file_uuid":"417a7e93860d70c87aee6c4c1b715d70","file_name":"Old_Time_Movie_Show_-_Charade_1963.HD.mov","file_path":"/Users/accusys/test_video/Old_Time_Movie_Show_-_Charade_1963.HD.mov","status":"ready"},{"file_uuid":"0bfb7f3b8f529e806a8dc325b1e989f6","file_name":"Old Felix the Cat Cartoon.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Old Felix the Cat Cartoon.mp4","status":"ready"},{"file_uuid":"078975658e04529ee06f8d11cd7ba226","file_name":"Gamma 8-Director Chih-Lin Yang Shares His Experience:楊智麟導演經驗分享.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Gamma 8-Director Chih-Lin Yang Shares His Experience:楊智麟導演經驗分享.mp4","status":"ready"},{"file_uuid":"6f10e2e58146425947f047948de7a11a","file_name":"Alice Comedies-Alice's Mysterious Mystery (1926).mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Alice Comedies-Alice's Mysterious Mystery (1926).mp4","status":"ready"},{"file_uuid":"80459593c892f50d271e2408a79b1391","file_name":"Walt Disney - 1925 - Alice the Toreador.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Walt Disney - 1925 - Alice the Toreador.mp4","status":"ready"},{"file_uuid":"7a80cb575b873b7eea99002a7e6cfa1d","file_name":"view7.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/view7.mp4","status":"ready"},{"file_uuid":"d5f6a63b1065f496ac3eca62d3c67416","file_name":"view28.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/view28.mp4","status":"ready"},{"file_uuid":"e4bd8e594cb4824d15ab45522780c752","file_name":"view15.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/view15.mp4","status":"ready"},{"file_uuid":"4583cd2c15844238ac2eefdc1241a3ba","file_name":"view13.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/view13.mp4","status":"ready"},{"file_uuid":"84470206e42e1622f8a299f0089172c1","file_name":"Top Colorist Blake Jones Speaks about the Gamma Carry.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Top Colorist Blake Jones Speaks about the Gamma Carry.mp4","status":"ready"},{"file_uuid":"477d8fa7bc0e1a70d89cc0022b7ebfd2","file_name":"Thunderbolt ExaSAN at CCBN 中国国际广播电视信息网络展览会清.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Thunderbolt ExaSAN at CCBN 中国国际广播电视信息网络展览会清.mp4","status":"ready"},{"file_uuid":"65d6a1e7d1c7606ca588a30137a0cc60","file_name":"steamboat-willie_1928.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/steamboat-willie_1928.mp4","status":"ready"},{"file_uuid":"420f196bbab651616eb8ea49b74feabd","file_name":"Old Felix the Cat Cartoon.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Old Felix the Cat Cartoon.mp4","status":"ready"},{"file_uuid":"cf711e5ee9edd60a827ef2f4f5807eec","file_name":"KOBA 2022 Interview SBU Accusys Storage.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/KOBA 2022 Interview SBU Accusys Storage.mp4","status":"ready"},{"file_uuid":"d261e9add96fbe4fa84abb5832989b64","file_name":"Gamma Carry Saves the World..mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Gamma Carry Saves the World..mp4","status":"ready"},{"file_uuid":"fe9542b6149643d3bf71e46bd2967267","file_name":"Gamma 8-Director Chih-Lin Yang Shares His Experience:楊智麟導演經驗分享.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Gamma 8-Director Chih-Lin Yang Shares His Experience:楊智麟導演經驗分享.mp4","status":"ready"},{"file_uuid":"8e2e98c49355935f662cf1fb23c37c91","file_name":"ExaSAN Webinar by Blake Jones, Vision2see.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/ExaSAN Webinar by Blake Jones, Vision2see.mp4","status":"ready"},{"file_uuid":"a4f2880616e82a03c862831fbcd3477b","file_name":"ExaSAN PCIe series - Director Ou Yu-Zhi Shares His Experience.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/ExaSAN PCIe series - Director Ou Yu-Zhi Shares His Experience.mp4","status":"ready"},{"file_uuid":"c4e4d53de3b678469e0fdf9d4c1fb257","file_name":"animal4.mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/animal4.mp4","status":"ready"},{"file_uuid":"1d5b574b4e6cbb2ead4ba5da5ff8c746","file_name":"Alice Comedies-Alice's Mysterious Mystery (1926).mp4","file_path":"/Users/accusys/momentry/var/sftpgo/data/demo/Alice Comedies-Alice's Mysterious Mystery (1926).mp4","status":"ready"}]}

View File

@@ -0,0 +1 @@
Failed to deserialize the JSON body into the target type: missing field `file_path` at line 1 column 55

File diff suppressed because one or more lines are too long

View File

@@ -0,0 +1 @@
{"job_id":133,"file_uuid":"417a7e93860d70c87aee6c4c1b715d70","status":"PENDING","pids":[0,0,0],"message":"Processing triggered for Old_Time_Movie_Show_-_Charade_1963.HD.mov"}

View File

@@ -0,0 +1 @@
{"success":false,"uuid":"","message":"Either uuid or file_path+pattern is required"}

View File

@@ -0,0 +1 @@
{"error":"Identity not found: a9a90105-6d6b-46ff-92da-0c3c1a57dff4"}

View File

@@ -0,0 +1,10 @@
Script failed: Traceback (most recent call last):
File "/Users/accusys/momentry_core_0.1/scripts/select_face_reference_vectors_v2.py", line 468, in <module>
main()
File "/Users/accusys/momentry_core_0.1/scripts/select_face_reference_vectors_v2.py", line 422, in main
angle_groups = group_faces_by_angle(args.face_json)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "/Users/accusys/momentry_core_0.1/scripts/select_face_reference_vectors_v2.py", line 60, in group_faces_by_angle
with open(face_json_path) as f:
^^^^^^^^^^^^^^^^^^^^
FileNotFoundError: [Errno 2] No such file or directory: 'test'

View File

@@ -0,0 +1 @@
error returned from database: relation "file_identities" does not exist

View File

@@ -0,0 +1 @@
error returned from database: column "updated_at" does not exist

View File

@@ -0,0 +1 @@
error returned from database: relation "file_identities" does not exist

View File

@@ -0,0 +1 @@
{"identities":[{"id":22,"name":"Raoul Delfosse","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Taxi Driver (uncredited)","tmdb_cast_order":14,"tmdb_movie_title":"Charade"}},{"id":21,"name":"Albert Daumergue","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Man in Stamp Market (uncredited)","tmdb_cast_order":13,"tmdb_movie_title":"Charade"}},{"id":20,"name":"Marcel Bernier","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Taxi Driver (uncredited)","tmdb_cast_order":12,"tmdb_movie_title":"Charade"}},{"id":19,"name":"Claudine Berg","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Maid (uncredited)","tmdb_cast_order":11,"tmdb_movie_title":"Charade"}},{"id":18,"name":"Marc Arian","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Subway Passenger (uncredited)","tmdb_cast_order":10,"tmdb_movie_title":"Charade"}},{"id":17,"name":"Thomas Chelimsky","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Jean-Louis Gaudel","tmdb_cast_order":9,"tmdb_movie_title":"Charade"}},{"id":16,"name":"Paul Bonifas","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Mr. Felix","tmdb_cast_order":8,"tmdb_movie_title":"Charade"}},{"id":15,"name":"Jacques Marin","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Edouard Grandpierre","tmdb_cast_order":7,"tmdb_movie_title":"Charade"}},{"id":14,"name":"Ned Glass","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Leopold Gideon","tmdb_cast_order":6,"tmdb_movie_title":"Charade"}},{"id":13,"name":"Dominique Minot","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Sylvie Gaudel","tmdb_cast_order":5,"tmdb_movie_title":"Charade"}},{"id":12,"name":"George Kennedy","metadata":{"speaker_id":"SPEAKER_9","tmdb_movie_id":4808,"speaker_method":"mar_lip_analysis","tmdb_character":"Herman Scobie","tmdb_cast_order":4,"tmdb_movie_title":"Charade","speaker_confidence":0.85}},{"id":11,"name":"James Coburn","metadata":{"tmdb_movie_id":4808,"tmdb_character":"Tex Panthollow","tmdb_cast_order":3,"tmdb_movie_title":"Charade"}},{"id":10,"name":"Walter Matthau","metadata":{"speaker_id":"SPEAKER_4","tmdb_movie_id":4808,"speaker_method":"mar_lip_analysis","tmdb_character":"Hamilton Bartholemew","tmdb_cast_order":2,"tmdb_movie_title":"Charade","speaker_confidence":0.85}},{"id":9,"name":"Audrey Hepburn","metadata":{"speaker_id":"SPEAKER_1","tmdb_movie_id":4808,"speaker_method":"mar_lip_analysis","tmdb_character":"Regina Lampert","tmdb_cast_order":1,"tmdb_movie_title":"Charade","speaker_confidence":0.85}},{"id":8,"name":"Cary Grant","metadata":{"speaker_id":"SPEAKER_0","tmdb_movie_id":4808,"speaker_method":"mar_lip_analysis","tmdb_character":"Peter Joshua","tmdb_cast_order":0,"tmdb_movie_title":"Charade","speaker_confidence":0.85}}],"count":15,"page":1,"page_size":20}

View File

@@ -0,0 +1 @@
{"error":"Source identity not found"}

View File

@@ -0,0 +1 @@
{"error":"error returned from database: column \"identity_confidence\" of relation \"face_detections\" does not exist"}

View File

@@ -0,0 +1 @@
Query error: error returned from database: column "bbox" does not exist

View File

@@ -0,0 +1 @@
{"results":[],"query":"stolen fortune thriller"}

View File

@@ -0,0 +1 @@
{"error":"Search error: error returned from database: column f.pose_results does not exist"}

View File

@@ -0,0 +1 @@
{"results":[{"uuid":"unknown","chunk_id":"unknown","chunk_type":"","start_time":0.0,"end_time":0.0,"text":"","vector_score":0.7524489760398865,"bm25_score":0.0,"combined_score":6.067750513553619}],"query":"Paris apartment scene"}

View File

@@ -0,0 +1 @@
{"error":"error returned from database: column \"scene_order\" does not exist"}

View File

@@ -0,0 +1 @@
{"error":"error returned from database: column \"uuid\" does not exist"}

View File

@@ -0,0 +1 @@
{"results":[],"query":"Cary Grant as mysterious stranger"}

View File

@@ -0,0 +1 @@
Failed to deserialize the JSON body into the target type: criteria: missing field `required_classes` at line 1 column 56

View File

@@ -0,0 +1 @@
{"jobs":[{"id":132,"uuid":"417a7e93860d70c87aee6c4c1b715d70","status":"pending","current_processor":null,"progress_current":0,"progress_total":0,"created_at":"2026-05-05 15:07:51.891007+00","started_at":null},{"id":133,"uuid":"417a7e93860d70c87aee6c4c1b715d70","status":"pending","current_processor":null,"progress_current":0,"progress_total":0,"created_at":"2026-05-05 15:11:04.023419+00","started_at":null}],"count":2,"page":1,"page_size":20}

View File

@@ -0,0 +1 @@
{"file_uuid":"417a7e93860d70c87aee6c4c1b715d70","user":null,"group":null,"file_name":"Old_Time_Movie_Show_-_Charade_1963.HD.mov","duration":6879.329524,"overall_progress":0,"cpu_percent":4.5,"gpu_percent":null,"memory_percent":0.2,"memory_mb":29344,"system":{"cpu_idle_pct":50.0,"memory_available_mb":2949,"memory_total_mb":16384,"memory_used_pct":82.0,"gpu_available":false,"gpu_utilization_pct":null,"gpu_memory_used_pct":null,"dynamic_concurrency":2,"config_concurrency":2,"running_processors":2},"processors":[{"name":"asr","status":"pending","current":0,"total":0,"progress":0,"message":"","frames_processed":0,"chunks_produced":0,"retry_count":0},{"name":"cut","status":"pending","current":0,"total":0,"progress":0,"message":"","frames_processed":0,"chunks_produced":0,"retry_count":0},{"name":"asrx","status":"pending","current":0,"total":0,"progress":0,"message":"","frames_processed":0,"chunks_produced":0,"retry_count":0},{"name":"yolo","status":"pending","current":0,"total":0,"progress":0,"message":"","frames_processed":0,"chunks_produced":0,"retry_count":0},{"name":"ocr","status":"running","current":0,"total":0,"progress":0,"message":"","frames_processed":0,"chunks_produced":0,"retry_count":0},{"name":"face","status":"running","current":0,"total":0,"progress":0,"message":"","frames_processed":0,"chunks_produced":0,"retry_count":0},{"name":"pose","status":"completed","current":0,"total":0,"progress":0,"message":"","frames_processed":0,"chunks_produced":8191,"retry_count":0}]}

View File

@@ -0,0 +1 @@
{"rule":"story","supported_processor_ids":[],"active_jobs":[]}

View File

@@ -0,0 +1 @@
error returned from database: relation "resources" does not exist

View File

@@ -0,0 +1 @@
Failed to deserialize the JSON body into the target type: missing field `resource_id` at line 1 column 69

View File

@@ -0,0 +1 @@
Failed to deserialize the JSON body into the target type: missing field `resource_id` at line 1 column 22

View File

@@ -0,0 +1 @@
Failed to deserialize the JSON body into the target type: missing field `file_uuid` at line 1 column 22

View File

@@ -0,0 +1 @@
Failed to deserialize the JSON body into the target type: missing field `file_uuids` at line 1 column 35

View File

@@ -0,0 +1 @@
error returned from database: column "uuid" does not exist

View File

@@ -0,0 +1 @@
{"success":true,"agent_name":"Identity Agent","version":"1.0.0","supported_models":["gemma4","qwen3"],"default_thresholds":{"auto_merge_threshold":0.8,"llm_threshold":0.5,"face_similarity_threshold":0.3}}

View File

@@ -0,0 +1 @@
Face clustered data not found for video: 417a7e93860d70c87aee6c4c1b715d70

View File

@@ -0,0 +1 @@
Face clustered data not found for video: 417a7e93860d70c87aee6c4c1b715d70

View File

@@ -0,0 +1 @@
error returned from database: relation "file_identities" does not exist

View File

@@ -0,0 +1 @@
{"success":true,"translated_text":"你好,世界","source_language_detected":"unknown","model_used":"qwen3:latest"}

View File

@@ -0,0 +1 @@
Failed to deserialize the JSON body into the target type: missing field `enabled` at line 1 column 15

View File

@@ -0,0 +1 @@
{"ollama":{"engine":"Ollama","model":"nomic-embed-text","status":"ok","latency_ms":4,"error":null},"llama_server":{"engine":"llama-server","model":"gemma4_e4b_q5","status":"error","latency_ms":null,"error":"error sending request for url (http://localhost:8081/v1/models)"}}

View File

@@ -0,0 +1 @@
{"username":"demo","home_dir":"/Users/accusys/momentry/var/sftpgo/data/demo","files_count":103,"registered_videos":[{"uuid":"384b0ff44aaaa1f14cb2cd63b3fea966","file_name":"Old_Time_Movie_Show_-_Charade_1963.HD.mov","status":"failed"},{"uuid":"dd61fda85fee441fdd00ab5528213ff7","file_name":"ExaSAN PCIe series - Director Ou Yu-Zhi Shares His Experience.mp4","status":"failed"},{"uuid":"3e97fd717d518536771fab5d4a76b43d","file_name":"A12T3-Share-User Experience of Thunderbolt 3 Shareable Storage.mp4","status":"pending"},{"uuid":"9c02a43cf752735b2386536a944854a6","file_name":"Accusys Thunderbolt Share Storage at 2016 NAB.mp4","status":"failed"},{"uuid":"b62b2b05f7345d75568eed2363ac551e","file_name":"Accusys-WD_FilmRiot.mp4","status":"failed"},{"uuid":"1d5b574b4e6cbb2ead4ba5da5ff8c746","file_name":"Alice Comedies-Alice's Mysterious Mystery (1926).mp4","status":"failed"},{"uuid":"c4e4d53de3b678469e0fdf9d4c1fb257","file_name":"animal4.mp4","status":"failed"},{"uuid":"a4f2880616e82a03c862831fbcd3477b","file_name":"ExaSAN PCIe series - Director Ou Yu-Zhi Shares His Experience.mp4","status":"failed"},{"uuid":"8e2e98c49355935f662cf1fb23c37c91","file_name":"ExaSAN Webinar by Blake Jones, Vision2see.mp4","status":"failed"},{"uuid":"fe9542b6149643d3bf71e46bd2967267","file_name":"Gamma 8-Director Chih-Lin Yang Shares His Experience:楊智麟導演經驗分享.mp4","status":"failed"},{"uuid":"d261e9add96fbe4fa84abb5832989b64","file_name":"Gamma Carry Saves the World..mp4","status":"failed"},{"uuid":"cf711e5ee9edd60a827ef2f4f5807eec","file_name":"KOBA 2022 Interview SBU Accusys Storage.mp4","status":"failed"},{"uuid":"420f196bbab651616eb8ea49b74feabd","file_name":"Old Felix the Cat Cartoon.mp4","status":"failed"},{"uuid":"65d6a1e7d1c7606ca588a30137a0cc60","file_name":"steamboat-willie_1928.mp4","status":"failed"},{"uuid":"477d8fa7bc0e1a70d89cc0022b7ebfd2","file_name":"Thunderbolt ExaSAN at CCBN 中国国际广播电视信息网络展览会清.mp4","status":"failed"},{"uuid":"84470206e42e1622f8a299f0089172c1","file_name":"Top Colorist Blake Jones Speaks about the Gamma Carry.mp4","status":"failed"},{"uuid":"4583cd2c15844238ac2eefdc1241a3ba","file_name":"view13.mp4","status":"failed"},{"uuid":"e4bd8e594cb4824d15ab45522780c752","file_name":"view15.mp4","status":"failed"},{"uuid":"d5f6a63b1065f496ac3eca62d3c67416","file_name":"view28.mp4","status":"failed"},{"uuid":"7a80cb575b873b7eea99002a7e6cfa1d","file_name":"view7.mp4","status":"failed"},{"uuid":"80459593c892f50d271e2408a79b1391","file_name":"Walt Disney - 1925 - Alice the Toreador.mp4","status":"failed"},{"uuid":"6f10e2e58146425947f047948de7a11a","file_name":"Alice Comedies-Alice's Mysterious Mystery (1926).mp4","status":"failed"},{"uuid":"078975658e04529ee06f8d11cd7ba226","file_name":"Gamma 8-Director Chih-Lin Yang Shares His Experience:楊智麟導演經驗分享.mp4","status":"failed"},{"uuid":"0bfb7f3b8f529e806a8dc325b1e989f6","file_name":"Old Felix the Cat Cartoon.mp4","status":"failed"}],"last_login":null}

View File

@@ -0,0 +1 @@
{"status":"ok","version":"1.0.0","uptime_ms":81335}

View File

@@ -0,0 +1 @@
{"status":"ok","version":"1.0.0","uptime_ms":81366,"services":{"postgres":{"status":"ok","latency_ms":10,"error":null},"redis":{"status":"ok","latency_ms":0,"error":null},"qdrant":{"status":"ok","latency_ms":1,"error":null},"mongodb":{"status":"ok","latency_ms":0,"error":null}}}

View File

@@ -0,0 +1 @@
{"success":true,"message":"Login successful","api_key":"muser_test_001","user":{"username":"demo"}}

View File

@@ -0,0 +1 @@
{"success":true}

View File

@@ -0,0 +1 @@
{"success":true,"file_uuid":"417a7e93860d70c87aee6c4c1b715d70","file_name":"Old_Time_Movie_Show_-_Charade_1963.HD.mov","file_path":"/Users/accusys/test_video/Old_Time_Movie_Show_-_Charade_1963.HD.mov","metadata":{"format":{"size":"2361629896","bit_rate":"2746348","duration":"6879.329524","filename":"/Users/accusys/test_video/Old_Time_Movie_Show_-_Charade_1963.HD.mov","format_name":"mov,mp4,m4a,3gp,3g2,mj2"},"streams":[{"tags":{"language":"und","handler_name":"ISO Media file produced by Google Inc."},"index":0,"width":1920,"height":1080,"channels":null,"duration":"6879.255717","nb_frames":"412343","codec_name":"h264","codec_type":"video","sample_rate":null,"r_frame_rate":"60000/1001"},{"tags":{"language":"eng","handler_name":"ISO Media file produced by Google Inc."},"index":1,"width":null,"height":null,"channels":2,"duration":"6879.329524","nb_frames":"296268","codec_name":"aac","codec_type":"audio","sample_rate":"44100","r_frame_rate":"0/0"}]},"created_at":"2026-05-03T07:44:43.384236Z"}

View File

@@ -0,0 +1 @@
{"success":true,"file_uuid":"417a7e93860d70c87aee6c4c1b715d70","total":0,"page":1,"page_size":20,"data":[]}

Some files were not shown because too many files have changed in this diff Show More