Files
momentry_core/scripts/ASR_USAGE.md
Warren 8f05a7c188 feat: update Python processors and add utility scripts
- Update ASR, face, OCR, pose processors
- Add release pre-flight check script
- Add synonym generation, chunk processing scripts
- Add face recognition, stamp search utilities
2026-04-30 15:07:49 +08:00

3.5 KiB
Raw Blame History

ASR 處理器使用指南

正式採用版本

正式處理器:asr_processor_small.py

適用場景

  • 正式生產環境
  • 台灣腔調內容
  • 多語言內容(英語、法語等)
  • 專業詞彙識別(剪輯師、調光師等)
  • 長影片處理

使用方式

python3 scripts/asr_processor_small.py video.mp4 output.json

特點

  • 台灣腔調準確度 90%
  • 多語言自動識別90+ 語言)
  • 專業詞彙識別最佳
  • 長影片處理穩定7.3x 實時)
  • ⚠️ 處理時間 ~50 秒(短影片) / ~15 分鐘114 分鐘長片)

快速預覽:asr_processor.pytiny 模型)

適用場景

  • 快速測試流程
  • 不關心準確度
  • 僅需了解大致內容

使用方式

python3 scripts/asr_processor.py video.mp4 output.json

特點

  • 處理時間 ~12 秒
  • ⚠️ 準確度 70%
  • ⚠️ 不適合正式處理

測試結果總結

短影片測試ExaSAN2.6 分鐘)

模型 時間 片段 剪輯師識別 建議
tiny 12.68s 78 簡吉斯 快速預覽
base 24.01s 61 簡吉斯 不推薦
small 49.74s 83 剪輯師 正式採用

長影片測試Charade 1963114 分鐘)

模型 時間 片段 英語 法語 建議
small 15.6 分鐘 2,025 99% 95% 正式採用

檔案清單

scripts/
├── asr_processor.py                   # tiny 模型(快速預覽)
├── asr_processor_base.py              # base 模型(備用)
├── asr_processor_small.py             # small 模型(正式處理)⭐
├── asr_processor_small_multilingual.py # small 多語言版(備用)
├── compare_asr_models.py              # 比對工具
├── ASR_PROCESSOR_README.md            # 詳細說明
└── ASR_USAGE.md                       # 本文件

使用範例

正式生產

# 影片上傳後正式處理
python3 scripts/asr_processor_small.py \
  "/Users/accusys/momentry/var/sftpgo/data/demo/video.mp4" \
  "/path/to/output.json"

快速測試

# 快速測試流程
python3 scripts/asr_processor.py \
  "/Users/accusys/momentry/var/sftpgo/data/demo/video.mp4" \
  "/tmp/test.json"

比對分析

# 對比三個模型效果
python3 scripts/compare_asr_models.py \
  /tmp/asr_tiny.json \
  /tmp/asr_base.json \
  /tmp/asr_small.json > /tmp/comparison.md

關鍵發現

台灣腔調識別

small 模型是唯一正確識別的模型

  • 剪輯師(正確)
  • 簡吉斯tiny/base 錯誤)

多語言識別

small 模型自動支援 90+ 語言

  • 英語99%
  • 法語95%
  • 自動切換:無縫

長影片處理

效能優異

  • 114 分鐘影片15.6 分鐘處理
  • 7.3x 實時速度
  • 記憶體使用穩定
  • 2,025 個片段

決策

正式採用:asr_processor_small.py

理由

  1. 台灣腔調識別最佳
  2. 多語言自動支援
  3. 長影片處理穩定
  4. 專業詞彙準確度高
  5. 性價比合理50 秒/短影片15 分鐘/長片)

聯絡與反饋

如有問題或需要進一步優化,請參考:

  • 詳細說明:ASR_PROCESSOR_README.md
  • 測試報告:/tmp/asr_comparison.md
  • 長影片報告:/tmp/asr_small_long.json