如何啟用 DVB 與圖像字幕擷取

RBoy · 2017年06月30日19:03

MCEBuddy 可以使用 OCR（光學字元辨識）自動將基於影像的字幕（例如 DVB 或內嵌字幕）轉換為文字字幕 (SRT)。此功能需要下載額外的檔案，因為 OCR 處理需要非常大的資料檔案（約 1 GB），無法包含在 MCEBuddy 安裝檔案中。

MCEBuddy 2.7.1 及更新版本

如果 MCEBuddy 安裝完成後有可用的網際網路連線，OCR 檔案將會自動下載並安裝。

MCEBuddy 2.6.2 至 2.6.6 版本：安裝期間，自動下載並安裝所需的 OCR 附加元件檔案的選項預設為啟用。如果您不希望自動下載和安裝 OCR 附加元件檔案，可以將其停用。

如果由於缺乏網際網路連線導致下載失敗，或者您在安裝過程中未選擇自動安裝，您可以隨時在「轉換任務」頁面中點擊 Install OCR add-on 連結來觸發 OCR 附加元件檔案的自動重新安裝，如下所示：

InstallOCR add-on 顯示為灰色表示附加元件檔案已安裝。點擊文字可重新下載並重新安裝它們（約 500MB 下載）
Install OCR add-on 顯示為紅色表示附加元件檔案尚未安裝。點擊文字以下載並安裝它們（約 500MB 下載）

請確保在「轉換任務 - > 進階設定」中啟用了 儲存字幕 或 內嵌字幕 選項，以便使用 OCR 擷取和處理字幕。

MCEBuddy 2.4.7 至 2.6.1 版本

您需要按照以下說明手動下載並安裝 OCR 檔案。

請遵循以下程序來啟用 OCR 和影像轉文字字幕轉換，以從錄影中擷取 DVB 和其他基於影像的字幕。

從 https://github.com/tesseract-ocr/tessdata/archive/3.04.00.zip 下載 OCR 檔案

解壓縮 zip 檔案 (tessdata-3.04.00.zip) 的內容。它應該會建立一個名為 tessdata-3.04.00 的資料夾，其中包含 100 多個 traineddata 檔案。請確保沒有子資料夾。它應該看起來像 tessdata-3.04.00\\<100+ traineddata 檔案>

將 tessdata-3.04.00 資料夾移動到 MCEBuddy 安裝目錄下的 ccextractor 目錄內：<MCEBuddy 安裝目錄>\ccextractor\

例如：將 tessdata-3.04.00 移動到 C:\Program Files\MCEBuddy2x\ccextractor\

將 tessdata-3.04.00 目錄重新命名為 tessdata。重要提示：不要遺漏此步驟，否則 OCR 將無法運作

因此，您的最終設定應如下所示：<MCEBuddy 安裝目錄>\ccextractor\tessdata\<100+ traineddata 檔案>
例如：C:\Program Files\MCEBuddy2x\ccextractor\tessdata\<100+ traineddata 檔案>

請確保您已在轉換任務進階設定中啟用了 擷取字幕和隱藏式字幕 選項，這樣您就可以開始使用了！它將擷取並轉換基於影像的字幕為文字 SRT 檔案。盡情享受吧！

2.4.7 之前的版本不支援 OCR

John_Freiman · 2020年11月16日01:43

Tessdata 4.x 或 5.x（alpha）是否受 MCEBuddy 支援？能否以相同方式/位置安裝？

在 4 與 5 版本的更新中，都含有額外的子資料夾。

Goose · 2020年11月16日17:49

Tessdata 由 ccExtractor 使用，目前尚不支持 4.x 或 5.x

John_Freiman · 2020年11月17日02:10

很高興知道，謝謝你。這幫我省了很多時間。

erinsfun · 2023年01月30日16:12

我下载了压缩文件，但它是空的。我会再试一次。

erinsfun · 2023年01月30日17:04

得裝 7-Zip，Windows 解壓不了。

Goose · 2025年09月30日18:33

更新，从 2.7.1 版本开始，MCEBuddy 将支持 Tesseract 4.x 和 5.x 的 tessdata。默认下载的 tessdata 文件仍将是 3.04 的，因为在我们的测试中，我们发现这些文件最适合用于烧录在视频和图像字幕中的 OCR，但如果您有兴趣，可以尝试使用您自己的 tessdata 训练文件。

注意事项：

默认始终是 PSM 模式 3，但在使用 4.x 和 5.x 的 tessdata 时，OEM 模式将切换到 LTSM，在使用 3.x 的 tessdata 时切换到 LEGACY
所有版本的目录结构保持不变，所有训练数据文件应放置在如上所述的名为 tessdata 的文件夹中

如果您发现使用不同的 PSM 或 OEM 模式效果更好，请告知我们详细信息和样本，我们将研究允许用户自定义这些模式。

以下是一些与 Tesseract 4.x 和 5.x 兼容的 tessdata 训练文件的链接，这些文件已与 MCEBuddy 进行了测试：

話題		回覆	觀看
Extract subtitles stored as Teletext Subtitles / Closed Captions	7	2846	2018年12月24日
Extracting DVB using ccextractor New Features subtitles	7	3353	2019年03月13日
Cannot get subtitles embedded into MKV files Subtitles / Closed Captions	4	981	2020年06月07日
Unable to Retrieved Closed captions Subtitles / Closed Captions	22	138	2025年10月01日
How to hard code foreign subtitles Subtitles / Closed Captions	3	1498	2019年02月26日

如何啟用 DVB 與圖像字幕擷取

MCEBuddy 2.7.1 及更新版本

MCEBuddy 2.4.7 至 2.6.1 版本

Related topics