OCR | Hardy Blog

OCR 在“OCR语言设置”中的全称是：

Optical Character Recognition中文名称：光学字符识别（也常称为文字识别）

简单解释什么是 OCR？#

OCR 是一种人工智能 + 图像处理技术，它的主要功能是：

从图片、扫描件、照片、PDF 图像中，自动识别出里面的文字。
把图像里的文字转换成可编辑、可搜索、可复制的机器可读文本。

常见应用场景：

把纸质文档扫描后转成可编辑的 Word
识别身份证、发票、名片上的文字
提取图片里的文字（例如截图、书本照片）
视频字幕识别
文档数字化处理（企业常用）
PDF 转可搜索 PDF

“OCR语言设置”是什么意思？#

OCR语言设置 是指你在使用 OCR 功能时，告诉系统当前要识别的文字主要是什么语言。

为什么要设置语言？

不同语言的文字特征差别很大（例如中文是方块字，英文是字母，阿拉伯文是连笔）。
设置正确的语言可以大幅提高识别准确率，减少错别字。
如果不设置，很多 OCR 工具会默认使用英文，导致中文、日文、韩文等识别效果很差。

常见语言代码示例（不同工具略有差异）：

chi_sim 或 zh → 简体中文
chi_tra 或 zh-TW → 繁体中文
eng → 英文
jpn → 日文
kor → 韩文
auto 或留空 → 自动检测语言（部分高级工具支持）