OCR 在“OCR语言设置”中的全称是:

Optical Character Recognition中文名称光学字符识别(也常称为文字识别)

简单解释什么是 OCR?#

OCR 是一种人工智能 + 图像处理技术,它的主要功能是:

  • 图片、扫描件、照片、PDF 图像中,自动识别出里面的文字

  • 把图像里的文字转换成可编辑、可搜索、可复制的机器可读文本。

常见应用场景

  • 把纸质文档扫描后转成可编辑的 Word

  • 识别身份证、发票、名片上的文字

  • 提取图片里的文字(例如截图、书本照片)

  • 视频字幕识别

  • 文档数字化处理(企业常用)

  • PDF 转可搜索 PDF

“OCR语言设置”是什么意思?#

OCR语言设置 是指你在使用 OCR 功能时,告诉系统当前要识别的文字主要是什么语言

为什么要设置语言?

  • 不同语言的文字特征差别很大(例如中文是方块字,英文是字母,阿拉伯文是连笔)。

  • 设置正确的语言可以大幅提高识别准确率,减少错别字。

  • 如果不设置,很多 OCR 工具会默认使用英文,导致中文、日文、韩文等识别效果很差。

常见语言代码示例(不同工具略有差异):

  • chi_sim 或 zh → 简体中文

  • chi_tra 或 zh-TW → 繁体中文

  • eng → 英文

  • jpn → 日文

  • kor → 韩文

  • auto 或留空 → 自动检测语言(部分高级工具支持)