OCR 在“OCR语言设置”中的全称是:
Optical Character Recognition中文名称:光学字符识别(也常称为文字识别)
简单解释什么是 OCR?#
OCR 是一种人工智能 + 图像处理技术,它的主要功能是:
从图片、扫描件、照片、PDF 图像中,自动识别出里面的文字。
把图像里的文字转换成可编辑、可搜索、可复制的机器可读文本。
常见应用场景:
把纸质文档扫描后转成可编辑的 Word
识别身份证、发票、名片上的文字
提取图片里的文字(例如截图、书本照片)
视频字幕识别
文档数字化处理(企业常用)
PDF 转可搜索 PDF
“OCR语言设置”是什么意思?#
OCR语言设置 是指你在使用 OCR 功能时,告诉系统当前要识别的文字主要是什么语言。
为什么要设置语言?
不同语言的文字特征差别很大(例如中文是方块字,英文是字母,阿拉伯文是连笔)。
设置正确的语言可以大幅提高识别准确率,减少错别字。
如果不设置,很多 OCR 工具会默认使用英文,导致中文、日文、韩文等识别效果很差。
常见语言代码示例(不同工具略有差异):
chi_sim 或 zh → 简体中文
chi_tra 或 zh-TW → 繁体中文
eng → 英文
jpn → 日文
kor → 韩文
auto 或留空 → 自动检测语言(部分高级工具支持)