怎么用Python和Tesseract识别图片文字

文章归档

高防资讯

联系我们

电话：400-808-5836

MSN ：huad@live.com

客服QQ：4698328 9291215

咨询邮箱：sales@fobhost.com

售后：services@fobhost.com

https://www.gaofangfuwuqi.com/

新闻资讯

首页新闻资讯怎么用Python和Tesseract识别图片文字

怎么用Python和Tesseract识别图片文字

发布时间：2021-11-24 17:57:33 来源：高防服务器网阅读：92 作者：小新栏目：大数据

这篇文章给大家分享的是有关怎么用Python和Tesseract识别图片文字的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

安装

Linux 和 Mac 平台的安装非常简单，直接命令行安装即可，默认只有英文语言包，汉语包需要额外指定

sudo apt-get install tesseract-ocr  # ubuntu

brew install tesseract  # macOS

Windows 平台需要二进制安装包，官方下载地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows，安装时需要选择中文语言包才是识别汉字

配置

安装完成后，需要设置两个环境变量 $PATH 和 $TESSDATA_PREFIX，如果不指定后面会报错，把 tessertact 的安装路径加入 PATH 变量中，TESSDATA_PREFIX 变量的值指定为语言包的路径

实战

Python-tesseract 是 tessertact 的 Python 封装包，它需要依赖图片处理库 PIL（Pillow），环境搭建完成后就可以开始做定制化开发了。

以下我以杜甫的《登高》作为 demo 从中提取出其中的文字

# pip install pytesseract 先安装依赖包
try:
    import Image
except ImportError:
    from PIL import Image
import pytesseract
# lang 指定中文简体
text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
print(text)

输出结果：

风急天高猿哨哀 , 渚清沙白鸟飞回。无边落木萧萧下 , 不尽长江滚滚来。万里悲秋常作客 , 百年多病独登台。艰难苦恨繁霜鬓 , 漫倒新停浊酒杯。

感谢各位的阅读！关于“怎么用Python和Tesseract识别图片文字”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

[微信提示：高防服务器能助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。

[图文来源于网络，不代表本站立场，如有侵权，请联系高防服务器网删除]
[