🗒️OCR识别PDF环境部署流程
type
status
date
slug
summary
tags
category
icon
password
URL
以下是针对PDF(主要针对图片型)识别功能的使用环境部署流程
Python环境准备
升级PIP
如果已经安装最新版pip,则可以跳过该步骤。
安装PaddlePaddle
安装PaddleOCR
升级setuptools
编译升级GCC
libstdc++.so.6 版本过低
在部署使用过程中遇到脚本报错
ImportError: /lib64/libstdc++.so.6: version 'CXXABI_1.3.8' not found
,发现是libstdc++.so.6版本太低导致,必须编译升级GCC才行查看libstdc++.so.6版本
如果输出如下:
可以看到确实缺失CXXABI_1.3.8
编译GCC
- 安装依赖库
yum install -y gmp-devel mpfr-devel libmpc-devel
- 下载源码包
http://ftp.gnu.org/gnu/gcc/gcc-9.2.0/gcc-9.2.0.tar.xz
- 解压缩
- configure
- make (注意,这个非常耗时,加 -j4 的意思就是4线程编译。如果你有4核,就会占满,导致CPU打满,服务报警,所以看情况用)
链接lib
安装库文件
安装 Mesa OpenGL 实现库,否则会报错
ImportError: libGL.so.1: cannot open shared object file: No such file or directory
修改配置代码
修改paddleocr代码
由于paddleocr默认会输出
Fused 0 subgraphs into layer_norm op
类似的日志,而这些日志会影响执行,目前没有找到通过配置的方式修改实现,所以需要修改代码然后执行
:/switch_ir_optim
搜索switch_ir_iroptim,将config.switch_ir_optim(True)
中的True改为False参考文档
https://www.byyui.com/article/gm-convert-pdf-in-linux-with-gs.html
Loading...