位置: 编程技术 - 正文

基于Python实现对PDF文件的OCR识别(利用python进行)

编辑:rootadmin

推荐整理分享基于Python实现对PDF文件的OCR识别(利用python进行),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于python的数据处理案例,基于python的,基于python的,基于python语言,基于python的数据处理案例,利用python进行,基于python语言,利用python进行,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是,有许多出色的Python接口。

我们采用最新的一个:

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

基于Python实现对PDF文件的OCR识别(利用python进行)

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先,我们需要导入一些重要的库:

注意:我将从PIL导入的Image模块改名为PI了,因为如果不这样做的话,它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。

标签: 利用python进行

本文链接地址:https://www.jiuchutong.com/biancheng/386253.html 转载请保留说明!

上一篇:利用Python实现命令行版的火车票查看器(pytho命名规则)

下一篇:Python脚本处理空格的方法(如何用python编写脚本处理数据)

  • 水利建设基金按照增值税征收
  • 外出办事车费计入什么科目
  • 营销活动,单位让现场观众抽现金奖如何入账?
  • 企业要本地迁往隔壁县区,税务要注销吗
  • 建筑业差额纳税怎么算
  • 资产处置损益属于当期损益吗
  • 减半征收的印花税缴纳所得税吗
  • 商品和服务税收分类编码
  • 信用减值损失贷方
  • 出售本月转入处置的固定资产应交税费
  • 完税凭证和发票一起打印
  • 收取物业费不开发票举报电话
  • 固定资产并账
  • 收到增值税专用发票是已经付款了吗
  • 税局代开的法律顾问费能否抵扣
  • 免税农产品收入是否计入30万销售额
  • 增值税发票抵扣期限最新规定
  • 递延收益现金流量附表项目
  • 对公提回贷算收入吗
  • 以前年度记账错误
  • 主营业务收入少记跨年怎么办
  • 其他应收款社保个人部分分录
  • 升级鸿蒙系统后
  • 签证费入什么科目
  • 或有事项基本确定
  • 逆流交易合并报表调整少数损益
  • 收到收据的会计分录
  • win7系统电脑开机密码忘记了怎么办
  • php常用设计模式(大总结)
  • bhvc.exe
  • 如何利用http协议发布博客园博文评论
  • php获取ip客户端ip地址
  • yolov5最新版
  • 金融企业呆账核销管理办法
  • 长期待摊费用的会计分录
  • php输出对象
  • ai绘画图片
  • 工程项目会计怎么样
  • bind函数错误
  • php点运算符
  • 行政单位收到银行的存款
  • 金税服务费必须交吗
  • 如何解决在大学的压力英语作文
  • mongodb安装教程图解
  • 个人独资企业计提的各种准备金支出不得扣除
  • 个人社保信息变更流程
  • 金蝶kis专业版仓存期末结账
  • 个体工商户增值税申报操作流程
  • 本月购进原材料取得增值税专用发票
  • 补缴的土地价款怎么算费用
  • 查账征收和核定征收有什么区别
  • 购进固定资产的账务处理
  • 进口关税免征
  • 实收资本 增加
  • 赠品视同销售价格如何确定?
  • 电商会计怎么做账
  • 公众号注册验证退款
  • 离职员工代缴社保协议
  • 支付厂房租赁费现金流
  • 公司厂房房产税计税依据最新
  • 转账到银行卡是从哪转的
  • 汽车折旧计算方法2023折旧率
  • redhat server
  • win7开机taskeng
  • win7中文显示问号
  • win10无法进入休眠状态的原因
  • win7系统网络连接禁用怎么开启
  • windows更新后桌面没反应
  • win7如何设置多用户
  • win10如何移动应用程序
  • Unity3D游戏开发培训课程大纲
  • cocos2dx 4.0
  • 使用jquery实现的项目
  • cmd nul
  • jq写css样式
  • 简单的jquery插件实例
  • python脚本运行命令
  • javascript基础入门教程
  • 国税总局云南省税务局官网
  • 个人领税票需要哪些资料
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设