橙色云资讯 - 工业互联网行业信息门户

图像处理 | 用OpenCV实现页面扭曲矫正

计算机视觉与机器学习 2021-11-23

文本分析 jpg 图像识别

1257 字丨阅读本文需 8 分钟

计算机视觉｜机器视觉｜机器学习｜深度学习

编者荐语

随着移动摄像终端数量剧增，随手拍照已成为一种对文档进行数字化记录的普遍方式，由于手持移动设备摄像的特殊性，文本成像常存在多种类型的形变叠加，这不可避免对文本图像识别造成极大干扰。

提醒：文末送书《OpenCV图像处理入门与实践》！

Requirements：

scipy

OpenCV 3．0 or greater

Image module from PIL or Pillow

前言

二十世纪六十年代兴起的OCR（Optical Character Recognition，光学字符识别）技术，使得文档能以图像的形式被分析与识别，一定程度上实现了文本识别的自动化。然而，文档图像识别效果的优劣与其质量有着密切的联系，其中几何质量更为重中之重。随着移动摄像终端数量剧增，随手拍照已成为一种对文档进行数字化记录的普遍方式，由于手持移动设备摄像的特殊性，文本成像常存在多种类型的形变叠加，这不可避免对文本图像识别造成极大干扰。因此，文本图像的畸变矫正一直是伴随着OCR的一个重点研究方向。

最近发现了一篇很有意思的关于页面扭曲矫正的内容，为了让大家有一个相关的概念，下面先预览一下效果图。

页面扭曲矫正的原理

作者写这篇文章的目的也很有意思，因为作者的妻子是一个老师，她的学生经常要发一些图片的作业给她，但是难免由于拍照技术和条件等各种原因，导致批改作业的难度提升，因此作者为了他的老婆，做出来了这一套方案。（爱的魔力）。

对于一些经典的文本矫正的思路（例如Leptonica dewarping method 和 the CTM method）将问题分解为：

1．将文本分成几行线

2．找到使得线平行和水平的映射或坐标变换

本文作者同样采用了类似的思路，构建了一个参数模型用于页面（文本）的矫正，模型主要考虑的参数：

页面在三维空间中的旋转向量 r和平移向量 t

指定页面表面的两个曲率 α and β

页面上n个水平跨度的垂直偏移

对于每个跨度，水平跨度中 m个点的水平偏移量

对于上面的一些参数，本人的理解是页面扭曲存在这旋转和偏移的变换，因为把文本内容分成几行，因此将每一行文本看成是一条曲线，这里假设扭曲后变成三次样条曲线，由两个系数 a 和 b 控制。垂直偏移是指分割后的每行之间的距离，水平偏移是指对每条线上设置点，用于后续的矫正变换处理。

接下来的操作就非常牛了，作者通过对页面进行模拟，设置不同参数用于观察其中的规律

最后作者发现当设置的参数固定后，页面上的每个关键点都能在图片的平面内找到确定的对应点。

红色的是文本上检测到的关键点，蓝色的是通过模型的重投影的点。左图的蓝色点都是共线的（假设一开始文本是直线的），而右图是将确定页面的姿态／形状，使得蓝色点几乎上红色点上。

实现的细节

上面是大致的实现原理，接下来是作者实现功能的主要步骤：

1、获取页面的边界。这里并不是采用整幅图去处理，而是非常的巧妙采用内部文本内容以及文本与边界大致距离去确定页面的边界。

2、检测文本的轮廓。通过自适应阈值——＞膨胀＋腐蚀——＞连通区域分析＋PCA来近似文本

3、将文本组成跨度。

4、样本跨度。在每个跨度上生成代表性点。

5、创建初始参数估计。实现投影到图片平面内。

6、优化！使重投影的误差变小

7、重新映射图片和阈值。

总结

对于这种页面扭曲校正，百度搜索出来的相关内容不多，这篇文章写的比较仔细，具体的实现步骤也很清晰，便将它分享出来，对于内容的理解由于本人水平有限，可能会存在一定的偏差，如有错误欢迎大家在留言区批评指正，以免误导更多的同学。

该项目使用起来并不复杂，但是由于作者尽针对这种已知的问题进行处理，对于其他情况的文本，以及变形过大的矫正效果可能并不理想。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：计算机视觉与机器学习

0 0

参与评论

登录后参与讨论 0/1000

下一篇使用OpenCV+Python进行人脸识别

先决条件对图像分类的基本理解Python 和深度...

2021-09-01

图像处理 | 用OpenCV实现页面扭曲矫正

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

图像处理 | 用OpenCV实现页面扭曲矫正

参与评论

为你推荐

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

“赢在南京·创业金陵”科技创新创业大赛圆满举行|北京·活动

方大九钢携手图扑软件：数字孪生”高精尖“智慧钢厂

拆解报告：Acer宏碁蜂鸟Swift3笔记本原装65W充电器ADP-65WWA

机器人产业全面分析（七）：移动四类四技术，全球波士顿中国振华极智嘉！

2021年度科技大事件回顾（下）| OFweek维科号精选文章

新三板蓝耘科技：伪科技伪成长的骗子股

C++版OpenCV里的机器学习

独角兽机器人发布！小鹏汽车葫芦里卖的什么药？

江特电机与国轩高科拟在电池级碳酸锂领域开展合作

全球最大塔机智能工厂开园 拥有100多台工业机器人

一步到位，博图TIA下载、安装、仿真、授权

5G千兆工业路由器 poe供电

亚马逊在印度推出一款 4K 智能电视

E资讯：直击首届CTIS——消费者科技及创新展览会

旅行出差必备的充电宝，Nank南卡无线充电宝POW2评测

ADI公司AD7380系列SAR ADC的片内过采样

【硕博之家】基于手绘草图的树叶种类识别

试驾体验全新奥迪A3 Sportback：绝不是单纯的换壳高尔夫这么简单

咕咚小魔瘦体脂秤，科学健身的小帮手，随时全面了解健康状况

使用Python的人脸识别系统

手机防水处理的百亿赛道 | 行业

政策重拳出击！公共场所人脸识别或全面被禁，基于AI的生物识别都犯了哪些“罪状”？

董明珠的“2020直播纪事”

美国可再生能源数据书2018（强烈推荐）

CNN结构演变总结（一）经典模型

一周热点，带你速览科技资讯 | OFweek维科号精选文章

爆文激励计划8月期榜单 | OFweek维科号榜单

使用LBPH算法理解人脸识别

图神经网络入门

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

全球最大塔机智能工厂开园拥有100多台工业机器人