自动旋转PDF的尝试

wils

创作者俱乐部成员

PDF里有的页面方向不对,尝试用脚本自动调整一下

代码如下:

🔔

pdftoppm -png a.pdf b

for i in $(ls *.png); do

tesseract "$i" - --psm 0 | awk '/^Rotate:/{system("mogrify -rotate "$2" '"$i"'")}'

done

convert b* c.pdf

rm b*

大概意思是:

  • 用pdftoppm将pdf提取成一系列png图片

  • 用tesseract识别图片中文字的方向,并用imagemagick将图片转正

  • 用imagemagick将png图片转为pdf

  • 删除临时的png图片

  • 与照片不同,照片的exif信息里有重力方向信息,软件可以读取这些信息进行自动旋转,pdf里的图片只好用tesseract识别文字方向来处理,不方便

  • 类似的简单脚本基本都可以让ai来写,大概知道要干啥就行🤣


处理速度有点慢,且需要优化的地方不少,不过至少说明这条路能走得通

海南省
浏览 254
收藏
1
分享
1 +1
3
+1
全部评论 3
 
为什么不直接转???
· 福建省
回复
wils

创作者俱乐部成员

有时候方向不确定,页数不确定,所以想识别后自动转 不过确实,不该用图片再转回pdf,应该识别方向后直接调整pdf,应该改一下
· 海南省
回复