Python实现文字pdf转换图片pdf效果
时间:2023-01-31 09:04:57|栏目:Python代码|点击: 次
前言
为什么会做这个?
因为我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。
网上确实也有网站可以实现免费的,但是未必安全。
思路
我看了网上的很多代码,都是先把文字pdf先转化为图片,然后再组装成pdf文档。我的思路也是这样的。
但是我和他们很大的不一样就是,我不需要先把图片保存起来再提取,而我只需要把图片的信息先存起来,再输出pdf。
代码展示
先安装依赖
pip install PyMuPDF
输入文件列表
import os import fitz def single_wordpdf_to_imgpdf(pdf_path: str): pdf = fitz.open(pdf_path) # 打开pdf目录 pdf_img = fitz.open() # 打开空文件,用来存图片pdf for page_inf in pdf: definition = 3 # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大 matrix = fitz.Matrix(definition, definition) img = page_inf.get_pixmap(matrix=matrix).tobytes() img = fitz.open("png", img) pdf_bytes = img.convert_to_pdf() pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes)) pdf_img.save("图片pdf_" + os.path.basename(pdf_path)) def group_wordpdf_to_imgpdf(path_array: list[str]): for pdf_path in path_array: print(pdf_path, "转换中...") single_wordpdf_to_imgpdf(pdf_path) print("完成") if __name__ == '__main__': path = ["xxx.pdf"] group_wordpdf_to_imgpdf(path)
输入文件夹
import os import fitz import time def single_wordpdf_to_imgpdf(pdf_path: str): pdf = fitz.open(pdf_path) # 打开pdf目录 pdf_img = fitz.open() # 打开空文件,用来存图片pdf for page_inf in pdf: definition = 3 # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大 matrix = fitz.Matrix(definition, definition) img = page_inf.get_pixmap(matrix=matrix).tobytes() img = fitz.open("png", img) pdf_bytes = img.convert_to_pdf() pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes)) if not os.path.exists("output"): os.makedirs("output") # 处理好的pdf存入了output目录下 # pdf_img.save("output/图片pdf_" + os.path.basename(pdf_path)) def group_wordpdf_to_imgpdf(path_array: list[str]): for pdf_path in path_array: print(pdf_path, "转换中...") single_wordpdf_to_imgpdf(pdf_path) print("完成") def folder_pdf_files(folder: str) -> list[str]: # 一个文件夹里面有多少pdf文件 file_list = [] for a, b, c in os.walk(folder): if b == []: for filename in c: if filename[-3:].lower() == 'pdf': file_path = os.path.join(a, filename) file_list.append(file_path) print(folder, ": 有", len(file_list), "个pdf文件") return file_list if __name__ == '__main__': time_start = time.time() path_list = folder_pdf_files("目录") group_wordpdf_to_imgpdf(path_list) time_end = time.time() print("程序运行时间:", round(time_end - time_start, 2), "秒")
上一篇:Tensorflow tensor 数学运算和逻辑运算方式
栏 目:Python代码
下一篇:Python爬虫Scrapy框架IP代理的配置与调试
本文地址:http://www.codeinn.net/misctech/224816.html