1. 功能介绍

选择两个pdf指定的页码并合并成一个文
选择一个指定的pdf文件，并指定页码，将指定的页码提取出来，可以用’，‘和’-‘分割
选择一个pdf文件，将其内容转换为word文件。
选择一个pdf文件将其表格转换为excel文件

2.项目难点

1. tkinter设置图标显示

tkinter设置图标显示可以使用TK.iconbitmap(‘pdf.ico’)函数实现。
但是在打包成一个exe文件之后，就无法实现了。
可以将ico文件通过base64模块的base64decode()将ico文件转换成数据流，然后创建一个新的py文件来保存成一个参数。如此在使用过程中通过再将base64数据转换成一个ico文件，再引用即可。

import base64open_icon = open("image/pdf.ico", "rb")
b64str = base64.b64encode(open_icon.read())
open_icon.close()
write_data = "img = %s" % b64str
# write_data = b64str
with open("icon.icon", "w+") as f:f.write(write_data)

引用base64数据，生成一个ico文件并在系统中引用

import ctypes
import tkinter as tk
import base64
import os
from icon import imgif __name__ == "__main__":# 以下两句代码用于将windows的任务栏图标设置为跟程序icon一样。myappid = "company.product.version"  # 这里可以设置任意文本ctypes.windll.shell32.SetCurrentProcessExplicitAppUserModelID(myappid)window = tk.Tk()window.title = "testicon"window.geometry("800x400")window.resizable(0, 0)img_data = base64.b64decode(img)with open("pdf.ico", "wb+") as fw:fw.write(img_data)window.iconbitmap("pdf.ico")os.remove("pdf.ico")window.mainloop()

3. 源代码

#!python
# author:kunta
# date: 2022-09
# version 1.1.0
# description: this software have 4 function
# 1. 选择两个pdf指定的页码并合并成一个文件,未指定页码则完全合并两个文件
# 2. 选择一个指定的pdf文件，并指定页码，将指定的页码提取出来，可以用’，‘和’-‘分割
# 3. 选择一个pdf文件，将其内容转换为word文件。
# 4. 选择一个pdf文件将其表格转换为excel文件。# date 2022-10
# version 2.0
# 本版本增加PDFOCR识别功能。import tkinter as tk
from tkinter import ttk, HORIZONTAL
from tkinter import filedialog
from tkinter import messagebox
from tkinter import Button, Label, StringVar, IntVar
from tkinter.ttk import Separator
from tkinter import RAISED
from PyPDF2 import PdfReader, PdfMerger, PdfWriter
from functools import partial
from pdf2docx import Converter
import pdfplumber as ppm
import pandas as pd
import ctypes
from icon import img   # 将pdf.ico图片转换成base64文件并作为img变量保存到icon.py中。
import openpyxl
import cv2
import os
import base64# 读取合并文件的第一个选择框内容
def askfile1():# 打开文件选择器，并筛选出pdf文件filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])if filename is None:entry1.insert(0, '您没有选择任何文件！')else:entry1.delete(0, "end")     # 选择文件之后，将entry1输入框的内容清空。entry1.insert(0, filename)  # 然后将选择的文件全路径插入到entry1输入框中# 读取合并文件的第二个选择框内容
def askfile2():filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])if filename is None:entry2.insert(0, '您没有选择任何文件！')else:entry2.delete(0, "end")entry2.insert(0, filename)# 读取分割文件选择框内容
def askfile3():filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])if filename is None:entry3.insert(0, '您没有选择任何文件！')else:entry3.delete(0, "end")entry3.insert(0, filename)# 读取pdf转word选择框内容
def askfile4():filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])if filename is None:entry4.insert(0, '您没有选择任何文件！')else:entry4.delete(0, "end")entry4.insert(0, filename)# 读取pdf转Excel选择框内容
def askfile5():filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])if filename is None:entry5.insert(0, '您没有选择任何文件！')else:entry5.delete(0, "end")entry5.insert(0, filename)# 将两个pdf文件进行合并
def pdfmerger():# print(filename)filename1 = entry1.get()filename2 = entry2.get()file1 = PdfReader(filename1)file2 = PdfReader(filename2)mergerfile = PdfMerger()# 如果用户输入的正确的页码范围，则合并用户输入的页码范围，如果用户输入的页码范围不正确，则将两个文件完全合并try:page11 = int(entry11.get()) - 1page12 = int(entry12.get())page21 = int(entry21.get()) - 1page22 = int(entry22.get())if page11 < 0 or page12 < 0 or page21 < 0 or page22 < 0 or page11 > page12 or page21 > page22 or page12 > len(file1.pages) or page22 > len(file2.pages):messagebox.showerror(title='错误消息', message="请输入正确的页码")returnmergerfile.append(file1, pages=(page11, page12))mergerfile.append(file2, pages=(page21, page22))except:mergerfile.append(file1)mergerfile.append(file2)with open('merger.pdf', 'wb') as outputstream:mergerfile.write(outputstream)messagebox.showinfo(title='文件合并完成', message="文件合并完成，合并后文件名称为msrger.pdf")# print(test1)# 将pdf文件的内容页面进行提取
def pdfspilit():filename = entry3.get()page31 = entry31.get()# page32 = int(entry32.get())file3 = PdfReader(filename)pagelist = []pages = page31.replace(" ", "").split(",")# pages.pop()print("pages:", pages)for i in pages:if i.isdigit():pagelist.append(int(i))else:if i == "":breakrep1 = i.replace('-', ",")rep2 = rep1.split(",")# i = list(i)print("i:", i)for j in range(int(rep2[0]), int(rep2[1])+1):pagelist.append(int(j))print("pagelist:", pagelist)# pages = list(pages)spilitfile = PdfWriter()# spilitfile.append(file3, pages=(page31, page32))pagelist = list(set(pagelist))for i in pagelist:i = i-1spilitfile.addPage(file3.getPage(i))with open('split.pdf', 'wb') as outputstream:spilitfile.write(outputstream)messagebox.showinfo(title="文件提取完成", message="提取后的文件名称为 split.pdf")# 定义一个函数用来将pdf文件转换为word
def pdftoword():filename = entry4.get()convert = Converter(filename)try:convert.convert('pdf2work.docx', start=0, end=None)convert.close()messagebox.showinfo(title="PDF文件转换完成", message='PDF文件转换完成，文件保存为pdf2word.docx')except:messagebox.showerror(title='PDF文件转换失败', message='PDF文件转换失败，请检查源文件')# 定义一个函数用以将pdf转换为excel
def pdftoexcel():filename = entry5.get()items = []startpage = int(entry51.get()) - 1endpage = int(entry52.get())with ppm.open(filename) as pdf:for page in range(startpage, endpage):try:table = pdf.pages[page].extract_table()for line in table:items.append(line)except:messagebox.showerror(title='文件转换失败', message="文件转换失败，请选择正确的文件或者要转换的页码")returnif len(items) == 0:messagebox.showerror(title="未读取到表格信息", message="未读取到表格信息，请选择正确的文件或页码")else:# head = items[0]# print(head)# items.pop(0)print(items)# df = pd.DataFrame(items, columns=head)df = pd.DataFrame(items)df.to_excel('excel.xlsx', index=False)messagebox.showinfo(title="PDF转Excel完成", message="PDF转Excel完成，文件保存为excel.xlsx")if __name__ == '__main__':# 以下两句代码用于将windows的任务栏图标设置为跟程序icon一样。myappid = "company.product.version"  # 这里可以设置任意文本ctypes.windll.shell32.SetCurrentProcessExplicitAppUserModelID(myappid)# create tkinter instancewindow = tk.Tk()# add a title towindow.title('英纳法重庆公司PDF文件合并/提取及转换工具')# set the windows size and cannot resize the windowwindow.geometry('830x430')window.resizable(0, 0)# 将img参数转换成图片，并设置为程序图标img_data = base64.b64decode(img)with open("pdf.ico", "wb+") as fw:fw.write(img_data)window.iconbitmap("pdf.ico")os.remove("pdf.ico")# 定义文件名参数，用于在选择文件之后，显示文件名到后面的输入框中。filename1 = StringVar()filename2 = StringVar()filename3 = StringVar()filename4 = StringVar()filename5 = StringVar()path = tk.StringVar()# 读取PDF合并的第一个文件btn = tk.Button(window, text='选择第一个文件', command=askfile1)   # 第一个btn按钮，调用askfile1程序，打开读取文件，并将值传递给entry1btn.grid(row=0, column=0)  # 通过grid进行布局，将btn布局到第一行第一列。entry1 = tk.Entry(window, textvariable=filename1)   # 定义一个Entry控件，其值为fliename1.entry1.grid(row=0, column=1, columnspan=3, ipadx=160)  # 将entry1布局到第一行第二列，跨行3，宽度设置为160.entry11 = tk.Entry(window)  # 定义一个输入框用来设置第一个文件的起始页entry11.grid(row=0, column=5)entry11.insert(0, '起始页')  # 给Enrtry11设置一个初始值‘起始页’，entry12 = tk.Entry(window)  # 定义一个输入框用来设置第一个文件的最后一页entry12.grid(row=0, column=6)entry12.insert(0, '结束页')# 读取PDF合并的第二个文件btn2 = tk.Button(window, text='选择第二个文件', command=askfile2)btn2.grid(row=1, column=0)entry2 = tk.Entry(window, textvariable=filename2)entry2.grid(row=1, column=1, columnspan=3, ipadx=160)entry21 = tk.Entry(window)entry21.grid(row=1, column=5)entry21.insert(0,'起始页')entry22 = tk.Entry(window)entry22.grid(row=1, column=6)entry22.insert(0, '结束页')# 定义一个BTN，点击执行pdf文件合并功能。mergerBtn = tk.Button(window, text='合并文件', command=partial(pdfmerger))mergerBtn.grid(row=2, column=0)# 定义一个分割线，用来分开两个功能，sticky指示线的方向sep = Separator(window, orient=HORIZONTAL)sep.grid(row=3, column=0, columnspan=8, padx=5, pady=10, sticky="EW")# 页面提取的功能区，包括一个文件选择按钮，一个Entry输入框显示文件名称，一个Entry控件用以输入要提取的页码btn3 = tk.Button(window, text='选择提取页面文件', command=askfile3)btn3.grid(row=4, column=0)entry3 = tk.Entry(window, textvariable=filename3)entry3.grid(row=4, column=1, columnspan=3, ipadx=160)entry31 = tk.Entry(window)entry31.grid(row=4, column=5)entry31.insert(0, '页码范围')spilitBtn = tk.Button(window, text='提取页面', command=pdfspilit)spilitBtn.grid(row=5)# 定义一个分割线，用来分开两个功能，sticky指示线的方向sep = Separator(window, orient=HORIZONTAL)sep.grid(row=6, column=0, columnspan=8, padx=5, pady=10, sticky="EW")# 下面是PDF文件转Word文件的功能区，包括一个文件选择按钮，一个显示文件路径的Entry控件btn4 = tk.Button(window, text='转word的PDF文件', command=askfile4)btn4.grid(row=7, column=0)entry4 = tk.Entry(window, textvariable=filename4)entry4.grid(row=7, column=1, columnspan=3, ipadx=160)WordBtn = tk.Button(window, text='PDF转Word', command=pdftoword)   # 执行文件转换的控件，调用pdftoword程序WordBtn.grid(row=8)# 定义一个分割线，用来分开两个功能，sticky指示线的方向sep = Separator(window, orient=HORIZONTAL)sep.grid(row=9, column=0, columnspan=8, padx=5, pady=10, sticky="EW")# 下面是PDF文件转Excel文件的功能区，包括一个文件选择按钮，一个显示文件路径的Entry控件btn5 = tk.Button(window, text='转Excel的PDF文件', command=askfile5)btn5.grid(row=10, column=0)entry5 = tk.Entry(window, textvariable=filename5)entry5.grid(row=10, column=1, columnspan=3, ipadx=160)entry51 = tk.Entry(window)entry51.grid(row=10, column=5)entry51.insert(0, '起始页')entry52 = tk.Entry(window)entry52.grid(row=10, column=6)entry52.insert(0, '结束页')ExcelBtn = tk.Button(window, text='PDF转Excel', command=pdftoexcel)   # 执行文件转换的控件，调用pdftoword程序ExcelBtn.grid(row=11)# 定义一个分割线，用来分开两个功能，sticky指示线的方向sep = Separator(window, orient=HORIZONTAL)sep.grid(row=12, column=0, columnspan=8, padx=5, pady=10, sticky="EW")# 软件功能提示信息text = tk.Label(window, text='注意1：合并文件：选择两个pdf文件，并分别指定文件要合并的页码范围,合并后的文件默认在当前路径下的merger.pdf文件')text.grid(row=14, column=0, columnspan=8, sticky=tk.W)text2 = tk.Label(window, text="注意2：提取文件：提取一个pdf文件的指定页码，中间用英文','隔开，页码范围示例  1,2,3,5-9,11,15-19，提取后默认保存在当前路径下的split.pdf文件")text2.grid(row=15, column=0, columnspan=8, sticky=tk.W)text3 = tk.Label(window, text='注意3：PDF转word：仅支持可识别的文档转换，不支持图片识别功能，转换后文件为word.docx')text3.grid(row=16, column=0, columnspan=8, sticky=tk.W)text4 = tk.Label(window, text='注意4：PDF转Excel：分别输入表格所在PDF文件的起始页及结束页，在页码范围内，每一页都需要有表格否则会报错，转换后文件为excel.xlsx')text4.grid(row=17, column=0, columnspan=8, sticky=tk.W)# 主程序运行加载window.mainloop()

3. 代码打包

1. 打包过后程序运行出错

pyinstaller打包后，运行生成的exe报错“recursion is detected during loading of “cv2“ binary extensions.”
解决方法：

通过pip uninstall oepncv-python卸载,
通过pip install opencv-python --target 安装到程序路径。
通过pyinstaller -F -w --clean main.py --paths=“C:\Users\admin_zhouga\PycharmProjects\PDFinsert\venv\lib\site-packages\cv2” 进行打包

2. 打包命令

pyinstaller -F -w --clean --icon=“C:\Users\admin_zhouga\image\pdf.ico” C:\Users\admin_zhouga\PycharmProjects\PDFinsert\PDFcreate.py

–icon= 是给打包之后的文件exe文件添加一个图标

3.打包技巧

在创建工程的时候，需要在虚拟环境中创建。
在虚拟环境中安装pyinstaller
在虚拟环境的命令行中运行打包命令，如此可以缩小exe文件的大小。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：如何由skb构造sw_flow_key?

下一篇：湖北暴雪中，困在路上的返乡人湖北暴雪中，困在路上的返乡人

Python PDF文件合并，提取

文章目录