Python 3.8 或更高版本
LibreOffice（用于文档格式转换）
- 下载地址：https://www.libreoffice.org/download/download/
- 安装后需要将安装目录（通常是 C:\Program Files\LibreOffice\program 或 C:\Program Files (x86)\LibreOffice\program）添加到系统 PATH 环境变量
- 如果安装后仍然报错，请尝试重启系统
Tesseract OCR（用于图片文字识别）
- 下载地址：https://github.com/UB-Mannheim/tesseract/wiki
- 安装时选择"添加到系统路径"选项

Python 依赖

所有必需的 Python 包都列在 requirements.txt 文件中。使用以下命令安装：

pip install -r requirements.txt

功能特性

支持多种文档格式的处理：
- PDF 文件
- Word 文档 (.doc, .docx)
- HTML 文件 (.html, .htm)
- Excel 文件 (.xls, .xlsx)
自动提取文档中的表格和图片
智能清理和格式化文本内容
支持多种输出格式：
- Word 文档 (.docx)
- 纯文本文件 (.txt)
- Markdown 文件 (.md)
提供 RESTful API 接口
高级OCR图像识别功能：
- 独立的OCR测试Web界面
- 多种图像预处理算法
- 支持中文优化的OCR处理
- 自动选择最佳OCR结果
- 直观显示不同处理方法的效果对比
- 可视化处理前后的图像变化

安装说明

克隆项目代码
安装依赖：
```
pip install -r requirements.txt
```
配置环境变量（可选）：
- OLLAMA_HOST：Ollama 服务器地址
- TESSERACT_CMD：Tesseract OCR 可执行文件路径

使用说明

文件上传

支持的文件格式：
- PDF (.pdf)
- Word (.doc, .docx)
- HTML (.html, .htm)
- Excel (.xls, .xlsx)

API 接口

文件上传：POST /api/upload
文件下载：GET /api/download/{filename}

输出格式

Word 文档：response_文件名_output.docx
纯文本文件：response_文件名_output.txt
Markdown 文件：response_文件名_output.md

OCR图像识别测试

使用OCR测试功能可以快速测试图像文字识别效果，无需处理完整文档。

快速启动方法

运行项目根目录下的启动脚本：
```
python start_ocr_test.py
```
脚本会自动：
- 检查必要依赖是否安装
- 验证Tesseract OCR配置
- 启动OCR API服务
- 在浏览器中打开测试界面
如果自动打开浏览器失败，请手动访问：
```
http://localhost:8001/static/ocr_test.html
```

使用方法

在测试界面上传图片文件（支持拖放上传）
选择识别语言（默认为中文+英文）
选择处理模式：
- 自动模式：自动尝试最佳处理方法
- 标准模式：使用基本OCR处理，速度最快
- 中文优化：专为中文文本优化的处理方法
- 高级模式：使用多种图像处理方法，并比较结果
点击"执行OCR"按钮开始处理
查看处理结果：
- 识别文本：显示识别出的文本内容
- 处理详情：显示不同处理方法的结果对比
- 处理图像：显示处理前后的图像效果

处理模式说明

自动模式：适合大多数图像，自动选择最佳处理方法
标准模式：适合清晰、对比度高的图像，处理速度最快
中文优化：适合包含中文的图像，特别是小字体或模糊的中文文本
高级模式：适合复杂图像，会尝试多种处理方法并选择最佳结果，处理时间较长

注意事项

Excel 文件处理时会将每个工作表转换为单独的章节
HTML 文件会保留基本的文本格式和表格结构
所有临时文件会保存在 temp 目录下

开发说明

目录结构

doc-etl/
├── cxs/
│   ├── static/         # 前端文件
│   │   └── ocr_test.html  # OCR测试界面
│   ├── main.py         # 主程序
│   ├── cxs_doc_cleaner.py  # 文档处理核心
│   ├── cxs_table_processor.py  # 表格处理模块
│   ├── cxs_pdf_cleaner.py  # PDF处理模块
│   ├── _optimize_for_chinese.py  # 中文OCR优化模块
│   └── ocr_api.py      # OCR API服务
├── temp/
│   ├── uploads/        # 上传文件
│   ├── outputs/        # 输出文件
│   ├── images/         # 临时图片
│   └── debug/          # OCR处理调试图像
├── start_ocr_test.py   # OCR测试启动脚本
└── requirements.txt    # 依赖清单

开发环境

Python 3.8+
依赖详见 requirements.txt

图像OCR问题排查

问题: 文档中图片OCR无法识别

如果您遇到文档处理时图片OCR识别失败的问题，很可能是因为Tesseract OCR工具的路径配置不正确。系统在初始化时会尝试自动查找Tesseract，但如果系统环境变量中没有正确配置，OCR功能可能无法正常工作。

解决方案

我们提供了一个修复脚本fix_tesseract_path.py，它可以:

自动查找系统中已安装的Tesseract OCR
正确设置Tesseract路径
处理您的文档并启用图片OCR功能

使用方法:

# 直接处理指定文档
python fix_tesseract_path.py --file 您的文档.docx

# 指定Tesseract路径
python fix_tesseract_path.py --file 您的文档.docx --tesseract "C:\Program Files\Tesseract-OCR\tesseract.exe"

# 交互式模式
python fix_tesseract_path.py

注意事项

确保已安装Tesseract OCR，如未安装，请从官方GitHub下载并安装
安装时选择中文语言包，以支持中文OCR识别
建议将Tesseract添加到系统PATH环境变量中，或在配置文件中明确指定路径

手动设置Tesseract路径

如果您希望永久解决这个问题，可以:

将Tesseract安装目录(通常是C:\Program Files\Tesseract-OCR)添加到系统PATH环境变量
设置环境变量TESSERACT_CMD为Tesseract可执行文件的完整路径

README.md Unescape Escape

文档处理系统

系统要求

必需组件

Python 依赖

功能特性

最近更新

2024年5月21日

2024年5月20日

2024年5月19日

2024-05-16

2024-05-15

2024-05-12

2024-05-02

2024-01-20

2024-01-19

2024-01-18

2024-01-17

2024-01-16

2024-01-15

2024-01-14

2024-01-13

2024-01-12

2024-01-11

2024-01-10

2024-01-09

安装说明

使用说明

文件上传

API 接口

输出格式

OCR图像识别测试

快速启动方法

使用方法

处理模式说明

注意事项

开发说明

目录结构

开发环境

图像OCR问题排查

问题: 文档中图片OCR无法识别

解决方案

注意事项

手动设置Tesseract路径

README.md