Python 3.8 或更高版本
LibreOffice（用于文档格式转换）
- 下载地址：https://www.libreoffice.org/download/download/
- 安装后需要将安装目录（通常是 C:\Program Files\LibreOffice\program 或 C:\Program Files (x86)\LibreOffice\program）添加到系统 PATH 环境变量
- 如果安装后仍然报错，请尝试重启系统
Tesseract OCR（用于图片文字识别）
- 下载地址：https://github.com/UB-Mannheim/tesseract/wiki
- 安装时选择"添加到系统路径"选项

Python 依赖

所有必需的 Python 包都列在 requirements.txt 文件中。使用以下命令安装：

pip install -r requirements.txt

功能特性

支持多种文档格式的处理：
- PDF 文件
- Word 文档 (.doc, .docx)
- HTML 文件 (.html, .htm)
- Excel 文件 (.xls, .xlsx)
自动提取文档中的表格和图片
智能清理和格式化文本内容
支持多种输出格式：
- Word 文档 (.docx)
- 纯文本文件 (.txt)
- Markdown 文件 (.md)
提供 RESTful API 接口
高级OCR图像识别功能：
- 独立的OCR测试Web界面
- 多种图像预处理算法
- 支持中文优化的OCR处理
- 自动选择最佳OCR结果
- 直观显示不同处理方法的效果对比
- 可视化处理前后的图像变化

安装说明

克隆项目代码
安装依赖：
```
pip install -r requirements.txt
```
配置环境变量（可选）：
- OLLAMA_HOST：Ollama 服务器地址
- TESSERACT_CMD：Tesseract OCR 可执行文件路径

使用说明

文件上传

支持的文件格式：
- PDF (.pdf)
- Word (.doc, .docx)
- HTML (.html, .htm)
- Excel (.xls, .xlsx)

API 接口

文件上传：POST /api/upload
文件下载：GET /api/download/{filename}

输出格式

Word 文档：response_文件名_output.docx
纯文本文件：response_文件名_output.txt
Markdown 文件：response_文件名_output.md

OCR图像识别测试

使用OCR测试功能可以快速测试图像文字识别效果，无需处理完整文档。

快速启动方法

运行项目根目录下的启动脚本：
```
python start_ocr_test.py
```
脚本会自动：
- 检查必要依赖是否安装
- 验证Tesseract OCR配置
- 启动OCR API服务
- 在浏览器中打开测试界面
如果自动打开浏览器失败，请手动访问：
```
http://localhost:8001/static/ocr_test.html
```

使用方法

在测试界面上传图片文件（支持拖放上传）
选择识别语言（默认为中文+英文）
选择处理模式：
- 自动模式：自动尝试最佳处理方法
- 标准模式：使用基本OCR处理，速度最快
- 中文优化：专为中文文本优化的处理方法
- 高级模式：使用多种图像处理方法，并比较结果
点击"执行OCR"按钮开始处理
查看处理结果：
- 识别文本：显示识别出的文本内容
- 处理详情：显示不同处理方法的结果对比
- 处理图像：显示处理前后的图像效果

处理模式说明

自动模式：适合大多数图像，自动选择最佳处理方法
标准模式：适合清晰、对比度高的图像，处理速度最快
中文优化：适合包含中文的图像，特别是小字体或模糊的中文文本
高级模式：适合复杂图像，会尝试多种处理方法并选择最佳结果，处理时间较长

注意事项

Excel 文件处理时会将每个工作表转换为单独的章节
HTML 文件会保留基本的文本格式和表格结构
所有临时文件会保存在 temp 目录下

开发说明

目录结构

doc-etl/
├── cxs/
│   ├── static/         # 前端文件
│   │   └── ocr_test.html  # OCR测试界面
│   ├── main.py         # 主程序
│   ├── cxs_doc_cleaner.py  # 文档处理核心
│   ├── cxs_table_processor.py  # 表格处理模块
│   ├── cxs_pdf_cleaner.py  # PDF处理模块
│   ├── _optimize_for_chinese.py  # 中文OCR优化模块
│   └── ocr_api.py      # OCR API服务
├── temp/
│   ├── uploads/        # 上传文件
│   ├── outputs/        # 输出文件
│   ├── images/         # 临时图片
│   └── debug/          # OCR处理调试图像
├── start_ocr_test.py   # OCR测试启动脚本
└── requirements.txt    # 依赖清单

开发环境

Python 3.8+
依赖详见 requirements.txt

图像OCR问题排查

问题: 文档中图片OCR无法识别

如果您遇到文档处理时图片OCR识别失败的问题，很可能是因为Tesseract OCR工具的路径配置不正确。系统在初始化时会尝试自动查找Tesseract，但如果系统环境变量中没有正确配置，OCR功能可能无法正常工作。

解决方案

我们提供了一个修复脚本fix_tesseract_path.py，它可以:

自动查找系统中已安装的Tesseract OCR
正确设置Tesseract路径
处理您的文档并启用图片OCR功能

使用方法:

# 直接处理指定文档
python fix_tesseract_path.py --file 您的文档.docx

# 指定Tesseract路径
python fix_tesseract_path.py --file 您的文档.docx --tesseract "C:\Program Files\Tesseract-OCR\tesseract.exe"

# 交互式模式
python fix_tesseract_path.py

注意事项

确保已安装Tesseract OCR，如未安装，请从官方GitHub下载并安装
安装时选择中文语言包，以支持中文OCR识别
建议将Tesseract添加到系统PATH环境变量中，或在配置文件中明确指定路径

手动设置Tesseract路径

如果您希望永久解决这个问题，可以:

将Tesseract安装目录(通常是C:\Program Files\Tesseract-OCR)添加到系统PATH环境变量
设置环境变量TESSERACT_CMD为Tesseract可执行文件的完整路径

文档表格处理工具

本工具提供了强大的表格数据处理功能,可以处理文档中的各种类型表格。

主要功能

1. 表格数据处理

表格数据验证和清理
表格结构规范化
表格数据增强
表格布局优化

2. 数据转换和分析

表格转换为字典格式
表格内容分析
- 基本统计信息
- 列数据分析
- 数据模式检测
- 结构特征分析
- 内容质量评估
重复值检测
值分布分析
列相关性分析
数据一致性检查
潜在问题检测

3. 格式转换

转换为CSV格式
转换为Excel格式
转换为Markdown格式
转换为HTML格式

4. 高级功能

多级表头处理
合并单元格处理
键值对表格处理
数据类型自动识别
表格结构优化

使用示例

from cxs.cxs_table_processor import TableProcessor

# 创建处理器实例
processor = TableProcessor()

# 处理表格数据
table_data = {
    'rows': [...],
    'header_rows': 1
}

# 数据转换
dict_data = processor._convert_table_to_dict(table_data)

# 内容分析
analysis = processor._analyze_table_content(table_data)

# 检测数据模式
patterns = processor._detect_table_patterns(table_data)

# 导出为不同格式
csv_data = processor._convert_table_to_csv(table_data)
excel_data = processor._convert_table_to_excel(table_data)

数据转换能力

支持以下数据转换:

表格 -> 字典
- 支持键值对表格
- 支持普通表格结构
- 支持多级表头
表格 -> CSV
- 自动处理表头
- 处理合并单元格
- 支持自定义分隔符
表格 -> Excel
- 保留表格结构
- 处理合并单元格
- 自动调整列宽
- 设置表头样式
表格 -> Markdown/HTML
- 格式化输出
- 保持表格结构
- 支持样式设置

开发要求

Python 3.7+
依赖包:
- openpyxl
- pandas
- numpy

安装说明

pip install -r requirements.txt

更新日志

v1.0.0

初始版本发布
基本的表格处理功能

v1.1.0

添加数据验证和清理功能
增加表格结构规范化

v1.2.0

添加数据转换功能
支持多种输出格式

v1.3.0

添加内容分析功能
增加数据模式检测
优化表格处理性能

2024-03-xx

优化了表格处理器的稳定性和错误处理
- 增加了严格的索引检查和边界处理
- 改进了单元格和行级别的错误处理机制
- 增强了对大型表格和复杂表头的支持
- 优化了表格规范化处理
- 提高了处理不规则表格的兼容性
- 改进了内存使用效率

注意事项

大文件处理
- 建议分批处理大型表格
- 注意内存使用
数据验证
- 建议在处理前进行数据验证
- 检查表格结构完整性
错误处理
- 所有方法都包含错误处理
- 详细的错误信息输出

贡献指南

Fork 项目
创建特性分支
提交变更
发起 Pull Request

许可证

MIT License

更新日志

2024-03-21

修复了文本分段工具的命令行参数问题
现在支持使用相对路径处理文件
新增txt格式输出支持，默认输出格式改为txt
优化了段落分隔显示，使用空行分隔各段落
全新的智能语义分段功能：
- 支持基于章节标题的主要分段
- 支持基于语义转折词的次要分段
- 智能识别特殊段落（如摘要、引言等）
- 自动合并过短段落，保持语义完整性
- 优化的中文标点符号处理
添加token长度控制：
- 确保每个段落不超过512个token
- 智能估算中英文混合文本的token数量
- 对超长句子进行智能拆分
- 在保持语义完整性的同时控制token数量
优化表格内容处理：
- 自动移除表格标记（如"表格1开始"、"表格1结束"）
- 智能分割长表格内容，确保每段不超过token限制
- 保持表格行的语义完整性
- 使用逗号和分号作为表格内容的分割点
- 优化表格段落的可读性

使用方法

文本分段工具

基本用法（输出txt格式）：

python text_paragraph_splitter.py sample_continuous_text.txt

指定输出文件：

python text_paragraph_splitter.py sample_continuous_text.txt -o output.txt

输出JSON格式：

python text_paragraph_splitter.py sample_continuous_text.txt -f json -o output.json

参数说明：

input_file：输入文件路径，例如：sample_continuous_text.txt
--output/-o：输出文件路径，默认为当前目录下的 paragraphs.txt
--format/-f：输出格式，支持txt和json，默认为txt

分段规则说明：

Token长度控制：
- 每个段落严格控制在512个token以内
- 中文字符按1.5个token计算
- 英文单词按1个token计算
- 标点符号按1个token计算
- 超长句子会按逗号智能拆分
表格处理：
- 自动识别并移除表格标记
- 按行处理表格内容
- 智能合并短行，不超过token限制
- 对超长行进行分割处理
- 保持表格内容的语义连贯性
主要分段标记：
- 章节标题（如"第一章"、"第1节"等）
- 序号标记（如"一、"、"1."、"（1）"等）
- 罗马数字标记（如"I."、"II."等）
次要分段标记：
- 语义转折词（如"然而"、"但是"、"因此"等）
- 总结性词语（如"总的来说"、"综上所述"等）
- 举例词语（如"例如"、"比如"等）
特殊段落：
- 自动识别摘要、引言、结论等特殊段落
- 保持这些段落的独立性
智能合并：
- 合并过短的段落（小于50字）
- 确保合并后不超过token限制
- 保持标题等特殊标记的独立性
- 确保段落语义的完整性

2024-03-xx

重写了表格处理逻辑，增强了对复杂表格的处理能力
- 使用@dataclass重新设计了表格数据结构（Cell、Row、Table类）
- 支持多级表头和合并单元格的识别
- 自动识别表格类型（标准表格、键值对、矩阵等）
- 支持特殊格式（货币、百分比、日期等）的识别和转换
- 增加了表格处理的错误处理和容错机制
- 优化了表格输出格式，支持Markdown、HTML和字典格式
- 添加了表格处理的调试信息输出
- 更新了导入路径，使用新的table_processor模块

2024年3月

优化表格处理逻辑：
- 修复复杂表头和矩阵类型表格的索引越界问题
- 增强表格行和单元格的错误处理机制
- 改进表头结构分析，支持多级表头识别
- 优化矩阵类型表格的检测算法
- 增加数字单元格识别功能
- 完善表格转文本的格式化处理
- 增加边界检查和异常处理机制
- 优化内存使用和处理效率

README.md Unescape Escape

文档处理系统

系统要求

必需组件

Python 依赖

功能特性

最近更新

2024年6月15日

2024年6月14日

2024年6月13日

2024年6月12日

2024年6月11日

2024年6月10日

2024年6月9日

2024年6月8日

2024年6月7日

2024年6月6日

2024年6月5日

2024年6月2日

2024年6月1日

2024年5月31日

2024年5月30日

2024年5月29日

2024年5月28日

2024年5月27日

2024年5月26日

2024年5月25日

2024年5月24日

2024年5月23日

2024年5月21日

2024年5月20日

2024年5月19日

2024-05-16

2024-05-15

2024-05-12

2024-05-02

2024-01-20

2024-01-19

2024-01-18

2024-01-17

2024-01-16

2024-01-15

2024-01-14

2024-01-13

2024-01-12

2024-01-11

2024-01-10

2024-01-09

2024年6月3日

2024年6月20日

2024年6月19日

安装说明

使用说明

文件上传

API 接口

输出格式

OCR图像识别测试

快速启动方法

使用方法

处理模式说明

注意事项

开发说明

目录结构

开发环境

图像OCR问题排查

问题: 文档中图片OCR无法识别

解决方案

注意事项

手动设置Tesseract路径

文档表格处理工具

主要功能

1. 表格数据处理

2. 数据转换和分析

3. 格式转换

4. 高级功能

使用示例

数据转换能力

开发要求

安装说明

更新日志

README.md