更新注释

This commit is contained in:
方崇德 2025-04-16 16:58:26 +08:00
parent ae6b7472d1
commit 4ddbd7d510
2 changed files with 6 additions and 1 deletions

View File

@ -114,6 +114,12 @@ python doc_cleaner.py ./input_docs
- 优化了去重算法,保持表格在文档中的原始位置 - 优化了去重算法,保持表格在文档中的原始位置
- 分离表格和文本内容的处理流程,避免交叉影响 - 分离表格和文本内容的处理流程,避免交叉影响
### 2024-03-22
- 优化了文件类型检测方法
- 移除了对magic库的依赖
- 改用文件后缀名直接判断文件类型
- 简化了文件类型检测逻辑
## 功能特性 ## 功能特性
- 支持doc和docx格式的文档处理 - 支持doc和docx格式的文档处理

View File

@ -2,5 +2,4 @@ python-docx>=0.8.11
regex>=2023.0.0 regex>=2023.0.0
scikit-learn>=1.3.0 scikit-learn>=1.3.0
numpy>=1.24.0 numpy>=1.24.0
python-magic>=0.4.27
requests>=2.31.0 requests>=2.31.0