更新注释
This commit is contained in:
parent
ae6b7472d1
commit
4ddbd7d510
@ -114,6 +114,12 @@ python doc_cleaner.py ./input_docs
|
||||
- 优化了去重算法,保持表格在文档中的原始位置
|
||||
- 分离表格和文本内容的处理流程,避免交叉影响
|
||||
|
||||
### 2024-03-22
|
||||
- 优化了文件类型检测方法
|
||||
- 移除了对magic库的依赖
|
||||
- 改用文件后缀名直接判断文件类型
|
||||
- 简化了文件类型检测逻辑
|
||||
|
||||
## 功能特性
|
||||
|
||||
- 支持doc和docx格式的文档处理
|
||||
|
@ -2,5 +2,4 @@ python-docx>=0.8.11
|
||||
regex>=2023.0.0
|
||||
scikit-learn>=1.3.0
|
||||
numpy>=1.24.0
|
||||
python-magic>=0.4.27
|
||||
requests>=2.31.0
|
Loading…
x
Reference in New Issue
Block a user