diff --git a/README.md b/README.md index ec2e600..e844a46 100644 --- a/README.md +++ b/README.md @@ -114,6 +114,12 @@ python doc_cleaner.py ./input_docs - 优化了去重算法,保持表格在文档中的原始位置 - 分离表格和文本内容的处理流程,避免交叉影响 +### 2024-03-22 +- 优化了文件类型检测方法 + - 移除了对magic库的依赖 + - 改用文件后缀名直接判断文件类型 + - 简化了文件类型检测逻辑 + ## 功能特性 - 支持doc和docx格式的文档处理 diff --git a/requirements.txt b/requirements.txt index 77c4759..25ed061 100644 --- a/requirements.txt +++ b/requirements.txt @@ -2,5 +2,4 @@ python-docx>=0.8.11 regex>=2023.0.0 scikit-learn>=1.3.0 numpy>=1.24.0 -python-magic>=0.4.27 requests>=2.31.0 \ No newline at end of file