表格提取

2025-05-20 19:21:58 +08:00
parent 44050b2391
commit f9ab2ffce0
5 changed files with 1905 additions and 25 deletions
--- a/README.md
+++ b/README.md
@@ -48,6 +48,87 @@ pip install -r requirements.txt
 ## 最近更新
 ### 2024年6月11日
 - **同时支持HTML标签显示和HTML文件生成**
  - 优化表格处理功能，兼顾多种输出需求
  - 移除Word文档中自动添加的表格标题，保持文档结构简洁
  - Word文档中直接以HTML标签形式显示所有表格，方便查看表格结构
  - 同时生成独立的HTML文件，提供完整的表格视图，支持交互和打印
  - 在Word文档中添加蓝色超链接提示，指引用户查看对应的HTML文件
  - 改进HTML样式，增强响应式布局和打印支持
  - 优化表格HTML标签生成过程，确保标签规范性和一致性
  - 增强错误处理，即使某些表格转换失败也能保持系统稳定
  - 提升整体文档处理流程的健壮性和用户体验
 ### 2024年6月10日
 - **采用HTML标签形式输出表格**
  - 改进表格处理机制，直接输出HTML标签形式的表格，而非创建Word表格
  - 精确保留所有表格结构信息，包括表头、主体和合并单元格属性
  - 自动为表格生成符合HTML规范的标签，包括class和id属性
  - 正确处理表格中的垂直和水平合并单元格，添加rowspan和colspan属性
  - 将表格标签以等宽字体显示，提高可读性和直观性
  - 优化标签生成过程，严格遵循HTML表格标准
  - 自动区分表头和数据行，使用正确的thead和tbody标签
  - 简化表格处理流程，提高效率和准确性
 ### 2024年6月9日
 - **改进Word文档表格显示方式**
  - 修改表格处理机制，直接在Word文档中显示表格，不再需要外部HTML文件
  - 准确复制原始表格的结构、内容和合并单元格信息
  - 保留表格样式并自动设置表头格式
  - 正确处理垂直和水平合并的单元格
  - 改进表格位置控制，保持与原始文档的一致性
  - 优化表格边框和样式，提供更专业的外观
  - 简化处理流程，提高文档生成效率
  - 修复合并单元格时的潜在错误
 ### 2024年6月8日
 - **修复Word文档打开问题并改进表格处理**
  - 解决了清洗后Word文档无法打开的关键问题
  - 优化HTML表格生成方式，确保文档处理的稳定性
  - 在Word文档中添加醒目的HTML表格文件引用提示
  - 保留表格的文本格式作为备用显示方式
  - 改进错误处理，提供更详细的诊断信息
  - 简化文档处理流程，提高代码可维护性
  - 增强HTML表格文件的样式，提供更好的打印支持
  - 改进文档处理日志，便于追踪处理过程
 ### 2024年6月7日
 - **表格直接HTML输出功能增强**
  - 修改表格处理机制，现在所有表格都将以HTML格式输出而非文本格式
  - 彻底解决复杂表格的显示问题，包括多层表头和合并单元格
  - 自动为每个表格生成独特的HTML标识符，确保正确引用
  - 提供更美观的表格样式，包括悬停效果和自适应宽度
  - 改进表格边框和单元格间距，提升阅读体验
  - 保留单元格格式化内容（如换行符）并在HTML中正确显示
  - 针对打印场景优化表格样式，确保打印输出质量
  - 技术说明：由于Word文档格式限制，HTML表格将保存在独立的HTML文件中
 ### 2024年6月6日
 - **增强复杂表格识别与处理能力**
  - 优化表格类型自动识别算法，通过多维度特征分析提高复杂表格的识别精度
  - 增强表格结构分析能力，支持更精确地识别垂直和水平合并单元格
  - 改进多级表头处理，提高复杂表头的识别和解析能力
  - 引入表格宽高比分析，自动识别宽表格和复杂结构表格
  - 新增单元格数一致性检查机制，提高对不规则表格的处理能力
  - 优化垂直合并单元格的内容填充算法，改进空单元格的值传播机制
  - 添加更详细的表格处理日志，便于诊断和调试复杂表格处理问题
  - 完善异常处理，提高处理复杂表格时的稳定性和鲁棒性
 ### 2024年6月5日
 - **模块化表格处理系统升级**
  - 重构了表格处理架构，将不同类型的表格处理逻辑拆分为专门的处理器
  - 实现了针对五种特殊表格类型的专用处理器：
    - 多级表头表格处理器：处理具有复杂多级表头结构的表格
    - 合并单元格密集型表格处理器：优化处理含有大量合并单元格的表格
    - 带计算功能的表格处理器：识别并处理包含公式和计算的表格
    - 嵌套表格处理器：处理表格内嵌套的子表格结构
    - 跨页长表格处理器：正确识别和处理跨越多页的长表格
  - 优化表格识别机制，智能匹配最适合的处理器
  - 提高表格转文本的准确性和可读性
  - 保持与原有系统的兼容性，同时提高处理复杂表格的能力
  - 增强了系统对特殊表格结构的识别率和处理精度
 ### 2024年6月2日
 - 改进Markdown表格转换功能：
  - 修复了合并单元格内容重复显示的问题
--- a/cxs/temp/outputs/response_图片_output.md
+++ b/cxs/temp/outputs/response_图片_output.md
@@ -1,24 +0,0 @@
 1111
 【图片识别文本】
 “ 完 善 了 异 常 处 理 , 防 止 惑 时 目 录 券 除 失 败 导 致 程 序 崖
 澎
 澎
 4. 更 新 README.md
 * 在 暨 近 更 新 部 分 记 录 了 临 时 文 件 处 理 机 制 的 改 进
 。 添 加 了 Excel 文 件 句 柄 管 理
 使 用 说 明
 这 东 改 进 不 需 要 您 做 任 何 额 外 操 作 , 系 统 会 自 动 -
 1. 在 处 理 Excel 文 件 时 正 球 关 闭 文 件 句 柄
 2 当 尝 试 删 除 文 件 通 刨 “ 文 件 被 占 用 “ 错 误 时 , 自 动 等 待
 并 重 试
 3 即 使 无 法 券 除 临 时 文 件 , 也 不 影 响 处 #
 如 果 仍 然 通 到 惧 时 文 件 问 题 , 系 统 会 在 下 次 启 动 时 自 动
 清 理 所 有 临 时 文 件 , 不 会 影 响 系 统 功 能 。
 以 上 优 化 星 觞 失 了 临 时 文 伟 删 除 问 题 , 又 保 持 了 系 统 的
 稳 定 性 , 让 您 能 雪 顺 畅 地 处 理 Bxcel 文 件 。
--- a/cxs/temp/outputs/response_图片_output.txt
+++ b/cxs/temp/outputs/response_图片_output.txt
@@ -1 +0,0 @@
 1111 【图片识别文本】 “ 完 善 了 异 常 处 理 , 防 止 惑 时 目 录 券 除 失 败 导 致 程 序 崖 澎 澎  4. 更 新 README.md * 在 暨 近 更 新 部 分 记 录 了 临 时 文 件 处 理 机 制 的 改 进 。 添 加 了 Excel 文 件 句 柄 管 理  使 用 说 明 这 东 改 进 不 需 要 您 做 任 何 额 外 操 作 , 系 统 会 自 动 - 1. 在 处 理 Excel 文 件 时 正 球 关 闭 文 件 句 柄  2 当 尝 试 删 除 文 件 通 刨 “ 文 件 被 占 用 “ 错 误 时 , 自 动 等 待 并 重 试  3 即 使 无 法 券 除 临 时 文 件 , 也 不 影 响 处 # 如 果 仍 然 通 到 惧 时 文 件 问 题 , 系 统 会 在 下 次 启 动 时 自 动 清 理 所 有 临 时 文 件 , 不 会 影 响 系 统 功 能 。  以 上 优 化 星 觞 失 了 临 时 文 伟 删 除 问 题 , 又 保 持 了 系 统 的 稳 定 性 , 让 您 能 雪 顺 畅 地 处 理 Bxcel 文 件 。
--- a/table/table_cleaner.py
+++ b/table/table_cleaner.py
--- a/table/table_to_html.py
+++ b/table/table_to_html.py
@@ -0,0 +1,444 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 import os
 import docx
 import re
 from docx.table import Table, _Cell
 from docx.oxml import parse_xml
 from docx.oxml.ns import nsdecls
 from typing import List, Dict, Tuple, Optional, Union
 import uuid
 from bs4 import BeautifulSoup
 import html
 class TableToHtml:
    def __init__(self, debug: bool = False):
        """
        初始化表格到HTML转换器
        Args:
            debug: 是否启用调试模式，输出更多日志信息
        """
        self.debug = debug
        # 为每个表格生成唯一ID
        self.table_id = f"table_{uuid.uuid4().hex[:8]}"
    def _log(self, message: str):
        """
        输出调试日志
        Args:
            message: 日志消息
        """
        if self.debug:
            print(f"[TableToHtml] {message}")
    def _get_vmerge_value(self, cell_element) -> Optional[str]:
        """
        获取单元格的垂直合并属性
        Args:
            cell_element: 单元格元素
        Returns:
            str: 垂直合并属性值
        """
        vmerge = cell_element.xpath('.//w:vMerge')
        if vmerge:
            return vmerge[0].get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val', 'continue')
        return None
    def _get_gridspan_value(self, cell_element) -> int:
        """
        获取单元格的水平合并数量
        Args:
            cell_element: 单元格元素
        Returns:
            int: 水平合并的列数
        """
        try:
            gridspan = cell_element.xpath('.//w:gridSpan')
            if gridspan and gridspan[0].get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val'):
                return int(gridspan[0].get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val'))
        except (ValueError, TypeError, AttributeError) as e:
            self._log(f"警告：获取gridspan值时出错: {str(e)}")
        return 1  # 默认返回1，表示没有合并
    def _get_cell_content(self, cell: _Cell) -> str:
        """
        获取单元格的文本内容，并处理HTML特殊字符
        Args:
            cell: docx表格单元格对象
        Returns:
            str: 处理后的HTML内容
        """
        content = cell.text.strip()
        # 转义HTML特殊字符
        content = html.escape(content)
        # 处理换行
        content = content.replace('\n', '<br>')
        return content
    def _analyze_table_structure(self, table: Table) -> Dict:
        """
        分析表格结构，包括合并单元格信息
        Args:
            table: docx表格对象
        Returns:
            Dict: 表格结构信息
        """
        rows = len(table.rows)
        cols = len(table.columns)
        # 存储合并单元格信息
        merged_cells = {}
        # 存储垂直合并的源单元格
        vmerge_sources = {}
        # 分析合并单元格
        for i in range(rows):
            for j in range(cols):
                try:
                    cell = table.cell(i, j)
                    # 检查垂直合并
                    if cell._element.tcPr is not None:
                        vmerge = cell._element.tcPr.xpath('.//w:vMerge')
                        if vmerge:
                            val = self._get_vmerge_value(cell._element)
                            if val == 'restart':
                                # 这是垂直合并的起始单元格
                                # 计算合并的行数
                                rowspan = 1
                                for k in range(i+1, rows):
                                    next_cell = table.cell(k, j)
                                    if self._get_vmerge_value(next_cell._element) == 'continue':
                                        rowspan += 1
                                        # 标记此单元格为被合并
                                        merged_cells[(k, j)] = {'merged': True, 'source': (i, j)}
                                    else:
                                        break
                                # 记录合并信息
                                vmerge_sources[(i, j)] = {'rowspan': rowspan}
                            elif val == 'continue':
                                # 这是被合并的单元格，稍后处理
                                pass
                    # 检查水平合并
                    if cell._element.tcPr is not None:
                        gridspan = self._get_gridspan_value(cell._element)
                        if gridspan > 1:
                            # 记录colspan
                            merged_cells[(i, j)] = {'colspan': gridspan}
                            # 标记被合并的单元格
                            for k in range(1, gridspan):
                                if j + k < cols:
                                    merged_cells[(i, j+k)] = {'merged': True, 'source': (i, j)}
                except Exception as e:
                    self._log(f"警告：分析单元格 [{i},{j}] 时出错: {str(e)}")
                    continue
        # 将垂直合并信息合并到主合并字典
        for pos, info in vmerge_sources.items():
            if pos in merged_cells:
                merged_cells[pos].update(info)
            else:
                merged_cells[pos] = info
        return {
            'rows': rows,
            'cols': cols,
            'merged_cells': merged_cells
        }
    def _is_header_row(self, row_idx: int, table: Table, structure: Dict) -> bool:
        """
        判断是否为表头行
        Args:
            row_idx: 行索引
            table: 表格对象
            structure: 表格结构信息
        Returns:
            bool: 是否为表头行
        """
        # 简单策略：第一行通常是表头
        if row_idx == 0:
            return True
        # 检查是否有垂直合并从第一行开始的单元格
        for j in range(structure['cols']):
            cell_pos = (row_idx, j)
            if cell_pos in structure['merged_cells'] and 'merged' in structure['merged_cells'][cell_pos]:
                source = structure['merged_cells'][cell_pos]['source']
                if source[0] == 0:  # 合并源是第一行
                    return True
        return False
    def _detect_table_headers(self, table: Table, structure: Dict) -> List[int]:
        """
        检测表格表头行
        Args:
            table: 表格对象
            structure: 表格结构信息
        Returns:
            List[int]: 表头行索引列表
        """
        header_rows = []
        rows = structure['rows']
        # 检查前3行或所有行（如果行数少于3）
        for i in range(min(3, rows)):
            if self._is_header_row(i, table, structure):
                header_rows.append(i)
        # 如果没有检测到表头，默认第一行为表头
        if not header_rows and rows > 0:
            header_rows = [0]
        self._log(f"检测到的表头行: {header_rows}")
        return header_rows
    def table_to_html(self, table: Table) -> str:
        """
        将docx表格转换为HTML格式
        Args:
            table: docx表格对象
        Returns:
            str: HTML表格代码
        """
        try:
            # 分析表格结构
            structure = self._analyze_table_structure(table)
            rows = structure['rows']
            cols = structure['cols']
            merged_cells = structure['merged_cells']
            self._log(f"表格结构: {rows}行 x {cols}列，合并单元格: {len(merged_cells)}")
            # 检测表头
            header_rows = self._detect_table_headers(table, structure)
            # 构建HTML表格
            soup = BeautifulSoup('<table></table>', 'html.parser')
            table_tag = soup.table
            table_tag['class'] = ['docx-table']
            table_tag['id'] = self.table_id
            # 添加表头部分（thead）
            if header_rows:
                thead = soup.new_tag('thead')
                table_tag.append(thead)
                for i in header_rows:
                    if i >= rows:
                        continue
                    tr = soup.new_tag('tr')
                    thead.append(tr)
                    j = 0
                    while j < cols:
                        cell_pos = (i, j)
                        # 检查是否被合并
                        if cell_pos in merged_cells and 'merged' in merged_cells[cell_pos]:
                            j += 1
                            continue
                        # 创建th元素
                        th = soup.new_tag('th')
                        # 处理合并
                        if cell_pos in merged_cells:
                            if 'rowspan' in merged_cells[cell_pos]:
                                th['rowspan'] = merged_cells[cell_pos]['rowspan']
                            if 'colspan' in merged_cells[cell_pos]:
                                th['colspan'] = merged_cells[cell_pos]['colspan']
                                j += merged_cells[cell_pos]['colspan'] - 1
                        # 设置单元格内容
                        cell = table.cell(i, j)
                        content = self._get_cell_content(cell)
                        th.string = content
                        tr.append(th)
                        j += 1
            # 添加表格主体（tbody）
            tbody = soup.new_tag('tbody')
            table_tag.append(tbody)
            # 计算数据行的起始索引
            data_start = max(header_rows) + 1 if header_rows else 0
            # 处理数据行
            for i in range(data_start, rows):
                tr = soup.new_tag('tr')
                tbody.append(tr)
                j = 0
                while j < cols:
                    cell_pos = (i, j)
                    # 检查是否被合并
                    if cell_pos in merged_cells and 'merged' in merged_cells[cell_pos]:
                        j += 1
                        continue
                    # 创建td元素
                    td = soup.new_tag('td')
                    # 处理合并
                    if cell_pos in merged_cells:
                        if 'rowspan' in merged_cells[cell_pos]:
                            td['rowspan'] = merged_cells[cell_pos]['rowspan']
                        if 'colspan' in merged_cells[cell_pos]:
                            td['colspan'] = merged_cells[cell_pos]['colspan']
                            j += merged_cells[cell_pos]['colspan'] - 1
                    # 设置单元格内容
                    cell = table.cell(i, j)
                    content = self._get_cell_content(cell)
                    td.string = content
                    tr.append(td)
                    j += 1
            # 添加基本的CSS样式
            style = soup.new_tag('style')
            style.string = f'''
                #{self.table_id} {{
                    border-collapse: collapse;
                    width: 100%;
                    margin-bottom: 1em;
                    font-family: Arial, sans-serif;
                }}
                #{self.table_id} th, #{self.table_id} td {{
                    border: 1px solid #ddd;
                    padding: 8px;
                    text-align: left;
                }}
                #{self.table_id} th {{
                    background-color: #f2f2f2;
                    font-weight: bold;
                }}
                #{self.table_id} tr:nth-child(even) {{
                    background-color: #f9f9f9;
                }}
                #{self.table_id} tr:hover {{
                    background-color: #f5f5f5;
                }}
            '''
            # 返回完整的HTML代码
            html_code = str(style) + str(table_tag)
            return html_code
        except Exception as e:
            self._log(f"转换表格到HTML时出错: {str(e)}")
            import traceback
            traceback.print_exc()
            return f"<div class='error'>表格处理失败: {str(e)}</div>"
    def process_document_tables(self, doc_path: str) -> List[str]:
        """
        处理文档中的所有表格并转换为HTML
        Args:
            doc_path: 文档文件路径
        Returns:
            List[str]: HTML表格代码列表
        """
        try:
            # 打开文档
            doc = docx.Document(doc_path)
            html_tables = []
            # 处理所有表格
            for i, table in enumerate(doc.tables):
                self._log(f"处理第 {i+1} 个表格")
                self.table_id = f"table_{uuid.uuid4().hex[:8]}"  # 为每个表格生成唯一ID
                html_code = self.table_to_html(table)
                html_tables.append(html_code)
            return html_tables
        except Exception as e:
            self._log(f"处理文档表格时出错: {str(e)}")
            import traceback
            traceback.print_exc()
            return [f"<div class='error'>文档处理失败: {str(e)}</div>"]
 def convert_tables_to_html(doc_path: str, output_path: str = None, debug: bool = False):
    """
    将文档中的表格转换为HTML并保存
    Args:
        doc_path: 文档文件路径
        output_path: 输出HTML文件路径，如果为None则使用原文件名+.html
        debug: 是否启用调试模式
    Returns:
        str: 输出文件路径
    """
    if output_path is None:
        # 创建默认输出路径
        base_name = os.path.splitext(doc_path)[0]
        output_path = f"{base_name}_tables.html"
    converter = TableToHtml(debug=debug)
    html_tables = converter.process_document_tables(doc_path)
    # 创建完整HTML文档
    html_content = f'''<!DOCTYPE html>
 <html>
 <head>
    <meta charset="UTF-8">
    <title>表格预览</title>
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
 </head>
 <body>
    <h1>文档中的表格</h1>
    {' '.join(html_tables)}
 </body>
 </html>'''
    # 保存HTML文件
    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(html_content)
    if debug:
        print(f"HTML文件已保存到: {output_path}")
    return output_path
 if __name__ == '__main__':
    import argparse
    parser = argparse.ArgumentParser(description='将Word文档中的表格转换为HTML')
    parser.add_argument('input_file', help='输入文档文件路径')
    parser.add_argument('-o', '--output', help='输出HTML文件路径', default=None)
    parser.add_argument('-d', '--debug', action='store_true', help='启用调试模式')
    args = parser.parse_args()
    result_path = convert_tables_to_html(args.input_file, args.output, args.debug)
    print(f"表格已转换为HTML，文件路径: {result_path}")
		`@@ -1 +0,0 @@`
			1111 【图片识别文本】 “ 完善了异常处理 , 防止惑时目录券除失败导致程序崖澎澎 4. 更新 README.md * 在暨近更新部分记录了临时文件处理机制的改进。添加了 Excel 文件句柄管理使用说明这东改进不需要您做任何额外操作 , 系统会自动 - 1. 在处理 Excel 文件时正球关闭文件句柄 2 当尝试删除文件通刨 “ 文件被占用 “ 错误时 , 自动等待并重试 3 即使无法券除临时文件 , 也不影响处 # 如果仍然通到惧时文件问题 , 系统会在下次启动时自动清理所有临时文件 , 不会影响系统功能。以上优化星觞失了临时文伟删除问题 , 又保持了系统的稳定性 , 让您能雪顺畅地处理 Bxcel 文件。