NeurIPS 2025交互式教程

ConTextTab

A Semantics-Aware Tabular In-Context Learner

Marco Spinaci, Marek Polewczyk, Maximilian Schambach, Sam Thelin — SAP

01

研究动机

弥合 Table-native ICL 与 LLM-based ICL 之间的鸿沟

表格数据的上下文学习(In-Context Learning, ICL)近年来取得了显著进展,但现有方法分为两个阵营,各有明显短板。ConTextTab 的核心动机在于融合两者的优势,构建一个既保留表格原生架构效率,又具备语义理解能力的统一框架。

Table-native ICLTabPFN, TabICL

在架构上高效且天然适配表格的二维结构,支持大量上下文行。但完全在合成数值数据上训练,无法利用列名、类别标签、自由文本或日期中的语义信息。

高效架构大上下文无语义合成数据
LLM-based ICLTabuLa-8B

继承了大语言模型的世界知识和深层语义理解能力。但受限于文本序列化带来的 token 低效、极小的可用上下文(约 32 行),以及丢失表格的 2D 结构和置换不变性。

语义理解世界知识小上下文丢失结构

ConTextTab 的解决方案:在 table-native 的骨干架构上,引入预训练语义嵌入来编码单元格值和列名,并在大规模真实世界表格语料(T4 数据集,2.18M 张表)上进行预训练。这使得模型既保持了高效的表格原生架构,又获得了对语义信息的深度理解。

三类方法详细对比

维度Table-native ICLLLM-based ICLConTextTab
训练数据合成数值数据
真实世界表格(T4, 3M 表)
真实世界表格(T4, 2.18M 表)
语义理解无(列名/类别值被忽略)
强(继承 LLM 世界知识)
强(预训练文本嵌入)
上下文容量大(~10,000 行)
小(~32 行)
大(默认 8,192 行)
Token 效率高(直接嵌入)
低(文本序列化)
高(直接嵌入)
表格结构保留完整(2D 注意力)
丢失(1D 序列化)
完整(2D 注意力)
置换等变性
代表方法TabPFN, TabICLTabuLa-8BConTextTab
02

模型架构总览

数据类型特定编码 → 交替注意力骨干 → 任务特定解码

ConTextTab 的架构由三个核心模块组成。首先,编码模块根据数据类型(文本、日期、数值)使用不同的嵌入策略,并将列名嵌入作为'位置编码'与单元格嵌入相加。然后,骨干网络采用交替的 cross-column 和 cross-row 自注意力层处理表格数据。最后,解码模块根据任务类型(分类或回归)输出预测结果。

编码模块

文本 → MiniLM 嵌入;日期 → Day/Month/Year 分别嵌入后相加;数值 → 裁剪+标准化+线性变换;列名 → 语义嵌入后与单元格相加

骨干网络

交替的 cross-column(无掩码,行内特征交互)和 cross-row(有掩码,行间上下文学习)自注意力层,12 层,768 维

解码模块

分类:MLP + cross-entropy loss;回归:预测标准化后的浮点值 + L₂ loss

关键设计选择:模型权重在各注意力块之间共享(类似 RNN 的迭代结构),将 172M 参数压缩至 16M 可训练参数,而实验表明这不影响性能。整个编码过程保持了行和列的置换等变性,这是表格数据的重要归纳偏置。

03

编码模块详解

四种数据类型,四种编码策略

ConTextTab 的核心创新之一是根据数据模态(文本、日期、数值)使用不同的嵌入策略。列名也被语义编码并与单元格嵌入相加,扮演类似'位置编码'的角色。点击下方各类型,查看具体的编码流程。

文本编码"Laptop"
1

输入文本单元格值(如 "Laptop")

2

通过预训练文本嵌入模型(all-MiniLM-L6-v2)编码

3

得到语义向量(保留了 "Laptop" 的含义)

4

通过可学习线性层映射到目标维度 d

Encoding pipeline illustration

数值编码深入:裁剪与标准化

真实世界表格中充满异常值和噪声分布。ConTextTab 通过分位数裁剪和标准化来限制数值幅度,防止预训练过程中的梯度爆炸。拖动下方滑块,观察不同裁剪百分位对数据分布的影响。

2% / 98.0%
原始分布(裁剪前)
-55红色 = 被裁剪205
标准化后分布
-2.9零均值,单位方差3.1
下界
10.1
上界
89.1
标准化范围
[-2.4, 2.6]
Chebyshev 界
(-7.1, 7.1)
04

注意力机制详解

Cross-column 与 Cross-row:表格 ICL 的核心

ConTextTab 的骨干网络交替使用两种自注意力机制。Cross-column attention(无掩码)允许同一行内所有特征自由交互,学习特征间的复杂关系。Cross-row attention(有掩码)确保 query 行只能从 context 行中学习,这正是实现 in-context learning 的关键。

悬停下方表格中的单元格,观察不同注意力模式下每个位置能'看到'哪些其他位置。

行内特征交互(无掩码)
日期
价格
描述
状态
C1
·
·
·
·
C2
·
·
·
·
C3
·
·
·
·
Q1
·
·
·
·
Q2
·
·
·
·
Context 行 Query 行 可注意

Cross-Column Attention(无掩码)

在同一行内,所有特征(列)之间可以自由交互。每一行被视为一个独立的 batch 元素。

这使得模型能够学习特征之间的复杂关系,例如'价格'与'描述'之间的关联。

悬停任意单元格,查看它能注意到哪些位置。

为什么 cross-row 掩码至关重要?如果 query 行能注意到其他 query 行,模型就可能'偷看'其他查询样本的标签,而非真正从 context 中学习。掩码机制强制执行了 ICL 的核心范式:从已标注的 (x, y) 上下文对中学习预测规则,然后应用到新的查询上。

05

训练与推理

大规模预训练 + 8-fold Bagging 推理

训练配置
预训练数据T4 (2.18M 表)
表格中位数750 行 × 9 列
训练上下文大小50~900 行
训练步数4~10M 步
硬件1× H100 GPU
训练时长4~12 天
推理配置
Bagging 折数8 折
默认上下文大小c = 8,192
最大可用数据8 × 8,192 = 65,536
列采样上限500 列/折
外推能力训练 ≤950 → 推理 8192
聚合方式预测概率/值取平均

8-fold Bagging 过程演示

推理时,模型从训练集中有放回地采样 8 次上下文,分别进行预测,最后聚合结果。这使得模型能够利用远超训练时上下文大小的数据量。点击按钮逐步查看采样过程。

进度: 0/8 折
训练集 (20 行)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Bagging 折数
Bagging process illustration
06

实验结果

跨 5 个基准测试的全面评估

ConTextTab 在语义丰富的 CARTE 基准上设立了新的 SOTA,同时在非语义基准上与调优的 boosted trees 竞争力相当。切换下方的基准测试和指标,查看不同场景下的表现。

ConTextTab
76.9
LightGBM
73.4
CatBoost
75.9
TabPFN
72.3
TabICL
72.5
RealMLP
73.4
ConTextTab 在语义丰富的 CARTE 基准上排名第一,显著优于所有其他 table-native ICL 方法,验证了语义编码的核心价值。

关键发现

语义是核心驱动力

消融实验表明,将语义编码替换为传统编码器(MinHash/GapEncoder)会导致 CARTE 上的显著性能下降。移除列名语义导致约 1% 准确率和 2% R² 的下降。

小数据场景优势明显

在 CARTE 基准的不同数据量子集上,ConTextTab 在 2048 行以下的所有规模上一致优于其他模型,甚至超越 AutoGluon。

大数据场景仍有挑战

所有 table-native ICL 模型在非常大的数据集上仍难以与调优的 boosted trees 和 AutoGluon 竞争。增加上下文和 bagging 并不能完全解决这一问题。

权重共享有效

注意力块之间的权重共享将参数从 172M 压缩至 16M,而实验表明这不影响甚至略微提升了性能。