Venus

AI 原生数据处理智能体 — 白盒数据流引擎
她是一尊断臂的维纳斯
人类通过约束 AI 的工具,可以随时切断她的手臂——
白盒的可审计性约束黑盒的不可预测性
White-Box HMAC Privacy Hash-Chain Audit MCP Ecosystem Zero-LLM Fast Path
Core Architecture

五阶段白盒数据流 — 每个箭头都是一道契约门

S0
意图锚定
Polars dtype 推断
零 LLM
SchemaContract
S1
雷达侦察
6 维并行扫描
双轨分离
RadarReport
S2
调度中枢
自然语言 → 结构化指令
规则引擎 / 1x LLM
ZasaCommand
S3
法官审批
理解力考试
样本验证 + 5 铁律
VerifiedPlan
S4
工程兵执行
COW 快照
12 种原子操作
SandboxResult
13 个 Pydantic V2 强类型 dataclass · 数据不合规则无法通过 · 审批权与执行权分离
Security Framework

三道防线 + 三道机制 — 断臂的哲学

防线 1 · Pydantic 契约层

extra="forbid" 严格模式,LLM 多返回一个字段直接拒绝。13 个契约覆盖全链路。

机制 1 · 断路器

PipelineBreak 受控中断。雷达熔断(CRITICAL ≥ 5)、法官驳回、编译失败——安全停下,不带病执行。

防线 2 · AST 白名单沙箱

自定义代码必须通过 AST 语法树审查。import / exec / eval / open —— 从语法层面杜绝。

机制 2 · COW 快照

每步操作前自动存档(parquet)。操作失败 → 丢弃快照 → 数据零污染。

防线 3 · LLM 输出契约

tool_use 优先 → 不支持时降级正则提取 → 自由文本永远被约束为 JSON。

机制 3 · 哈希链日志

SHA-256 链式审计。每条日志串联前一条的哈希,篡改任意一条 → verify() 立即暴露。

Privacy Protocol

HMAC-SHA256 隐私脱敏 — AI 永远触碰不到原始数据

原始数据
张三110101200001011234
李四110101200002021234
王五110101200003031234
LLM 看到的
PERSON_a3f8c21e[BLOCKED]
PERSON_7b2e9f04[BLOCKED]
PERSON_d1c45a87[BLOCKED]

BLOCK

完全移除。身份证号、银行卡号。LLM 看不到该列。

MASK

HMAC token 化。姓名、手机、邮箱。不可逆,同一密钥跨会话一致。

PASS

不处理。成绩、日期等非敏感字段。

Blockchain-Grade Audit

哈希链式审计 — 篡改任意一条记录都会被发现

GENESIS
prev: 000000...
hash: cdfe2888...
FILL_MISSING
rows: 2
prev: cdfe2888...
hash: c20d37ed...
SORT_ROWS
rows: 10
prev: c20d37ed...
hash: d155b35a...
TAMPERED!
verify() = false
hash mismatch

每条 OperationLog 包含 SHA-256(payload + prev_hash)。seal() 封装,verify() 校验。

V2 Optimization

规则引擎快速路径 — 80% 操作零 LLM

V1.0 Baseline

  • 每次请求 4-5 次 LLM 调用
  • ~7,150 tokens / 请求
  • 延迟 ~12 秒
  • 原始数据发送给 LLM
  • Schema 重复发送 3 次

V2.0 Current

  • 规则路径 0 次 / LLM 路径 1 次
  • 0 tokens(规则)/ ~1,150(LLM)
  • 0.09 秒(规则)/ ~6 秒(LLM)
  • HMAC 脱敏后才接触 LLM
  • YAML 预注册,零重复
Ecosystem

MCP Server — 成为 AI 生态的数据安全层

venus_scan
Excel → Schema 推断 + 6 维雷达报告。任何 MCP 客户端一个调用就能拿到完整的数据质量画像。
venus_execute
自然语言指令 → 5 阶段白盒流水线 → 处理后的 Excel。完整审批链路,不是黑盒执行。
venus_pii_sanitize
上传文件 → 自动检测 7 类 PII → HMAC 脱敏。其他 AI 工具调用此接口实现数据不出域。
venus_formula_trace
追踪 Excel 公式依赖拓扑,4 种引用格式全覆盖。为金融审计提供公式链完整性证明。
venus_lp_solve
线性规划 JSON → PuLP 精确求解。LLM 提参数,本地算数学——AI 不算数,引擎算。
Technical Metrics

数字说话

113
Tests Passed
0 failed, 0 stubs
0.09s
Rule Engine
零 LLM,零 Token
84%
Token Savings
7,150 → 1,150 / 请求
12
Atomic Ops
+ LP Solve
5
MCP Tools
Claude / Cursor / VS Code
10-50x
Polars vs Pandas
Rust Arrow 列式引擎
SHA-256
Audit Chain
不可篡改哈希链
Financial Ready

公式拓扑解析 + 保真屏障 — 金融表的两道保险

公式依赖拓扑解析

递归追踪 Excel 公式链:普通引用 / 绝对引用 / 结构化表引用 / 范围引用全覆盖。输出带"表头名 + 真实数值"的拓扑树,让 LLM 看到的是事实而非猜测。

=SUMPRODUCT(G4:P4,$R$4:$AA$4)
  → G4(SibSp)=1, H4(Parch)=0, ...
  → R4(SibSp权重)=-0.0549, ...

公式保真屏障(三道防线)

LLM 会把 =SUM(A1:A10) 篡改成"求和函数"。三道防线拦截:

1. 精确匹配:修复被去掉 "=" 前缀的公式
2. 列名锚定:提到公式列时自动追加原始公式
3. 公式附录:报告末尾强制追加对照表