TaxHacker:一个把 AI 票据识别、自托管和账务整理放到一起的 GitHub 项目

快速信息
  • TaxHacker:一个把 AI 票据识别、自托管和账务整理放到一起的 GitHub 项目

很多人对记账工具最大的不满,不是不会记,而是根本记不动

票据太碎了。收据在相册里,发票在邮箱里,PDF 在下载目录里,海外订阅和多币种付款又混在一起。等到月底、季度末,或者真要报税的时候,前面欠下来的整理工作会一次性全砸回来。

TaxHacker 让我觉得有意思,就是因为它虽然是从 AI 票据识别 切进去的,但最后想做的并不是“识别完给你一段文本”,而是把这些碎文档继续整理成可筛选、可换汇、可导出的账务数据。对自由职业者、独立开发者和小团队来说,这个定位更准确。

项目卡

项目名:TaxHacker GitHub:https://github.com/vas3k/TaxHacker 一句话判断:一个以 AI 票据识别为入口的自托管账务整理工具,重点不是“识别完就结束”,而是后面还能继续做分类、筛选、换汇、导出和留档。 当前状态:仓库 README 明确写了 still in early development,但主分支最近还有更新,最新 tag 已到 v0.6.1

打开后看到的主界面就是这种感觉:文档、交易、分类和筛选是在一个工作台里串起来的。

图注:打开后看到的主界面就是这种感觉:文档、交易、分类和筛选是在一个工作台里串起来的。

它到底能做什么?

TaxHacker 的核心流程很直白:上传收据、发票、PDF,用 AI 提取日期、金额、商家、税额和条目,再存进结构化表格里继续做分类、过滤、导出和报表。

README 里写得很明确,它的目标用户就是:

  • freelancers
  • indie hackers
  • small businesses

这点其实挺重要。因为很多“票据识别”项目停在 OCR 这一步,但记账真正麻烦的地方,恰恰是 OCR 之后那一串脏活:归类、换算、查找、导出、对账。

TaxHacker 明显是往后多走了一大步。

这项目最有价值的,不只是识别,而是后面的整套账务动作

我一开始最关心的是:它是不是又一个“演示很顺,落地很浅”的项目。

但 README 看下来,我觉得它的信息量主要在后半段。

1)上传完不是结束,而是进数据库继续用

它不是把识别结果吐成一段文本就完了,而是直接进入一个 Excel 风格的结构化数据库。

这意味着你后面可以继续:

  • 按项目筛选
  • 按分类筛选
  • 按金额区间筛选
  • 按日期筛选
  • 按自定义字段筛选

因为真正常用的记账工具,价值不在“识别成功一次”,而在“下个月你还能不能找得到”。

2)多币种自动换算,这点对独立开发者很实用

如果你平时订阅海外 SaaS、买 API、收外币打款,这个点会很有感。

README 里提到它支持:

  • 自动识别币种
  • 按交易当天的历史汇率换算
  • 支持 170+ 种法币
  • 还包含 14 种主流加密货币
如果你的账单里经常同时出现美元、欧元甚至加密货币,这类自动换算会省掉很多手工整理。

图注:如果你的账单里经常同时出现美元、欧元甚至加密货币,这类自动换算会省掉很多手工整理。

这不是花哨功能,是真能省时间的地方。你自己做产品、同时又在多平台收支时,币种一混,Excel 很容易越记越乱。

3)它支持自定义字段和自定义 prompt

这是 TaxHacker 比一般记账小工具更像“可用系统”的地方。

你不只能提取通用字段,还能自己定义:

  • 项目编号
  • 客户名
  • 合同号
  • 地址
  • 邮箱
  • 任何你想从票据里继续抽出来的信息

而且 README 里写了,连系统 prompt 都能改。

这个设计对通用用户不一定重要,但对有自己记账口径、行业字段、报销规则的人很有用。它不是逼你适应软件,而是允许你把软件往自己的流程上拽。

它不只是认票据,还允许你继续抽你真正关心的字段,这才更像能长期留下来的工具。

图注:它不只是认票据,还允许你继续抽你真正关心的字段,这才更像能长期留下来的工具。

自托管这件事,在这里不是口号

很多项目会写自己是 self-hosted,但真正落地时还是很折腾。

TaxHacker 这点做得还算直接。

README 里给了最短部署方式:

bashcode
curl -O https://raw.githubusercontent.com/vas3k/TaxHacker/main/docker-compose.yml

docker compose up

默认 compose 里带:

  • app 容器
  • PostgreSQL 17
  • 持久化 volume
  • 启动时自动 migration

端口默认是 7331,环境变量里核心也就几项:

  • UPLOAD_PATH
  • DATABASE_URL
  • BETTER_AUTH_SECRET
  • SELF_HOSTED_MODE=true

如果只是想在自己的服务器或 NAS 上先跑起来,这个门槛并不高。

README 自己也写了:还在 early development。

所以我会把它看成一个“方向很对、现在已经能用、但还不该被神化”的项目。

我对它的判断

TaxHacker 让我感兴趣的,不是它用了 AI,而是它把 AI 放在了一个足够具体、足够刚需、也足够适合 self-hosting 的场景里。

票据、发票、账单这些东西,本来就带着隐私,也天然需要长期归档。你把它们交给一个能自托管、能导出、能迁移、还能自己改提取逻辑的系统,逻辑上是说得通的。

如果是我自己试,我不会一上来就把整套账务迁进去。

我会先拿一批过去的收据和 PDF 跑一下,看三件事:

  • 识别准确率够不够
  • 自定义字段是不是顺手
  • 导出后的数据能不能真的进入我现有的报税或记账流程

这三件事过了,它才值得继续留。

作为一个开源方向,我觉得 TaxHacker 是有意思的。它没有停在“AI 识别一下很酷”,而是在努力把识别结果变成真正能继续工作的账务数据。

如果这篇对你有用,建议点个关注。我会持续把 GitHub 上值得用的 AI 工具拆成「最短上手闭环 + 坑点清单 + 可复用配置」,让你少走弯路。


关注微信公众号

想第一时间看到后续的工具拆解与实战更新,欢迎扫码关注公众号。

相关推荐
后续如果这个站继续积累 AI 工具 / GitHub 项目解析,建议把这篇归入专题页,和相关项目文章互相串起来,让 WordPress 不只是归档页,而是长期吃搜索的内容库。