TaxHacker:一个把 AI 票据识别、自托管和账务整理放到一起的 GitHub 项目
- Prompt / Skills / 配置
- 15天前
- 59热度
- 0评论
- TaxHacker:一个把 AI 票据识别、自托管和账务整理放到一起的 GitHub 项目
很多人对记账工具最大的不满,不是不会记,而是根本记不动。
票据太碎了。收据在相册里,发票在邮箱里,PDF 在下载目录里,海外订阅和多币种付款又混在一起。等到月底、季度末,或者真要报税的时候,前面欠下来的整理工作会一次性全砸回来。
TaxHacker 让我觉得有意思,就是因为它虽然是从 AI 票据识别 切进去的,但最后想做的并不是“识别完给你一段文本”,而是把这些碎文档继续整理成可筛选、可换汇、可导出的账务数据。对自由职业者、独立开发者和小团队来说,这个定位更准确。
项目卡
项目名:TaxHacker GitHub:https://github.com/vas3k/TaxHacker 一句话判断:一个以 AI 票据识别为入口的自托管账务整理工具,重点不是“识别完就结束”,而是后面还能继续做分类、筛选、换汇、导出和留档。 当前状态:仓库 README 明确写了 still in early development,但主分支最近还有更新,最新 tag 已到 v0.6.1。

图注:打开后看到的主界面就是这种感觉:文档、交易、分类和筛选是在一个工作台里串起来的。
它到底能做什么?
TaxHacker 的核心流程很直白:上传收据、发票、PDF,用 AI 提取日期、金额、商家、税额和条目,再存进结构化表格里继续做分类、过滤、导出和报表。
README 里写得很明确,它的目标用户就是:
- freelancers
- indie hackers
- small businesses
这点其实挺重要。因为很多“票据识别”项目停在 OCR 这一步,但记账真正麻烦的地方,恰恰是 OCR 之后那一串脏活:归类、换算、查找、导出、对账。
TaxHacker 明显是往后多走了一大步。
这项目最有价值的,不只是识别,而是后面的整套账务动作
我一开始最关心的是:它是不是又一个“演示很顺,落地很浅”的项目。
但 README 看下来,我觉得它的信息量主要在后半段。
1)上传完不是结束,而是进数据库继续用
它不是把识别结果吐成一段文本就完了,而是直接进入一个 Excel 风格的结构化数据库。
这意味着你后面可以继续:
- 按项目筛选
- 按分类筛选
- 按金额区间筛选
- 按日期筛选
- 按自定义字段筛选
因为真正常用的记账工具,价值不在“识别成功一次”,而在“下个月你还能不能找得到”。
2)多币种自动换算,这点对独立开发者很实用
如果你平时订阅海外 SaaS、买 API、收外币打款,这个点会很有感。
README 里提到它支持:
- 自动识别币种
- 按交易当天的历史汇率换算
- 支持 170+ 种法币
- 还包含 14 种主流加密货币

图注:如果你的账单里经常同时出现美元、欧元甚至加密货币,这类自动换算会省掉很多手工整理。
这不是花哨功能,是真能省时间的地方。你自己做产品、同时又在多平台收支时,币种一混,Excel 很容易越记越乱。
3)它支持自定义字段和自定义 prompt
这是 TaxHacker 比一般记账小工具更像“可用系统”的地方。
你不只能提取通用字段,还能自己定义:
- 项目编号
- 客户名
- 合同号
- 地址
- 邮箱
- 任何你想从票据里继续抽出来的信息
而且 README 里写了,连系统 prompt 都能改。
这个设计对通用用户不一定重要,但对有自己记账口径、行业字段、报销规则的人很有用。它不是逼你适应软件,而是允许你把软件往自己的流程上拽。

图注:它不只是认票据,还允许你继续抽你真正关心的字段,这才更像能长期留下来的工具。
自托管这件事,在这里不是口号
很多项目会写自己是 self-hosted,但真正落地时还是很折腾。
TaxHacker 这点做得还算直接。
README 里给了最短部署方式:
默认 compose 里带:
- app 容器
- PostgreSQL 17
- 持久化 volume
- 启动时自动 migration
端口默认是 7331,环境变量里核心也就几项:
UPLOAD_PATHDATABASE_URLBETTER_AUTH_SECRETSELF_HOSTED_MODE=true
如果只是想在自己的服务器或 NAS 上先跑起来,这个门槛并不高。
README 自己也写了:还在 early development。
所以我会把它看成一个“方向很对、现在已经能用、但还不该被神化”的项目。
我对它的判断
TaxHacker 让我感兴趣的,不是它用了 AI,而是它把 AI 放在了一个足够具体、足够刚需、也足够适合 self-hosting 的场景里。
票据、发票、账单这些东西,本来就带着隐私,也天然需要长期归档。你把它们交给一个能自托管、能导出、能迁移、还能自己改提取逻辑的系统,逻辑上是说得通的。
如果是我自己试,我不会一上来就把整套账务迁进去。
我会先拿一批过去的收据和 PDF 跑一下,看三件事:
- 识别准确率够不够
- 自定义字段是不是顺手
- 导出后的数据能不能真的进入我现有的报税或记账流程
这三件事过了,它才值得继续留。
作为一个开源方向,我觉得 TaxHacker 是有意思的。它没有停在“AI 识别一下很酷”,而是在努力把识别结果变成真正能继续工作的账务数据。
如果这篇对你有用,建议点个关注。我会持续把 GitHub 上值得用的 AI 工具拆成「最短上手闭环 + 坑点清单 + 可复用配置」,让你少走弯路。
关注微信公众号
想第一时间看到后续的工具拆解与实战更新,欢迎扫码关注公众号。

- 最新评论
- 评论区