k8凯发天生赢家

新闻中心 新闻中心

6.4k Stars!用Claude Code写论文的全套流水线 ,有人打包开源了

听雨 发自 凹非寺量子位 | 公家号 Q

作者:谢柏钧
颁布功夫:2026-06-03 01:21:47
阅读量:682

6.4k Stars!用Claude Code写论文的全套流水线 ,有人打包开源了

听雨 发自 凹非寺量子位 | 公家号 QbitAI

用Claude Code写论文的一整套流水线 ,有人打包开源出来了 。

齐全戳中了学生党的痛点 ,github星标直达6.4k 。

项目名叫academic-research-skills(以下简称ARS) ,是一套Claude Code技术包 。

里面涵盖4个skill ,别离对应论文的钻延注写作、审稿、定稿 。

只需两行号令装置 ,直接一条龙串起整套学术钻研流水线 。

只能说 ,我读研的时辰怎么没际遇这种好器材呢…

4个skill ,跑通整套科研流程

ARS的主题架构由4个skill组成 ,它们各司其职 ,拼在一路就是一条从选题到交稿的齐全链路 。

我这里还做了图 ,各人能够看得比力直观:

△AI天生

Deep Research是一支13个Agent的钻研团队 。

它掌管文件调延注钻研问题构建、步骤论设计 ,还能写系统性的PRISMA综述 。

团队里有专门做文件溯源的Agent ,会挪用Semantic Scholar API验证每一篇引用的真实性 。

有苏格拉底导师Agent ,通过对话疏导钻研者理清思路 。

还有妖怪代言人Agent ,专门挑刺 ,预防钻研者在早期就陷入思想定式 。

△AI天生

Academic Paper是一支12个Agent的写作团队 。

从纲领设计、论证构建、草稿撰写 ,到双语提要天生、图表可视化、引用体式转换 ,全流程覆盖 。

出格值得一提的是风格校准职能 ,AI会进建你过往文章的写风格格 ,让输出更像你自己写的 ,而不是千篇一律的AI味 。

输出体式支持Markdown、DOCX、LaTeX ,最终能够编译成APA 7.0或IEEE体式的PDF 。

△AI天生

Academic Paper Reviewer是一支7个Agent的审稿团队 。

仿照真实学术期刊的评审流程 ,由主编EIC携带三位领域审稿人 ,再加上一个妖怪代言人 ,从步骤论、学科视角、跨学科价值等多个维度打分 。

评分选取0到100的量化尺度 ,80分以上接受 ,65到79幼建 ,50到64大建 ,50以下拒稿 。

审稿团队还会输出具体的批改路线图 ,通知作者下一步该做什么 。

△AI天生

Academic Pipeline是流程编排器 ,把前面三个团队串联成一条10阶段的流水线 。

从钻延注写作、齐全性查抄、同业评审、订正、最终查抄 ,到颁发筹备和流程总结 ,每个阶段都有明确的产品和查抄点 。

你能够在肆意阶段插入 ,好比已经有了初稿 ,就从Stage 2.5的齐全性查抄起头;收到了审稿定见 ,直接从Stage 4的订正切入 。

用度参考也很通明 ,一篇1.5万字的论文 ,全程跑下来约莫4到6美元 。

△AI天生

比力有意思的设计

用Claude Code做学术钻研的开源项目已经好多了 ,但是深扒之后 ,我发现ARS在底层设计上还是有些过人之处 。

能够单一总结为一句话:系统性预防AI搞砸学术钻研 。

第一 ,引用核验 。

AI写论文最忌讳的 ,就是幻觉引用 。

不只是假造不存在的文章 ,还蕴含标题类似但作者年份全错、DOI真实但内容对不高等更荫蔽的情况 。

ARS在Deep Research阶段就埋了一个引用核验机造 ,每一篇文件都要过Semantic Scholar API的存在性确认 。

不是单一查一下标题对不合 ,而是用Levenshtein类似度算法做吞吐匹配 ,阈值设在0.70以上才算通过 。

△AI天生

第二 ,齐全性闸门 。

在流水线的Stage 2.5和Stage 4.5 ,有两路不成跳过的齐全性闸门 ,会运行一份7项AI失败模式查抄清单 。

这份清单直接来自2026年Nature上颁发的一项全自主AI科研钻研 ,其中总结了7种翻车模式 ,覆盖引用幻觉、数据凭空、步骤论造假等情景 。

任何在2.5被象征为SUSPECTED的问题 ,必须在4.5造成CLEAR ,或者由人为手动覆盖并留下纪录 。

设计逻辑是:把「我相信AI不会犯错」造成「我要求AI证明它没犯错」 。

实测中 ,这套机造在一篇真实论文里抓到了15个伪造引用和3个统计谬误 。

第三 ,反讨好和谈 ,让AI敢于说不 。

大无数AI工具都有一个隐形弊端 ,讨好用户 。你让它改 ,它就改 ,哪怕改得更差 。

所以ARS在审稿环节专门设计了反讨好机造 。

审稿团队里有一个Devil’s Advocate ,也就是妖怪代言人 ,职责是挑刺 。

但挑完刺之后 ,还有一个让步阈值和谈 。

DA的辩驳会被评分1到5 ,若是低于4分 ,写作团队不允许认可 。

△AI天生

换句话说 ,AI不能为了显得好合作就等闲让步 。

同时 ,攻击强度在订正过程中必须维持 。若是第一轮审稿把步骤论批得遍体鳞伤 ,作者订正后不能让审稿人忽然变得温顺 。

评分轨迹也会被追踪 ,任何维度的分数降落城市被象征为回归 。

这和软件工程里的不引入新Bug准则一样 ,改一个处所不能搞砸另一个处所 。

第四 ,三层数据隔离 ,不让AI偷看答案 。

ARS把数据流严格分成三层:

Layer 1是原始输入 ,默认不成信 ,可能幻觉、过期、带私见 。

Layer 2是通过齐全性验证后的产品 。

Layer 3是评分尺度、参考答案和金标数据 ,这层资料始终不能呈此刻写作AI的高低文中 。

具体实现上 ,写作团队和审稿团队分两次独立挪用 ,中央有阶段天堑隔离 。

写作AI只能收到审稿AI的天然说话反馈 ,好比「第二章论证跳跃 ,建议补充对比尝试」 。

但它看不到原始的评分尺度 ,也不知路每个维度占几多分 。

这个设计的灵感来自于Anthropic今年的w2s-researcher钻研 ,其中也用了同样的三层隔离模型 。

结论是当AI能读取标签数据时 ,了局可能不是真的泛化 ,而是在优化表表特点 。

解决规划不是更好的提醒词 ,而是结构上的隔离 。

△AI天生

最后一点 ,恳切文档化 ,「我不保障能复现」 。

学术界时时遇到「这个了局我复现不了」的问题 。ARS给每个产品天生一个repro_lock文件 ,纪录运行时的齐全配置 。

但文件里有一段强造申明 ,LLM输出不是字节级可复现的 ,模型提供商会更新权重而不改模型ID ,表部API每天返回分歧的数据 。

这个文件只是配置文档 ,不是重放保障 。

△AI天生

在更新日志上 ,能够看到ARS已经经历了好多轮迭代 。从2月上线到此刻 ,提交的commit数达到了三百屡次 。

从每次版本更迭中 ,也能看出作者对AI学术钻研系统风险有着深刻理解 。

这也是我感触目前学术钻研AI工具的关键地点——

让AI助你写论文并不难 ,重点是若何预防它犯错、讨好 ,让整个流程变得更系统更靠得住 。

ARS的设计哲学 ,能够总结为README里那句话:

「AI是你的副驾驶 ,不是飞行员 。」

若何装置

装置方式很单一 ,若是你已经在用Claude Code ,只必要两行号令:

/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills

验证装置是否成功 ,运行:

而后描述你在写的论文主题 ,ARS就会启动苏格拉底对话 ,助你梳理论文结构 。

若是你偏好单条号令测试 ,也能够用:

/ars-lit-review “你的钻研主题”

不外最单一的装置法子 ,其实是直接把SKILL.md上传到claude.ai项目知识库 。

不必要装置Claude Code ,打开浏览器就能用 。

不外要把稳 ,这种方式不支持多Agent并行 ,职能上是单Agent版本 ,适合轻度履历;想跑齐全流水线还是必要Claude Code 。

还有一点 ,项目支持繁体中文和英文 。

那么 ,又到了各人最关切的 ,要花几多钱的环节 。

作者推荐使用Claude Opus 4.7搭配Max订阅打算 。

齐全跑完10个阶段 ,单次可亏损超过20万输入token和10万输出token ,单独使用某个子?樵蛏俚枚 。

Max订阅打算分两档 ,每月100刀或200刀 ,相当不便宜 。

但若是你的科研经费能够报销的话 ,那…

最后唠一句项目作者 。

他是Edward Cheng-I Wu(吴政宜) ,头像是一个顶着猫猫的可爱男生 。

他来自中国台湾 。在github上 ,他还做了台湾正式文件写作Skill(公函、存证信函、合约)、本地数据匿名化工具等项目 。

项目地址:

https://github.com/Imbad0202/academic-research-skills

 

文章点评

未查问到任何数据!

颁发评论

◎迎接参加会商 ,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】