6.4k Stars!用Claude Code写论文的全套流水线,有人打包开源了
听雨 发自 凹非寺量子位 | 公家号 QbitAI
用Claude Code写论文的一整套流水线,有人打包开源出来了。
齐全戳中了学生党的痛点,github星标直达6.4k。
项目名叫academic-research-skills(以下简称ARS),是一套Claude Code技术包。
里面涵盖4个skill,别离对应论文的钻延注写作、审稿、定稿。
只需两行号令装置,直接一条龙串起整套学术钻研流水线。
只能说,我读研的时辰怎么没际遇这种好器材呢…
4个skill,跑通整套科研流程
ARS的主题架构由4个skill组成,它们各司其职,拼在一路就是一条从选题到交稿的齐全链路。
我这里还做了图,各人能够看得比力直观:
△AI天生
Deep Research是一支13个Agent的钻研团队。
它掌管文件调延注钻研问题构建、步骤论设计,还能写系统性的PRISMA综述。
团队里有专门做文件溯源的Agent,会挪用Semantic Scholar API验证每一篇引用的真实性。
有苏格拉底导师Agent,通过对话疏导钻研者理清思路。
还有妖怪代言人Agent,专门挑刺,预防钻研者在早期就陷入思想定式。
△AI天生
Academic Paper是一支12个Agent的写作团队。
从纲领设计、论证构建、草稿撰写,到双语提要天生、图表可视化、引用体式转换,全流程覆盖。
出格值得一提的是风格校准职能,AI会进建你过往文章的写风格格,让输出更像你自己写的,而不是千篇一律的AI味。
输出体式支持Markdown、DOCX、LaTeX,最终能够编译成APA 7.0或IEEE体式的PDF。
△AI天生
Academic Paper Reviewer是一支7个Agent的审稿团队。
仿照真实学术期刊的评审流程,由主编EIC携带三位领域审稿人,再加上一个妖怪代言人,从步骤论、学科视角、跨学科价值等多个维度打分。
评分选取0到100的量化尺度,80分以上接受,65到79幼建,50到64大建,50以下拒稿。
审稿团队还会输出具体的批改路线图,通知作者下一步该做什么。
△AI天生
Academic Pipeline是流程编排器,把前面三个团队串联成一条10阶段的流水线。
从钻延注写作、齐全性查抄、同业评审、订正、最终查抄,到颁发筹备和流程总结,每个阶段都有明确的产品和查抄点。
你能够在肆意阶段插入,好比已经有了初稿,就从Stage 2.5的齐全性查抄起头;收到了审稿定见,直接从Stage 4的订正切入。
用度参考也很通明,一篇1.5万字的论文,全程跑下来约莫4到6美元。
△AI天生
比力有意思的设计
用Claude Code做学术钻研的开源项目已经好多了,但是深扒之后,我发现ARS在底层设计上还是有些过人之处。
能够单一总结为一句话:系统性预防AI搞砸学术钻研。
第一,引用核验。
AI写论文最忌讳的,就是幻觉引用。
不只是假造不存在的文章,还蕴含标题类似但作者年份全错、DOI真实但内容对不高等更荫蔽的情况。
ARS在Deep Research阶段就埋了一个引用核验机造,每一篇文件都要过Semantic Scholar API的存在性确认。
不是单一查一下标题对不合,而是用Levenshtein类似度算法做吞吐匹配,阈值设在0.70以上才算通过。
△AI天生
第二,齐全性闸门。
在流水线的Stage 2.5和Stage 4.5,有两路不成跳过的齐全性闸门,会运行一份7项AI失败模式查抄清单。
这份清单直接来自2026年Nature上颁发的一项全自主AI科研钻研,其中总结了7种翻车模式,覆盖引用幻觉、数据凭空、步骤论造假等情景。
任何在2.5被象征为SUSPECTED的问题,必须在4.5造成CLEAR,或者由人为手动覆盖并留下纪录。
设计逻辑是:把「我相信AI不会犯错」造成「我要求AI证明它没犯错」。
实测中,这套机造在一篇真实论文里抓到了15个伪造引用和3个统计谬误。
第三,反讨好和谈,让AI敢于说不。
大无数AI工具都有一个隐形弊端,讨好用户。你让它改,它就改,哪怕改得更差。
所以ARS在审稿环节专门设计了反讨好机造。
审稿团队里有一个Devil’s Advocate,也就是妖怪代言人,职责是挑刺。
但挑完刺之后,还有一个让步阈值和谈。
DA的辩驳会被评分1到5,若是低于4分,写作团队不允许认可。
△AI天生
换句话说,AI不能为了显得好合作就等闲让步。
同时,攻击强度在订正过程中必须维持。若是第一轮审稿把步骤论批得遍体鳞伤,作者订正后不能让审稿人忽然变得温顺。
评分轨迹也会被追踪,任何维度的分数降落城市被象征为回归。
这和软件工程里的不引入新Bug准则一样,改一个处所不能搞砸另一个处所。
第四,三层数据隔离,不让AI偷看答案。
ARS把数据流严格分成三层:
Layer 1是原始输入,默认不成信,可能幻觉、过期、带私见。
Layer 2是通过齐全性验证后的产品。
Layer 3是评分尺度、参考答案和金标数据,这层资料始终不能呈此刻写作AI的高低文中。
具体实现上,写作团队和审稿团队分两次独立挪用,中央有阶段天堑隔离。
写作AI只能收到审稿AI的天然说话反馈,好比「第二章论证跳跃,建议补充对比尝试」。
但它看不到原始的评分尺度,也不知路每个维度占几多分。
这个设计的灵感来自于Anthropic今年的w2s-researcher钻研,其中也用了同样的三层隔离模型。
结论是当AI能读取标签数据时,了局可能不是真的泛化,而是在优化表表特点。
解决规划不是更好的提醒词,而是结构上的隔离。
△AI天生
最后一点,恳切文档化,「我不保障能复现」。
学术界时时遇到「这个了局我复现不了」的问题。ARS给每个产品天生一个repro_lock文件,纪录运行时的齐全配置。
但文件里有一段强造申明,LLM输出不是字节级可复现的,模型提供商会更新权重而不改模型ID,表部API每天返回分歧的数据。
这个文件只是配置文档,不是重放保障。
△AI天生
在更新日志上,能够看到ARS已经经历了好多轮迭代。从2月上线到此刻,提交的commit数达到了三百屡次。
从每次版本更迭中,也能看出作者对AI学术钻研系统风险有着深刻理解。
这也是我感触目前学术钻研AI工具的关键地点——
让AI助你写论文并不难,重点是若何预防它犯错、讨好,让整个流程变得更系统更靠得住。
ARS的设计哲学,能够总结为README里那句话:
「AI是你的副驾驶,不是飞行员。」
若何装置
装置方式很单一,若是你已经在用Claude Code,只必要两行号令:
/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills
验证装置是否成功,运行:
而后描述你在写的论文主题,ARS就会启动苏格拉底对话,助你梳理论文结构。
若是你偏好单条号令测试,也能够用:
/ars-lit-review “你的钻研主题”
不外最单一的装置法子,其实是直接把SKILL.md上传到claude.ai项目知识库。
不必要装置Claude Code,打开浏览器就能用。
不外要把稳,这种方式不支持多Agent并行,职能上是单Agent版本,适合轻度履历;想跑齐全流水线还是必要Claude Code。
还有一点,项目支持繁体中文和英文。
那么,又到了各人最关切的,要花几多钱的环节。
作者推荐使用Claude Opus 4.7搭配Max订阅打算。
齐全跑完10个阶段,单次可亏损超过20万输入token和10万输出token,单独使用某个子?樵蛏俚枚。
Max订阅打算分两档,每月100刀或200刀,相当不便宜。
但若是你的科研经费能够报销的话,那…
最后唠一句项目作者。
他是Edward Cheng-I Wu(吴政宜),头像是一个顶着猫猫的可爱男生。
他来自中国台湾。在github上,他还做了台湾正式文件写作Skill(公函、存证信函、合约)、本地数据匿名化工具等项目。
项目地址:
https://github.com/Imbad0202/academic-research-skills
文章点评
未查问到任何数据!
颁发评论
◎迎接参加会商,请在这里颁发您的见解、互换您的概想。