先看效果:
以及:
而原始英文新闻源头地址: https://www.abc.net.au/news/2025-12-08/zinc-sunscreen-brands-spf-testing-lower-than-advertising/106050396
这个东西牛的点在于没有使用任何剪辑软件,没有使用剪映小助手,没有直接写代码,而是直接给提示词让 ai 把代码层面做掉,这玩意放到服务器上,全自动都行。
玩过 coze 扣子视频工作流的大概都知道,在工作流中最终能拿到的成品是一个 json 文件,往往需要下载剪映小助手(第三方软件),通过它将素材下载到本地形成草稿,再由剪映合成,最终拿到成品,该说不说有点不够优雅。
其实在10月份的时候我就尝试了,效果不是很好,ai写代码的能力太差了,详情可看:探索 CodeBuddy code CLI 在视频生成项目中的高效应用。
而 Gemini3 的出现让这一切变得轻而易举。
0. 前言:为什么要用 AI 做新闻视频自动化?
- 英文新闻源质量高、更新快
- 中文内容需求大,人工制作成本高
- AI(Gemini 3)+ Colab + Vibe Coding → 低成本、高效率工作流
- 本文最终成果展示
- 简述 Coze 位置(后文深入对比)
1. 整体流程概览(Workflow Architecture)
下面即是整体的流程概览,亦是流程生成的提示词。
是的,我绑住了自己的手脚,将下面的提示词丢给了ai,ai给了我整个工作流。
我都有点怀疑低代码工作流存在的必要性了,你没办法直接让ai生产coze工作流,这里涉及到gui,但你可以让ai直接通过代码的方式来做到,当然,ai代码能力还需要进一步提升。
【需求】 请实现一个自动化脚本,将英文新闻转换为中文短视频。
【输出要求】 生成一个短视频文件(.mp4)包含:
- 中文配音(普通话)
- 中文字幕(硬字幕,字体选择支持中文的)
- 背景图片(可用新闻配图或纯色背景)
【具体步骤】
- 根据时间创建一个目录,后续工作在该目录下进行,格式为2025-12-08_09-38-19
- 将用户输入的url对应的内容写入本地html文件中。请求url时添加header:::
# Add a User-Agent header to mimic a web browser
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
- 读取本地保存的html文件,将其标题,内容解析为json格式 titile文章标题相关dom结构为:::
<h1>Property price climb continues but rates outlook removes some heat, Cotality says</h1>
文章内容需要段落列表,字段有type和内容,相关DOM结构为::::
<div class="ArticleRender_article__7i2EW">
<p class="paragraph_paragraph__iYReA">Housing prices continue to climb </p>
<figure>
<img loading="lazy" data-component="Image" data-lazy="true" src="https://live-production.wcms.abc-cdn.net.au/778fc73f3637569e3841dfc4b3b00a56?impolicy=wcms_crop_resize&cropH=2250&cropW=3375&xPos=313&yPos=0&width=862&height=575">
</figure>
<h2>Rate cut hopes kept price rally alive</h2>
<p class="paragraph_paragraph__iYReA">Cotality head of research Eliza O</p>
</div>
json内容格式示范:::
{
"title": "Property price climb continues but rates outlook removes some heat, Cotality says",
article: [
{"type": "p", "content": "Housing prices continue to climb "},
{
"type": "image", "content":"https://live-production.wcms.abc-cdn.net.au/778fc73f3637569e3841dfc4b3b00a56?impolicy=wcms_crop_resize&cropH=2250&cropW=3375&xPos=313&yPos=0&width=862&height=575"
}
]
}
- 根据上一步json提取文章标题和前3段正文
- 将文章标题和前3段正文翻译成中文
- 将中文拆分成语句调用TTS生成分段语音,可根据标点切分,但更重要的是要防止文本溢出,对长度也要考虑作为切分点,因为要对应单行字幕
- 根据分段语音时长以及对应文本生产字幕文件
- 用FFmpeg使用json中的图片资源,生产语音资源,字幕文件合成视频
这个提示词是我聊了3次优化而来的,这里的要点是新闻数据获取的部分,ai现在没办法直接写爬虫相关的代码,哪怕没有反扒。
于是你就要担当agent,给它提供上下文,但想给它需要的信息还是要动点脑筋的。
最重原因是,大模型的上下文长度有限,我一开始是想直接将原网站的html直接丢给它,让它解析,但太长了。
其实后面就没有必要写了,因为 Gemini 已经根据提示词把活干完了。

2.成果
分享给需要的小伙伴: https://colab.research.google.com/drive/1Ct2v-udsBe7wrn1OCNCma7LW6K9h7zy1?usp=sharing