自动化视频工作流实战：在 Colab 用 Vibe Coding（Gemini 3）把英文新闻转成中文短视频

先看效果：

以及：

而原始英文新闻源头地址： https://www.abc.net.au/news/2025-12-08/zinc-sunscreen-brands-spf-testing-lower-than-advertising/106050396

这个东西牛的点在于没有使用任何剪辑软件，没有使用剪映小助手，没有直接写代码，而是直接给提示词让 ai 把代码层面做掉，这玩意放到服务器上，全自动都行。

玩过 coze 扣子视频工作流的大概都知道，在工作流中最终能拿到的成品是一个 json 文件，往往需要下载剪映小助手（第三方软件），通过它将素材下载到本地形成草稿，再由剪映合成，最终拿到成品，该说不说有点不够优雅。

其实在10月份的时候我就尝试了，效果不是很好，ai写代码的能力太差了，详情可看：探索 CodeBuddy code CLI 在视频生成项目中的高效应用。

而 Gemini3 的出现让这一切变得轻而易举。

0. 前言：为什么要用 AI 做新闻视频自动化？

英文新闻源质量高、更新快
中文内容需求大，人工制作成本高
AI（Gemini 3）+ Colab + Vibe Coding → 低成本、高效率工作流
本文最终成果展示
简述 Coze 位置（后文深入对比）

1. 整体流程概览（Workflow Architecture）

下面即是整体的流程概览，亦是流程生成的提示词。

是的，我绑住了自己的手脚，将下面的提示词丢给了ai，ai给了我整个工作流。

我都有点怀疑低代码工作流存在的必要性了，你没办法直接让ai生产coze工作流，这里涉及到gui，但你可以让ai直接通过代码的方式来做到，当然，ai代码能力还需要进一步提升。

【需求】请实现一个自动化脚本，将英文新闻转换为中文短视频。

【输入】 https://www.abc.net.au/news/2025-12-01/home-price-streak-continues-but-rates-outlook-takes-out-heat/106083314

【输出要求】生成一个短视频文件（.mp4）包含：

中文配音（普通话）
中文字幕（硬字幕,字体选择支持中文的）
背景图片（可用新闻配图或纯色背景）

【具体步骤】

根据时间创建一个目录，后续工作在该目录下进行，格式为2025-12-08_09-38-19
将用户输入的url对应的内容写入本地html文件中。请求url时添加header：：：

# Add a User-Agent header to mimic a web browser
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

读取本地保存的html文件，将其标题，内容解析为json格式 titile文章标题相关dom结构为：：：

<h1>Property price climb continues but rates outlook removes some heat, Cotality says</h1>

文章内容需要段落列表，字段有type和内容，相关DOM结构为：：：：

<div class="ArticleRender_article__7i2EW">
    <p class="paragraph_paragraph__iYReA">Housing prices continue to climb </p>
    <figure>
        <img loading="lazy" data-component="Image" data-lazy="true" src="https://live-production.wcms.abc-cdn.net.au/778fc73f3637569e3841dfc4b3b00a56?impolicy=wcms_crop_resize&amp;cropH=2250&amp;cropW=3375&amp;xPos=313&amp;yPos=0&amp;width=862&amp;height=575">
    </figure>
    <h2>Rate cut hopes kept price rally alive</h2>
    
    <p class="paragraph_paragraph__iYReA">Cotality head of research Eliza O</p>
</div>

json内容格式示范：：：

{
  "title": "Property price climb continues but rates outlook removes some heat, Cotality says",
  article: [
    {"type": "p", "content": "Housing prices continue to climb "},
    {
      "type": "image", "content":"https://live-production.wcms.abc-cdn.net.au/778fc73f3637569e3841dfc4b3b00a56?impolicy=wcms_crop_resize&amp;cropH=2250&amp;cropW=3375&amp;xPos=313&amp;yPos=0&amp;width=862&amp;height=575"
    }
  ]
}

根据上一步json提取文章标题和前3段正文
将文章标题和前3段正文翻译成中文
将中文拆分成语句调用TTS生成分段语音，可根据标点切分，但更重要的是要防止文本溢出，对长度也要考虑作为切分点，因为要对应单行字幕
根据分段语音时长以及对应文本生产字幕文件
用FFmpeg使用json中的图片资源，生产语音资源，字幕文件合成视频

这个提示词是我聊了3次优化而来的，这里的要点是新闻数据获取的部分，ai现在没办法直接写爬虫相关的代码，哪怕没有反扒。

于是你就要担当agent，给它提供上下文，但想给它需要的信息还是要动点脑筋的。

最重原因是，大模型的上下文长度有限，我一开始是想直接将原网站的html直接丢给它，让它解析，但太长了。

其实后面就没有必要写了，因为 Gemini 已经根据提示词把活干完了。

2.成果

分享给需要的小伙伴： https://colab.research.google.com/drive/1Ct2v-udsBe7wrn1OCNCma7LW6K9h7zy1?usp=sharing