杨蓉
AI 应用工程师 / AI 解决方案
头部内容平台 11 年文娱业务工程底子,2 个月以 AI 协作为主要工作方式,主导 4 个跨语言跨平台完整作品从需求到交付的全流程。
关于
主导 4 个跨语言跨平台完整作品(Python / JavaScript / Node / 微信小程序原生)从需求到交付的全流程:识别需求、技术选型、架构决策、过程把控、产物审查。每个作品均有工程文档记录关键决策。
- 11 年内容平台业务工程
- 2 个月 AI 协作主导交付
- 跨 Python / JS / Node
- 工程深度 + 产品判断
小食官 · 豆包饮食教练智能体
为真实用户解决"每天发三餐给豆包但反馈泛泛"的痛点,在扣子(Coze)平台搭建带长期记忆+定时提醒+周复盘的 AI 教练。v1 版在扣子预览/调试下功能完整可用。
判断 LLM 能力边界
起初用纯提示词收集用户档案信息会出现循环/漏问/不收尾。重构成"一步一问"的确定性对话节点流,物理上不可能漏问或循环。
编排完整的三个主流程
用户建档 / 餐食识别与反馈 / 周报汇总,涵盖大模型、代码、问答、选择器、查询数据、新增数据、变量聚合等多类型节点。
保证流程合理性
- 用户重复发起建档时去重
- 用户没建档就发餐食时先引导建档
- 图片识别失败时早结束,不浪费下游算力
预防性成本控制
预防扣子积分无法支撑大流量访问,加了昵称白名单作前置闸门。不在名单内的用户也给友好提示而非沉默——拒绝是个产品设计动作,不是把人挡在门外。
MyriadRun · 追星记录小程序
基于自身经历与对周遭朋友的观察,使用 CloudBase、微信开发者工具完成的追星记录微信小程序——它反攀比:核心是记录自己,不是比谁去得多。代码侧完全就绪、真机验证全过、等待提审。
确立业务范围
砍掉预置内容库——一人团队扛不起持续内容运营,"判断不该做"而非"做不出"。MVP 全部手动录入。录入侧把边界处理做进 UI:
关键业务规则修正
里程算法初版在同城连开多场时算重了(粉丝不会每场都回家),修正到"同城多场按趟合并"。更关键的是把这个估算口径明明白白写给用户看,做成 app 内可见的诚信说明:
反攀比的产品观点(贯彻到交互)
采用 Canvas 自绘分享图
避免引入图表库而增大小程序体积。根据用户去过的城市分布自适应三种排版(纯国内/国内+国外混合/纯国外)。
失败处理 + 代码审查
- 失败处理:用户录入遇到网络出错时暂存数据,待恢复后自动同步,并给予 Toast 提示
- 代码审查:发版前进行独立的 AI 代码审查 + 安全/隐私审查,并修复影响发版的重大 bug
digitme · Markdown 文件到配音视频自动管线
把"从一份带配音脚本的 Markdown 文件自动产出竖屏配音解说视频"做成端到端管线,完整跑通、产出过真实成品。这是作品集里唯一端到端完整跑通、产出过真实成品的项目。
Markdown 文件复用:一份文件两种用途
同一份 Markdown:可见内容供排版工具 Gamma 使用以产出 PPT 配图,HTML 注释里的配音脚本供 CosyVoice 使用以产出配音。两条流水线互不干扰。
# 一九九九到二零零一|动词时代
- 专辑:第一张创作专辑、爱情万岁、人生海海
- 高频词性:动词 > 名词 > 形容词
- 关键词:跑、追、撞、笑、唱、走、爱、要
<!-- narration: 最早的三张专辑,动词的占比高到吓人。
歌词里全是跑、追、撞、笑、走、爱、要…… -->
核心决策
- 成本判断:HeyGen 付费数字人长期不可持续 → 换用本地开源 CosyVoice 做声音克隆,砍数字人留配音换长期零成本
- 缓存机制兜底:对每段产出做"内容指纹"缓存避免重复调付费接口;也确保在误删事故发生时数据无损
跨平台 UGC 采集 + 静态化部署管线
对 4 个异构平台的百万级公开 UGC 内容,进行抓回和内容整合,并重新部署为静态内容站点。零失败率。
规模与可靠性
| 平台 | 规模 | 结果 |
|---|---|---|
| 论坛 A | 2095 个唯一帖 ID | 100% 处理:有效 1484 / 已删 618 / 真失败 0 / 遗漏 0,12 GB 快照 |
| 问答站 | 39 个高热回答 | 5,678 主层评论 + 36,076 子楼 + 25,492 图 URL |
| BBS B / C | 多板块万级帖 | 异构接口分别适配 |
多站异构适配
针对每个平台采用合适的抓取方式:带登录态的浏览器自动化、网页正文抽取库、平台 API、网页历史快照接口。没有"一个爬虫打天下"。
发现并应对静默失败
某些内容被删后会被网站悄悄重定向到现有内容——返回 HTTP 200、内容完整,肉眼无法识别"抓的不是预期那篇"。检测方法:对比同议题下多次抓取的评论 ID 集合,重合度异常高就说明被重定向了。几条 grep 就能跑出来。
配套工程纪律
- 断点续跑契约:脚本第一行"已有文件就跳过"。长任务跨午夜/关机重启/误删都不丢数据
- 风控误报判别:用浏览器自动化工具直接读页面真实状态,区分"自己脚本误判"和"真被网站风控了"
- 静态化部署:遇到 Cloudflare Pages 单次部署 20k 文件上限 → 用字体子集化 + 多项目拆分应对
联系
欢迎讨论任何 AI 应用工程 / AI 解决方案方向的机会。
- 邮箱:yangrongyangdan@126.com
- 所在地:北京(可深圳)