AI产品经理

大疆DJI面试准备

全球无人机与智能影像领导者 · 追求极致 · 工程师文化

全球No.1消费级无人机
190+国家和地区
14000+员工规模
开始准备

岗位深度分析

公司概况

公司全称深圳市大疆创新科技有限公司 (DJI)
成立时间2006年
核心业务消费级无人机、专业影像设备、行业应用
总部地点深圳南山区·大疆天空之城
企业文化追求极致、工程师文化、结果导向
产品线Mavic/Air/Mini/Osmo/Ronin/Action等

岗位要求分析

必须项

本科及以上学历,计算机/AI/软件工程等专业优先

✓ 湖南大学(985)软件工程,完全匹配

至少1年产品经理经验,AI相关产品落地经验

✓ 8年AI产品经验,多个Agent产品落地,远超要求

具备敏锐的市场洞察力,能从用户痛点中提炼核心需求

✓ C端AI产品经验丰富,擅长用户洞察到产品落地

具备优秀的跨部门沟通能力,能协调算法、研发、运营

✓ 多项目中与算法、研发、运营深度协作经验

结果导向

✓ 所有项目都有明确落地成果和数据验证

加分项

有参与设备APP-云端模块完整落地经验

△ 有C端APP产品经验,可迁移

有扎实的摄影基础和图像知识储备

△ 有AIGC图像生成产品经验(卡通拍)

自我介绍

我的版本
1分钟版
2分钟版
3分钟版

面试官您好,我是马靖昱,毕业于湖南大学软件工程专业。首先今天很荣幸来面试大疆的AI产品岗,我是一名有8年经验的AI产品经理。我的核心是将前沿AI技术转化为用户热爱的产品体验,并实现规模化落地。

【技术背景】我的职业生涯始于技术背景,这让我能深入理解算法边界并与工程师高效协同。在十米科技,我主导的AI体感产品矩阵,需要将AI算法与手机、手表等硬件传感器深度结合,实现高精度的动作识别和交互。这段经历让我对软硬件协同有了深刻的实践。

【核心能力】更重要的是,我主导的多模态虚拟人和AIGC生产力平台项目,锻炼了我设计复杂AI系统(如任务型Agent、Workflow)的能力,尤其擅长在大模型不确定性下,通过产品架构保障体验的稳定和可控

【与大疆的契合】我关注到大疆一直在探索AI与硬件的深度融合,从无人机自主避障到影像AI增强。我相信,我在多模态交互、AI Agent架构和软硬件协同方面的经验,能帮助大疆为全球用户打造下一代更智能、更易用的革命性产品:

  • AIGC生产力平台经验:我打造的AIGC生产力平台,把内容生产效率提了2-3倍,这套流程拆解和质量控制的方法,和大疆影像自动剪辑、行业巡检的需求高度契合
  • 多模态协同经验:我做过多模态虚拟人的"语音+动作对齐",这和无人机的"视觉+语音控制协同"逻辑一致
  • 安全稳定性保障:我习惯用工程思维平衡体验与稳定性,比如Agent的异常兜底机制,能适配大疆对飞行安全的高要求

很期待在消费级或行业级AI场景中发挥价值!

项目经验介绍

任务型Agent

C端AI游戏助手Agent(葫乐APP)

背景:用户在复杂产品中缺乏耐心,传统教程无法适配实时场景

职责:设计任务型Agent,实时理解意图,通过对话引导完成目标

行动:建立状态模型、设计任务树与状态机、构建Prompt Pipeline、设计容错机制

结果:新手用户留存显著提升,沉淀可复用的C端Agent设计方法论

挑战难点与解决方案

难点1:LLM回答"跑偏",用户反馈"AI不靠谱"
解决:重构Prompt Pipeline,增加意图分类前置层,高频场景专属Prompt,长尾场景通用兜底。回答相关性从85%提升到95%+
难点2:多轮对话状态丢失,Agent"失忆"
解决:设计状态机+上下文注入机制,关键信息持久化存储,对话切换时自动恢复上下文
难点3:响应延迟影响体验,用户等待焦虑
解决:流式输出+骨架屏预加载+高频问题缓存,首字响应<1s,整体感知延迟降低60%

数据驱动与质量保障

🧪
上线前测试

• 单元测试:Prompt模板覆盖率100%
• 集成测试:端到端对话流程自动化测试
• 压力测试:模拟1000并发,确保响应稳定
• 人工测试:200+真实场景Case验收

📊
埋点设计

• 对话启动/完成/中断事件
• 每轮意图识别结果+置信度
• 用户反馈(点赞/点踩/重试)
• 响应延迟(首字/完整响应)

📈
监控看板

• 实时:QPS/延迟/错误率/Token消耗
• 日报:DAU/对话轮次/任务完成率
• 周报:留存趋势/满意度/高频问题Top10

🔄
数据驱动迭代

• BadCase自动收集→周度Prompt优化
• 低置信度Case人工标注→模型微调
• 高频问题→专属Prompt模板沉淀
• 用户反馈→功能优先级排序

幻觉控制策略

🎯
意图分类前置

用户输入先经过轻量分类器,识别意图类型(游戏攻略/功能引导/闲聊/其他),非相关意图直接走兜底话术,避免LLM"瞎编"

📋
知识库RAG检索

游戏攻略/操作指南等事实性内容,强制从结构化知识库检索后注入Prompt,LLM只做润色和组织,不允许"创作"事实

🔒
输出格式约束

关键场景(如任务指引)强制JSON Schema输出,只允许预定义字段,杜绝自由发挥导致的"幻觉指令"

⚠️
置信度阈值拦截

意图识别置信度<0.7时,回复"我不太确定你的意思,你是想问XXX吗?",宁可追问也不乱答

🚀 迁移到大疆:可直接应用于DJI Fly App智能助手——用户说"帮我拍个环绕",AI理解意图→分解任务→实时引导操作→异常时主动提醒。我的任务型Agent设计经验(状态机、Prompt Pipeline、容错机制)可快速落地。
端到端AI平台

一站式AIGC游戏生产平台

背景:游戏开发周期长(6-18个月)、门槛高,非专业用户无法参与创作

职责:作为AI产品负责人,主导平台从0到1的产品设计与落地

行动:设计自然语言→可玩游戏的全流程;构建AI引导式人机协同机制;输出Web链接+ZIP源码+微调编辑器

结果:开发周期从数月缩短至数天,非程序员也能独立完成游戏创作

挑战难点与解决方案

难点1:用户描述模糊,AI理解偏差导致生成结果不符预期
解决:设计AI引导式提问机制——像资深制作人一样追问关键细节(类型、玩法、风格),确保需求明确后再生成
难点2:多环节生成(美术/代码/音效)风格不统一
解决:建立全局风格约束系统——统一风格标签贯穿各Agent节点,跨环节风格一致性检测,偏离自动修正
难点3:生成游戏可玩性差,Bug多
解决:构建自动化测试流水线(功能测试+压力测试+兼容性测试)+ 微调编辑器让用户可视化调整参数后实时预览

数据驱动与质量保障

🧪
上线前测试

• 自动化测试:生成游戏自动运行+截图对比+崩溃检测
• 兼容性测试:覆盖主流浏览器/设备
• 回归测试:每次模型更新触发全量Case回归
• 人工验收:100+不同类型游戏人工试玩

📊
埋点设计

• 生成漏斗:开始→引导完成→生成中→成功/失败
• 各环节耗时(理解/美术/代码/测试)
• 用户行为:编辑次数/重新生成/分享/下载
• 质量指标:崩溃率/白屏率/加载时间

📈
监控看板

• 实时:生成队列/成功率/平均耗时
• 日报:生成量/完成率/用户满意度
• 质量:各类型游戏Bug率/崩溃分布
• 资源:GPU利用率/队列积压情况

🔄
数据驱动迭代

• 失败Case分析→代码生成Prompt优化
• 高频编辑操作→预设模板沉淀
• 用户类型偏好→推荐算法优化
• 崩溃日志→自动化修复规则积累

幻觉控制策略

🎯
需求理解多轮确认

AI像制作人一样追问关键细节(类型、玩法、风格、目标用户),每一步确认后才进入下一步,避免理解偏差导致生成结果"跑偏"

📋
代码生成模板约束

核心游戏逻辑基于经过验证的代码模板库生成,LLM只负责参数填充和逻辑组合,而非从零"创作"代码,大幅降低Bug率

🔒
生成物自动化校验

每个生成环节(美术/代码/音效)都有自动化校验:代码能编译运行、资源格式正确、风格一致性检测,不合格自动重新生成

⚠️
人机协同兜底

AI生成结果必须经过用户预览确认,用户可随时介入修改,关键节点设置"人工确认点",AI幻觉有人兜底

🚀 迁移到大疆:可应用于大疆智能剪辑/云端AI服务——用户上传素材+描述需求,AI多轮引导确认风格→自动剪辑+调色+配乐→输出成片。我的端到端AI Workflow、质量管控、人机协同设计经验可直接复用。
AIGC产品

卡通拍(AIGC图像生成)

背景:探索AI生成内容在C端的可用性与商业价值

职责:主导AIGC图像生成产品从0到1

行动:基于GAN+风格迁移构建生成模型、FP16推理优化、端到端流程

结果:秒级生成体验,产品从0到数万用户

挑战难点与解决方案

难点1:生成速度慢,用户等待流失严重
解决:FP16半精度推理+模型蒸馏+GPU批处理优化,单图生成从30s降到3s,用户完成率提升40%
难点2:人脸变形/五官扭曲,用户接受度低
解决:增加人脸关键点检测预处理+面部区域单独优化+生成后质量校验,面部畸变率从15%降到3%
难点3:风格单一,用户新鲜感快速消退
解决:建立风格模板库+用户偏好学习+定期上新机制,DAU留存提升25%

数据驱动与质量保障

🧪
上线前测试

• 图像质量测试:人脸畸变率/清晰度/色彩准确度自动评分
• 性能测试:端侧推理耗时/内存占用/发热情况
• 兼容性测试:覆盖iOS/Android主流机型
• 众测验收:500+真实用户试用反馈

📊
埋点设计

• 生成漏斗:选择风格→上传照片→生成中→成功/失败
• 质量指标:重新生成率/删除率/分享率
• 性能指标:生成耗时/内存峰值/崩溃率
• 用户偏好:风格选择分布/使用频次

📈
监控看板

• 实时:生成成功率/平均耗时/错误分布
• 日报:DAU/生成量/分享率/留存
• 质量:各风格满意度/畸变率趋势
• 性能:各机型耗时/崩溃率分布

🔄
数据驱动迭代

• 高畸变Case→人脸检测模型优化
• 热门风格→优先级资源倾斜
• 低使用风格→下线或优化
• 用户反馈→每周迭代优先级排序

幻觉控制策略

🎯
输入预处理校验

人脸检测+关键点定位前置,检测失败或置信度低时直接拒绝并提示"请上传清晰正脸照片",避免后续生成出现畸变

📋
生成结果质量校验

生成后自动检测:人脸完整性/五官位置合理性/整体美学评分,不合格自动重新生成或标记警告

🔒
风格模型版本管控

每个风格模型上线前经过严格评测(1000张测试集),畸变率>5%不允许上线,线上模型出现质量下降自动回滚

⚠️
多候选策略

单次生成多个候选结果,选择质量评分最高的展示,用户也可切换查看其他候选,降低单次"翻车"概率

🚀 迁移到大疆:可应用于大疆AI后期/智能滤镜——一键将航拍素材转为电影风格/赛博朋克/水墨画风格。我的AIGC图像生成、推理优化、质量校验经验可帮助大疆快速构建端侧/云端AI图像处理能力。
多模态Agent

3D虚拟人Agent(情感陪伴/历史人物数字孪生)

背景:单轮对话难以建立长期关系,需要更自然、连续的交互体验

职责:设计虚拟人Agent的人格、记忆与任务系统,支持多模态交互

行动:意图理解与行为决策、文本/语音/动作多模态信号对齐、长上下文与状态保持机制

结果:显著提升互动深度与使用时长,沉淀可复用的多模态Agent架构

挑战难点与解决方案

难点1:虚拟人"人设崩塌",对话不符合角色设定
解决:设计多层人格系统——核心性格/情绪状态/场景适配三层架构,每轮对话注入人设约束,人设一致性从70%提升到95%+
难点2:长期记忆混乱,用户感知不到"被记住"
解决:三级记忆系统——短期(当前会话)+长期(跨会话摘要)+关键(用户主动标记),结合向量检索动态召回相关记忆
难点3:多模态信号不同步,表情/动作/语音割裂
解决:设计统一的情感标签系统,LLM输出情感标签→同步驱动表情/动作/语音合成,端到端延迟<500ms

数据驱动与质量保障

🧪
上线前测试

• 人设一致性测试:1000轮对话自动评估人设偏离率
• 多模态同步测试:音画延迟自动检测<0.5s
• 记忆准确性测试:跨会话信息召回准确率验证
• 情感识别测试:多维度情感标注对比评估

📊
埋点设计

• 对话深度:单次会话轮数/总时长/主动发起率
• 情感指标:情绪识别分布/情感回应匹配度
• 记忆触发:记忆召回次数/召回准确率
• 多模态性能:各模态延迟/同步偏差

📈
监控看板

• 实时:并发会话数/响应延迟/错误率
• 日报:DAU/平均会话时长/留存率
• 体验:人设一致性评分/情感满意度
• 技术:多模态同步率/记忆命中率

🔄
数据驱动迭代

• 人设崩塌Case→System Prompt优化
• 记忆遗忘反馈→记忆系统架构调优
• 情感误判→情感识别模型微调
• 用户高频话题→知识库扩充

幻觉控制策略

🎯
人设约束注入

每轮对话强制注入角色人设(性格/说话风格/禁忌话题),System Prompt中明确"你是XXX,绝不能说XXX",防止角色"出戏"

📋
记忆事实核验

涉及用户历史信息时,强制从记忆库检索后再回答,禁止LLM"编造"用户没说过的事;检索为空时回复"我不记得你提过这个"

🔒
情感标签约束

情感识别结果只能是预定义的标签集(开心/难过/生气等),LLM输出非法标签时自动映射到"中性",避免驱动异常表情

⚠️
敏感话题拦截

政治/暴力/色情等敏感话题前置分类拦截,触发时直接走预设安全回复,不经过LLM生成,杜绝"幻觉"导致的安全风险

🚀 迁移到大疆:可应用于AI飞行教练/智能语音助手——教练记住用户水平和偏好,飞行时语音实时指导"往左一点构图更好",飞后复盘"这段转弯可以更慢"。我的多模态对齐、记忆系统、人格设计经验可直接落地。

为什么我适合这个岗位

AI产品落地经验

8年AI产品背景,多个AI产品从0到1规模化落地,符合"结果导向"

技术产品复合

软件工程背景,能与算法研发深度协作,符合"工程师文化"

跨团队协作力

丰富的与算法、研发、运营团队协作经验

图像/AIGC经验

有AIGC图像生成产品经验,理解图像处理的技术边界

体验稳定性保障

擅长在AI不确定性下设计容错和兜底机制

极致产品追求

对产品细节有执念,认同"追求极致"的文化

为什么选择大疆

  • 产品文化:"追求极致"、工程师思维、结果导向,与我的理念高度一致
  • 场景兴趣:智能硬件×AI方向非常吸引我,无人机和影像设备上的AI功能有巨大空间
  • 技术深度:大疆在视觉感知、AI等领域的技术积累让我向往
  • 全球影响:能参与有全球影响力的产品

模拟问答

产品能力

请介绍一个你主导的最成功的项目

推荐:C端AI游戏助手Agent

S:用户在复杂产品中缺乏耐心,传统教程无法适配实时场景

T:设计任务型Agent,实时理解意图,对话引导完成目标

A:建立状态模型、任务树、Prompt Pipeline、容错机制

R:新手留存显著提升,沉淀C端Agent设计方法论

大疆产品同样有"功能复杂用户不会用"的问题

AI相关

AI产品如何保障体验稳定性?

1. 预期管理:让用户知道这是AI,设置合理预期

2. 状态机设计:明确AI在不同状态下的行为边界

3. 置信度控制:低置信度时采取保守策略

4. 异常检测:建立监控,及时发现问题

5. 降级策略:AI失效时平滑降级

大疆相关

你对大疆产品有什么了解?

消费级:Mavic(折叠旗舰)、Air(性能便携)、Mini(轻量入门)

手持:Osmo(云台)、Action(运动相机)、Pocket(口袋云台)

AI功能:智能跟随、避障系统、一键短片、智能返航、场景识别

面试前务必深度体验大疆产品

大疆相关

你对大疆文化怎么看?能适应吗?

追求极致:我对产品细节也有执念

工程师文化:软件工程背景,能理解技术约束

结果导向:所有项目都有明确落地结果

高强度:有创业经历,能接受高强度工作

HR面试

为什么想加入大疆?

1. 产品文化契合:"追求极致"与我的理念一致

2. 场景兴趣:智能硬件×AI方向非常吸引我

3. 技术深度:大疆的技术积累让我向往

4. 全球影响:能参与有全球影响力的产品

AI相关

多模态虚拟人如何保持人设一致性?

三层人格架构:

1. 核心层:固定的性格特征、说话风格、价值观(写入System Prompt)

2. 情绪层:动态的情绪状态,根据对话内容实时调整(开心/难过/兴奋)

3. 场景层:适配当前场景的表达方式(聊天/唱歌/安慰)

技术手段:每轮对话注入人设摘要 + 对话后一致性检测 + 偏离自动修正

类似设计可用于大疆飞行教练的"教练人格"塑造

AI相关

如何设计虚拟人的记忆系统?

三级记忆架构:

1. 短期记忆:当前会话的完整对话历史(存Context Window)

2. 长期记忆:跨会话的关键信息摘要(存向量数据库,如Pinecone)

3. 关键记忆:用户主动标记或系统识别的重要信息(如生日、喜好)

召回机制:每轮对话根据当前语义检索相关记忆,注入Prompt

遗忘机制:定期衰减不重要的记忆,避免信息过载

产品能力

多模态信号如何同步?

统一情感标签系统:

1. LLM输出文本回复的同时,输出情感标签(如:happy/sad/excited)

2. 情感标签同步驱动:表情渲染、动作选择、语音合成参数

3. 通过时间戳对齐,确保表情变化与语音内容同步

端到端延迟优化:流式TTS + 表情预加载,整体延迟<500ms

多模态同步经验可迁移到大疆语音助手场景

大疆AI产品设想

智能拍摄助手

新手友好

痛点:普通用户不懂专业拍摄参数

方案:AI分析场景→推荐最佳参数和构图→语音/AR引导

价值:降低专业拍摄门槛,让小白也能拍出大片

AI智能剪辑2.0

创作效率

痛点:拍了很多素材但不会剪辑,好素材"躺"在相册

方案:AI分析素材→自动筛选精彩片段→智能配乐→一键生成

价值:从"素材"到"作品"的一键转化

语音/手势交互

自然交互

痛点:飞行时操控复杂,需要更自然的交互

方案:语音控制("跟拍我")、手势识别、意图理解

价值:解放双手,更沉浸的拍摄体验

AI飞行教练

学习成长

痛点:新手不知道怎么飞、怎么拍更好

方案:实时指导飞行技巧、拍摄建议、安全提醒

价值:让新手快速成长为航拍高手

如果我是大疆AI产品经理

巧用大模型能力,打造前所未有的智能影像体验

大疆产品的核心是让专业级影像创作变得简单。大模型(LLM)+多模态AI为这个目标带来革命性机会:理解用户意图、分析视觉内容、生成创意方案。以下是我对大疆如何巧用大模型的深度思考:

🎬 AI导演助手 - 自然语言控制拍摄

核心场景 · 革命性体验
痛点:无人机拍摄操控复杂,普通用户想拍出电影级镜头(推拉摇移、环绕、渐远)需要大量练习
大模型方案:
  • 自然语言指令:"给我来一个环绕镜头""慢慢拉远,露出整个海岸线""跟着那个人跑"
  • 意图理解+飞控翻译:LLM理解用户意图,转化为飞控指令序列(航点、速度、云台角度)
  • 场景感知增强:结合视觉模型理解当前场景,自动调整参数(避障、光线补偿)
  • 多轮对话微调:"再高一点""速度慢一些""镜头往下倾斜"
价值:让小白也能拍出专业级运镜,大幅降低航拍门槛,扩大用户群体
技术要点:LLM意图理解 + Function Calling(飞控API)+ 视觉感知 + 安全约束层

🎨 智能剪辑大师 - 从素材到大片

创作效率 · 高频刚需
痛点:用户拍了几十G素材,但不会剪辑,好素材"躺"在相册;现有智能剪辑只能做模板化处理
大模型方案:
  • 素材智能分析:多模态LLM理解每段素材内容(场景、人物、动作、情绪、美学评分)
  • 自然语言描述需求:"帮我剪一个3分钟的旅行vlog""做一个节奏感强的运动集锦"
  • 叙事结构生成:LLM基于素材内容规划叙事结构(开场-高潮-结尾),自动排序
  • 智能配乐+转场:根据内容情绪匹配音乐,自动添加合适转场
  • 对话式微调:"把这段换掉""音乐换欢快一点""加个字幕"
价值:从"素材"到"作品"一句话搞定,让每个用户都能产出高质量内容

🎓 AI飞行教练 - 个性化学习伴侣

新手友好 · 提升留存
痛点:新手不知道怎么飞更安全、怎么拍更好看,学习曲线陡峭,容易放弃
大模型方案:
  • 实时语音指导:飞行过程中LLM根据用户操作和环境实时提醒"注意前方有树""可以试试往左飞一点构图更好"
  • 问答式学习:"怎么拍日落更好看""逆光怎么处理",LLM结合场景给出建议
  • 飞行复盘分析:飞行结束后分析轨迹、操作,指出改进点"这段可以飞慢一点会更稳"
  • 个性化学习路径:根据用户水平推荐学习内容和挑战任务
价值:降低学习门槛,提升新手留存和满意度

📍 智能航拍规划师

场景增强 · 差异化
痛点:到了一个新地方不知道哪里适合航拍、什么时间拍最好、怎么规划航线
大模型方案:
  • 地点推荐:"附近有什么适合航拍的地方",LLM结合地图、POI、用户评价推荐
  • 最佳时间建议:结合日出日落时间、天气预报、光线角度推荐最佳拍摄时间
  • 航线自动规划:用户说"我想拍这座山的全景",自动规划环绕航线
  • 法规提醒:自动识别禁飞区、限高区,提供合规建议
价值:提升拍摄成功率和出片质量,增强产品粘性

🖼️ AI后期魔法师

创意增强 · AIGC
痛点:原片需要后期调色、修图,普通用户不会PS/LR,专业用户也嫌麻烦
大模型方案:
  • 自然语言调色:"让这张照片更有电影感""加强日落的金色""去掉多余的人"
  • 智能风格迁移:"把这张调成赛博朋克风格""模仿这个摄影师的调色"
  • AI扩图/补帧:扩展画面边缘、视频智能插帧
  • 智能去除/替换:去除画面中的电线、路人,AI补全背景
价值:一句话实现专业级后期效果,释放创作可能性

大疆场景大模型应用原则

🛡️

安全第一

任何LLM指令都需经过安全层校验,不能生成危险飞行指令。安全边界由规则引擎硬控制,LLM只负责意图理解

实时响应

飞行场景对延迟敏感,需要端云协同:简单指令端侧处理,复杂理解云端处理,确保响应及时

🎯

精准可控

LLM输出必须可预测、可解释。用户说"往左飞",必须往左飞。建立指令-动作的确定性映射

🔋

功耗优化

端侧模型需要轻量化,不影响续航和飞行性能。能端侧处理的不上云,能缓存的预加载

如果让我从0到1做大疆AI产品

基于我的Agent产品经验,详细规划三个核心AI产品的落地路径

🎬 AI导演助手 - 自然语言控制拍摄

核心产品 · 革命性体验

产品愿景

让每个人都能用自然语言指挥无人机,像导演一样拍出电影级镜头。"说人话,拍大片"

分阶段规划

P0 · MVP验证 1-2个月

目标:验证"自然语言→飞控指令"的核心链路可行性

范围:聚焦5个高频场景指令(环绕、渐远、跟随、升高俯瞰、定点悬停)

技术方案:

  • LLM意图识别 → 结构化指令(航点/速度/云台角度)
  • Function Calling调用飞控API
  • 硬编码安全约束层(高度限制、速度限制、禁飞区)

验证指标:指令识别准确率>90%,用户任务完成率>80%

P1 · 体验打磨 2-3个月

目标:提升理解准确度和交互自然度

功能扩展:

  • 多轮对话微调:"再高一点""速度慢些""镜头往下"
  • 场景感知增强:结合视觉理解当前环境,智能调整参数
  • 语音交互:解放双手,飞行中语音控制
  • 指令预览:执行前3D预览轨迹,用户确认后执行

验证指标:用户满意度>4.0/5,NPS>40

P2 · 场景扩展 3-6个月

目标:覆盖更多复杂场景,建立竞争壁垒

高级功能:

  • 复杂运镜组合:"先环绕一圈,然后慢慢拉远升高"
  • 智能目标识别:"跟着那个穿红衣服的人"
  • 创意模板库:一句话调用专业运镜模板
  • 多机协同控制(远期)

风险预判与Plan B

安全风险:LLM生成危险指令 → 安全层硬约束,任何指令都经过规则引擎校验
延迟风险:云端LLM响应慢 → 高频指令端侧缓存,复杂理解异步处理
理解偏差:用户意图理解错误 → 执行前确认机制,低置信度转人工确认

风险控制与安全化上线

🛡️
防幻觉机制
  • 意图分类前置:LLM输出前先经过意图分类器,非飞控相关指令直接拦截
  • 结构化输出约束:强制输出JSON Schema,只允许预定义的指令类型
  • 置信度阈值:置信度<0.8时触发二次确认,<0.6时拒绝执行
  • 指令白名单:只允许执行预定义的飞控动作,杜绝"幻觉指令"
🔒
安全层设计
  • 硬约束规则引擎:任何指令必须通过安全校验(高度/速度/禁飞区/电量)
  • 危险指令熔断:检测到危险模式立即中止,优先保证飞行安全
  • 人工接管优先:用户物理摇杆操作始终优先于AI指令
  • 回退机制:AI异常时自动降级到传统模式,不影响核心飞行
📊
稳定性保障
  • 端云双链路:云端LLM超时自动切换端侧轻量模型,保证响应
  • 高频指令缓存:Top 20高频指令本地缓存,秒级响应
  • 异步降级:复杂理解异步处理,简单指令同步执行
  • 监控告警:指令成功率/延迟/异常实时监控,低于阈值触发告警
🚀
安全化上线流程
  • 灰度发布:1%→5%→20%→全量,每阶段观察3天核心指标
  • AB实验:对照组验证AI功能的安全性和有效性
  • 红蓝对抗:上线前模拟恶意指令攻击,验证安全层有效性
  • 快速回滚:一键回滚机制,异常情况5分钟内恢复

北极星指标

指令成功率>95%
用户出片满意度>4.2/5
功能渗透率>30%
安全事故率0

🎓 AI飞行教练 - 个性化学习伴侣

新手友好 · 提升留存

产品愿景

每个新手身边都有一位耐心的AI教练,实时指导、个性化学习,让新手快速成长为航拍高手

分阶段规划

P0 · MVP验证 1-2个月

目标:验证AI实时指导对新手的帮助效果

核心功能:

  • 新手引导任务:首飞教学、基础操控练习
  • 实时安全提醒:低电量、信号弱、障碍物预警
  • 基础问答:常见问题的即时解答

验证指标:新手首飞完成率提升、首周留存提升

P1 · 体验打磨 2-3个月

目标:个性化学习路径,提升学习效率

功能扩展:

  • 飞行复盘分析:轨迹回放+操作点评+"这里可以飞慢一点会更稳"
  • 拍摄技巧指导:实时构图建议、参数推荐
  • 个性化学习路径:根据用户水平推荐练习任务
  • 语音交互:飞行中语音问答
P2 · 场景扩展 3-6个月

目标:从新手延伸到进阶用户,打造学习社区

高级功能:

  • 进阶挑战任务:穿越、跟拍、夜景等进阶场景
  • 作品点评:AI分析用户作品,给出改进建议
  • 学习成就体系:勋章、等级、社区排行
  • 大师课程:对接专业航拍师课程内容

风险预判与Plan B

打扰风险:提醒过多干扰飞行 → 智能时机选择,关键节点才提醒,用户可调频率
建议不准:AI建议不适合当前场景 → 场景感知增强,建议前先理解环境

风险控制与安全化上线

🛡️
防幻觉机制
  • 教学内容预审:所有AI教学话术经过人工审核,确保专业准确
  • 场景适配检测:建议前先感知当前环境(天气/光线/障碍),避免不适用建议
  • 知识库兜底:核心教学内容来自结构化知识库,而非纯LLM生成
  • 用户反馈闭环:"这个建议有帮助吗?"收集反馈持续优化
🔒
安全层设计
  • 安全提醒优先级最高:安全类提醒(低电量/障碍物)始终优先于教学提示
  • 不干扰核心操控:关键飞行阶段(起降)减少提醒,避免分心
  • 紧急情况自动接管:检测到危险时自动触发悬停或返航
  • 教练建议≠强制指令:所有建议仅供参考,用户有最终决定权
📊
稳定性保障
  • 离线教学包:核心教学内容预下载,无网络也能使用
  • 语音识别降级:语音识别失败时自动切换到文字输入
  • 教练服务降级:AI教练异常时显示预置FAQ,保证基础体验
  • 性能监控:响应延迟/识别准确率实时监控,异常自动告警
🚀
安全化上线流程
  • 新手场景先行:先在模拟器/新手引导场景验证,再扩展到实飞
  • 灰度放量:按用户等级灰度,新手用户优先体验
  • 教学效果AB测试:对比有无AI教练的学习曲线和留存
  • 安全事件熔断:出现安全相关投诉立即暂停功能排查

北极星指标

新手7日留存提升20%
首飞完成率>90%
学习任务完成率>60%
教练满意度>4.0/5

🎨 智能剪辑大师 - 从素材到大片

创作效率 · 高频刚需

产品愿景

用户只需说一句话,AI就能把素材变成精彩作品。"告别素材躺相册,一句话出大片"

分阶段规划

P0 · MVP验证 1-2个月

目标:验证"自然语言描述需求→自动剪辑"的核心价值

核心功能:

  • 素材智能分析:识别场景、人物、动作、美学评分
  • 简单指令剪辑:"帮我剪一个1分钟的旅行回忆"
  • 自动精彩片段提取 + 智能配乐

验证指标:生成作品分享率、用户满意度

P1 · 体验打磨 2-3个月

目标:提升生成质量和可控性

功能扩展:

  • 叙事结构生成:开场-发展-高潮-结尾的智能编排
  • 对话式微调:"把这段换掉""音乐换欢快点""加个字幕"
  • 多风格模板:Vlog/运动/旅行/家庭等风格预设
  • 智能转场:根据内容情绪匹配转场效果
P2 · 场景扩展 3-6个月

目标:专业级能力,建立创作生态

高级功能:

  • AI配音解说:根据内容自动生成解说词并配音
  • 多镜头智能剪辑:多设备素材自动对齐、智能切换
  • 风格学习:"照着这个视频的风格帮我剪"
  • 创作者模板市场:UGC模板生态

风险预判与Plan B

质量风险:生成作品不符合预期 → 多候选生成+用户选择,支持逐段微调
版权风险:配乐/素材版权问题 → 自建版权库,AI原创配乐生成
处理时间:大量素材处理慢 → 后台处理+进度通知,端云协同

风险控制与安全化上线

🛡️
防幻觉机制
  • 素材理解校验:AI场景识别结果置信度<0.7时标记"待确认",人工复核
  • 剪辑逻辑约束:基于规则的剪辑语法检查,避免不合理的片段组合
  • 多候选策略:生成多个候选方案供用户选择,降低单次失误影响
  • 叙事结构模板:高频场景使用预定义模板,减少纯LLM生成的不确定性
🔒
安全层设计
  • 内容安全审核:生成内容经过内容安全API检测(暴力/敏感/版权)
  • 隐私保护:人脸/车牌等敏感信息检测,用户授权后才使用
  • 版权合规:配乐/字体/特效素材全部来自合规库
  • 水印保护:生成作品可选添加版权水印
📊
稳定性保障
  • 断点续传:大文件上传/处理支持断点续传,避免重复处理
  • 异步队列:大任务进入后台队列,完成后推送通知
  • 端云协同:简单剪辑端侧处理,复杂任务云端处理
  • 失败重试:任务失败自动重试3次,超限通知用户
🚀
安全化上线流程
  • 场景分级灰度:简单场景(旅行回忆)先上,复杂场景(Vlog)后上
  • 质量门禁:生成作品抽样人工审核,质量不达标暂停迭代
  • 用户满意度监控:实时追踪分享率/删除率/重新生成率
  • 版权风险监控:配乐/素材使用情况追踪,防止版权纠纷

北极星指标

作品生成完成率>80%
作品分享率>40%
功能周活渗透>25%
用户满意度>4.2/5

👤 多模态虚拟人Agent - 情感陪伴与知识传承

多模态交互 · 长期记忆

产品愿景

打造有记忆、有情感、多模态的虚拟人,实现自然、连续的交互体验。"不止是对话,是真正的陪伴"

分阶段规划

P0 · MVP验证 1-2个月

目标:验证"有记忆的多模态对话"核心体验价值

核心功能:

  • 基础人格系统:固定性格特征 + 说话风格写入System Prompt
  • 短期记忆:当前会话上下文管理
  • 情感识别:识别用户情绪,调整回复风格
  • 基础表情同步:LLM输出情感标签→驱动表情变化

验证指标:人设一致性>90%,用户情感满意度>4.0

P1 · 体验打磨 2-3个月

目标:建立长期记忆,增强情感连接

功能扩展:

  • 三级记忆系统:短期(会话) + 长期(向量库) + 关键(用户标记)
  • 记忆召回:每轮对话检索相关记忆,注入上下文
  • 多模态同步:表情/动作/语音统一情感标签驱动
  • 语音对话:ASR→NLU→DM→NLG→TTS全链路

验证指标:用户感知"被记住"比例>80%,日均对话轮数提升50%

P2 · 场景扩展 3-6个月

目标:多角色、多场景,建立虚拟人生态

高级功能:

  • 历史人物数字孪生:孔子/爱因斯坦/乔布斯等知识人格
  • 穿搭系统:用户自定义虚拟人外观
  • 多技能扩展:唱歌、讲故事、心理疏导等
  • 3D形象升级:Live2D→全3D渲染

风险预判与Plan B

人设崩塌:对话不符合角色设定 → 多层人格约束 + 一致性检测 + 偏离修正
记忆混乱:长期记忆召回不准确 → 向量检索+时间衰减+重要性加权
多模态延迟:表情/语音不同步 → 流式TTS + 表情预加载 + 时间戳对齐

北极星指标

人设一致性>95%
日均对话轮数>20轮
次日留存>60%
情感满意度>4.5/5

四个产品的共同设计原则

1

安全第一

AI再智能也不能突破安全边界,安全约束由规则引擎硬控制

2

渐进式信任

从简单场景开始验证,逐步扩展;用户信任是靠稳定体验积累的

3

人机协同

AI辅助而非替代,关键决策权交给用户,AI负责降低操作门槛

4

数据驱动

每个阶段都有明确的验证指标,用数据说话,快速迭代

面试真题深度解析

基于真实面试问题,结合十米科技多个项目深度准备(点击标签切换项目)

高频真题

结合过往项目,谈谈你的产品规划能力

回答框架

产品规划 = 目标拆解 + 路径设计 + 节奏把控 + 资源协调

C端AI游戏助手Agent(葫乐APP)

📋 项目背景与规划挑战

我在葫乐APP主导C端AI游戏助手Agent项目。这是一个从0到1的项目,面临几个规划难点:

  • AI Agent在C端的体验标准不明确,没有成熟参照
  • 技术能力边界不清晰,LLM的稳定性和响应速度存在不确定性
  • 需要协调算法、研发、运营多个团队
🎯 我的规划方法

第一步:明确北极星指标 - 提升新手留存率

第二步:分阶段规划 - P0(MVP验证) → P1(体验打磨) → P2(场景扩展)

第三步:风险预判 - 技术风险/体验风险/资源风险都有Plan B

📊 规划结果

MVP按期上线,新手留存显著提升,沉淀C端Agent规划方法论

一站式AIGC游戏生产平台

📋 项目背景与规划挑战

主导端到端AIGC游戏生产平台建设,用户自然语言描述即可生成可玩游戏:

  • 游戏开发涉及策划/美术/程序/测试/发布全链路,流程极其复杂
  • 用户需求模糊,AI理解偏差可能导致生成结果不符预期
  • 需要平衡"降低门槛"与"保证质量"的矛盾
🎯 我的规划方法

北极星指标:游戏生成成功率、用户满意度、开发周期缩短比例

分阶段路径:P0验证2D简单游戏 → P1扩展游戏类型 → P2支持3D+复杂玩法

关键设计:AI引导式提问+人机协同确认点+微调编辑器

📊 规划结果

开发周期从数月缩短至数天,非程序员可独立完成游戏创作,输出Web链接+ZIP源码

卡通拍(AIGC图像生成)

📋 项目背景与规划挑战
  • 探索AI生成内容在C端的可用性与商业价值,无成熟参照
  • 图像生成速度、质量、多样性需要平衡
  • 用户对"自己的脸"质量要求极高,容错空间小
🎯 我的规划方法

北极星指标:生成完成率、用户分享率、DAU留存

分阶段路径:P0单一风格验证 → P1优化速度和质量 → P2扩展风格库

技术风险预判:人脸质量/生成速度是核心风险,提前投入优化

📊 规划结果

秒级生成体验,产品从0到数万用户,沉淀AIGC图像产品方法论

🚀 迁移到大疆

直接应用于大疆AI后期/智能滤镜——规划"一键风格化"功能:用户拍摄后秒变电影风格/水墨画/赛博朋克。我的AIGC图像产品规划经验可复用。

多模态虚拟人(萌动 · C端互动娱乐)

📋 项目背景与规划挑战
  • 虚拟人产品形态不成熟,用户预期管理困难
  • 多模态(文本/语音/动作)对齐是技术难点
  • 长期陪伴需要记忆和人格一致性
🎯 我的规划方法

北极星指标:日均互动时长和7日留存

分阶段路径:P0文本对话 → P1语音交互 → P2多模态融合

技术风险预判:多模态延迟/记忆一致性都有预案

📊 规划结果

互动深度与时长显著提升,沉淀多模态Agent架构

🚀 迁移到大疆

直接应用于AI飞行教练——规划教练的人格、记忆、多模态交互:记住用户水平、语音实时指导、飞后复盘分析。

迁移到大疆场景

如果我负责大疆的AI智能拍摄助手产品规划,我会:

  • 北极星指标:新手用户的出片满意度和飞行完成率
  • MVP验证:先聚焦"一键短片"场景,验证AI引导的有效性
  • 风险预案:飞行场景安全第一,AI指令必须经过安全校验层
高频真题

结合过往项目,谈谈你的产品决策能力

回答框架

产品决策 = 信息收集 + 利弊分析 + 取舍判断 + 结果复盘

AIGC游戏生产平台 - AI引导式提问 vs 一次性生成

🤔 决策背景

面临关键决策:用户输入后直接生成 vs AI引导式提问后再生成?

  • 方案A(直接生成):流程短,但用户描述模糊时生成结果偏差大
  • 方案B(AI引导提问):流程略长,但能确保需求明确、结果符合预期
⚖️ 决策过程

数据验证:直接生成时用户满意度仅45%,多次重试导致时间更长

最终决策:AI引导式提问 + 关键节点人机协同确认

📊 决策结果

首次生成满意度提升至85%,减少无效重试,整体完成时间反而更短

AI游戏助手Agent - Prompt策略选择

🤔 决策背景
  • 方案A(通用Prompt):维护简单但精准度低
  • 方案B(场景化Prompt):精准但维护复杂
⚖️ 决策过程

AB测试:通用70%准确率,场景化90%+

折中方案:"分层Prompt" - 高频场景专属,长尾场景通用兜底

📊 决策结果

核心场景90%+准确率,维护成本可控(5-6个核心Prompt)

卡通拍 - 生成速度 vs 图像质量决策

🤔 决策背景

面临关键决策:要速度还是质量?

  • 方案A(高质量模式):30s生成,细节完美,但用户等待流失严重
  • 方案B(快速模式):5s生成,但质量稍差,用户可能不满意
⚖️ 决策过程

数据验证:30s等待时用户流失率高达60%,“快但糟糙”的负评率也高

技术突破:通过FP16+模型蒸馏+GPU批处理,实现“又快又好”

最终决策:技术优化后实现3s生成+高质量,不用牢牲

📊 决策结果

单图生成30s→3s,用户完成率提升40%,且质量无下降

🚀 迁移到大疆

应用于大疆AI后期处理——端侧AI处理同样面临速度vs质量的权衡,我的推理优化经验可帮助实现“又快又好”的体验。

多模态虚拟人 - 记忆系统架构决策

🤔 决策背景
  • 方案A(全量上下文):简单但Token消耗大
  • 方案B(记忆摘要):省Token但丢失细节
  • 方案C(向量检索):精准但架构复杂
⚖️ 决策过程

场景分析:用户在意"被记住"感觉,非100%细节

混合方案:"分层记忆" - 短期全量 + 长期结构化 + 情景向量化

📊 决策结果

"被记住"感知度提升,Token消耗降低60%,架构可扩展

🚀 迁移到大疆

应用于AI飞行教练记忆系统——记住用户水平、常犯错误、学习进度,让教练越用越懂你。

迁移到大疆场景

  • 智能剪辑:全自动一键出片 vs 人工微调?设计"智能推荐+用户确认"渐进模式
  • 飞行控制:AI自主飞行 vs 人机协同?安全场景必须保留人工干预权
高频真题

结合过往项目,谈谈你解决事故/问题的能力

回答框架

事故处理 = 快速止血 + 根因定位 + 彻底修复 + 预防复发

AI游戏助手Agent - Agent回答"跑偏"事故

🚨 事故背景

上线后Agent在某些场景下回答"跑偏",用户反馈"AI不靠谱"

🔧 处理过程

止血:问题场景启用规则兜底,绕过LLM

根因:Prompt中上下文注入顺序错误,缺少优先级控制

修复:重构Prompt Pipeline,增加意图分类前置

预防:Prompt变更Review机制 + 回答相关性监控

📊 结果

当天修复,回答相关性从85%提升到95%+,沉淀Prompt Pipeline最佳实践

AIGC游戏生产平台 - 生成游戏无法正常运行

🚨 事故背景

用户生成的游戏频繁出现运行崩溃、白屏,成功发布率从90%骤降到40%

🔧 处理过程

止血:暂停自动发布,人工审核后再上线

根因:代码生成模型更新后产出的代码与游戏引擎版本不兼容

修复:锁定模型版本 + 增加自动化测试流水线(功能测试、兼容性测试)

预防:发布前强制通过自动化测试 + 模型更新灰度验证 + 回滚机制

📊 结果

6小时内恢复正常发布率95%+,建立完整的发布质量门禁

卡通拍 - 人脸变形/五官扭曲事故

🚨 事故背景

上线后用户反馈"脸变形了""眼睛大小不一""根本不像我",负评率飙升15%

🔧 处理过程

止血:紧急上线"重新生成"按钮,不满意可立即重试

根因:五官检测在特定角度/光线下失准,导致生成时关键点位置错误

修复:增加人脸关键点检测预处理+面部区域单独优化+生成后质量校验

预防:建立图像质量自动检测机制,不合格自动重生成

📊 结果

面部畸变率从15%陃3%,负评率大幅下降,沉淀图像质量检测机制

🚀 迁移到大疆

应用于大疆AI图像处理——航拍中过曝/模糊/构图不佳的自动检测,及时提醒用户或自动修复。

多模态虚拟人 - 多模态不同步问题

🚨 事故背景

虚拟人说话和动作不同步,嘴型对不上声音,用户反馈"出戏"

🔧 处理过程

止血:临时关闭口型同步,只保留固定表情

根因:语音流式输出,动作预先生成,时序不一致

修复:重新设计同步机制,增加时间戳对齐,优化渲染管线

预防:多模态同步自动化测试 + 音画延迟监控

📊 结果

同步延迟从200ms+降到50ms以内,沉淀多模态同步技术规范

🚀 迁移到大疆

应用于AI飞行教练多模态同步——语音指导+画面提示+飞行轨迹需要精确同步,我的多模态对齐经验可直接复用。

迁移到大疆场景

大疆产品对稳定性要求极高,我的事故处理经验可迁移:

  • 快速响应:建立问题分级机制,P0问题立即响应
  • 降级策略:AI功能异常时平滑降级到传统模式,不影响核心飞行
  • 监控体系:关键AI功能建立实时监控和告警
  • 复盘文化:符合大疆"追求极致"的文化——每次问题都要彻底解决

三道真题的共同逻辑

1

结构化思维

无论是规划、决策还是解决问题,都需要有清晰的框架和步骤

2

数据驱动

不凭直觉判断,用数据验证假设、衡量结果

3

闭环意识

规划要追踪结果、决策要复盘效果、问题要预防复发

4

沉淀复用

每次实践都沉淀方法论,让经验可迁移、可复用

一站式AIGC游戏生产平台

从创意构想到可发行成品,AI驱动全流程自动化 · 您的专属游戏制作人

项目概述

产品愿景 打造一站式AIGC游戏生产平台,整合并自动化整个游戏研发流程
核心能力 自然语言描述 → 可玩游戏 → Web链接试玩 + ZIP下载二次编辑
目标用户 独立开发者、中小型工作室、IP方、教育机构等
核心价值 将6-18个月开发周期缩短至数周甚至数天,降低开发门槛

核心功能:AI生成游戏

自然语言生成

通过中英文自然语言描述,自动生成可玩的3D/2D游戏,如FPS、飞行模拟等多种类型

多模态交互设计

AI支持文本、3D建模、物理引擎的无缝结合,提供沉浸式游戏体验

个性化定制

根据用户需求智能调整游戏场景、玩法规则及视觉效果,实现高度个性化

核心功能:端到端自动化

全流程AI驱动

从概念输入到完整游戏生成全程由AI驱动,大幅降低开发门槛

跨界3D创作

适用于游戏、潮玩、IP形象及空间装置设计,提供高自由度3D视觉表达

即时试玩与分享

生成后能直接在线体验,输出Web链接+ZIP下载,支持快速迭代与社交化传播

研发流程细化:AI全链路覆盖

需求与策划
用户用自然语言描述想法,AI引导式提问,明确游戏类型、玩法、世界观
美术与UI
自动生成场景概念图、角色立绘、UI界面、图标、字体等视觉元素
动画与3D
生成角色骨骼绑定、动作动画、3D建模、贴图、特效等游戏资产
代码生成
自动生成可直接运行的客户端(Unity/Web)与服务器端代码
测试与优化
AI执行压力测试、兼容性测试,提供Bug修复建议
发布部署
一键构建并输出可运行版本:Web链接 + ZIP源码包

平台定位:您的专属游戏制作人

智能引导

平台像资深制作人一样,不时提问、征集意见、提供选择,引导用户完成游戏创作

降低专业门槛

非专业用户也能在AI引导下完成游戏创作,无需编程或美术专业知识

提升专业效率

专业团队可借助平台大幅缩短开发周期、降低成本,专注于创意与体验优化

产品输出形态

🌐 Web链接(即时试玩)

生成后直接获得一个可分享的Web链接,点击即可在浏览器中体验游戏

  • 无需下载安装,即开即玩
  • 支持社交分享,快速传播
  • 方便快速验证和迭代

📦 ZIP源码包(二次编辑)

下载完整的游戏源码包,可在本地进行深度定制和二次开发

  • 包含所有资产、代码、配置
  • 支持Unity/Unreal引擎导入
  • 可深度修改和扩展

✏️ 在线微调编辑器

生成后可直接在平台内进行微调修改,无需下载即可预览效果

  • 场景、角色、玩法参数调整
  • 视觉效果实时预览
  • 修改后一键重新发布

Human-in-the-Loop:人机协同设计

为确保生成质量和用户意图准确传达,我们在关键节点设置了人机协同确认点,让用户可以随时介入和调整。

1
创意输入

用户描述想法

AI
引导式提问

AI追问细节

方案确认

用户确认方向

AI
资产生成

AI批量产出

素材筛选

用户挑选满意的

AI
游戏组装

AI整合发布

微调编辑

用户最终调整

✅ 质量保障:关键节点用户把关,避免AI偏离用户意图
✅ 效率平衡:AI负责繁重生成,人工只做选择决策
✅ 渐进放权:随着模型优化,高置信度环节可自动通过

市场定位与商业价值

差异化定位

全流程生产线: "游戏界的Manus + 扣子空间":完整的全流程生产线,而非局部AI工具
从0到1全覆盖: 覆盖从0到1的全部研发步骤,打通策划、美术、程序、测试、发布全链路
多元用户群体: 适用于独立开发者、中小型工作室、IP方、教育机构等多类群体

商业价值

降低门槛

非程序员也能做游戏,个人用户和小团队可直接量产作品

提升效率

将传统6-18个月的开发周期缩短到数周甚至数天

规模化产出

批量生成游戏Demo,快速验证市场与玩法,提高创新尝试成功率

双向商业模式

B2B:面向企业提供定制化生产能力
B2C:面向个人创作者收取订阅或分成

0-1 实现过程

1

需求验证与MVP(4周)

目标:验证"自然语言→可玩游戏"核心价值假设

  • 调研目标用户(独立开发者/小团队),确认痛点真实存在
  • 搭建最小可用Demo:文字描述→2D横版小游戏
  • 邀请20+用户内测,收集反馈

结果:80%用户认为有价值,但"生成结果不符预期"是核心问题

2

人机协同机制设计(3周)

目标:解决"AI理解偏差"问题,提升首次生成满意度

  • 设计AI引导式提问流程:追问游戏类型、玩法、风格等关键信息
  • 增加关键节点确认:素材预览→用户选择→继续生成
  • 开发微调编辑器:生成后可调整参数并实时预览

结果:首次满意度从45%提升到85%

3

全流程Pipeline搭建(6周)

目标:打通策划→美术→程序→测试→发布完整链路

  • 需求解析Agent:NLP理解用户描述,结构化提取游戏要素
  • 美术生成Agent:角色/场景/UI资产批量生成(SDXL+LoRA)
  • 代码生成Agent:基于模板+LLM生成可运行游戏代码
  • 测试Agent:自动化功能测试+兼容性校验

输出:完整的端到端游戏生成Pipeline

4

训练平台与生态建设(持续)

目标:支持用户自定义风格,构建模板生态

  • 风格训练平台:用户上传参考图,训练专属LoRA模型
  • 模板市场:优秀游戏可发布为模板供他人使用
  • 社区分享:支持一键分享到社交平台

结果:形成"生成→分享→复用"的正向飞轮

技术栈架构(第三方API整合平台)

作为中小型团队,我们定位为「AI能力整合平台」,通过统一接入第三方API实现快速迭代,聚焦产品体验和流程编排,而非重复造轮子。

应用层(用户触点)
游戏创作工作台 React + TailwindCSS
风格训练平台 Vue3 + Element Plus
微调编辑器 React + Monaco Editor
游戏运行时 Cocos / Unity WebGL
服务层(编排与协调)
对话引导服务 LangChain Agent
Pipeline编排 LangGraph + Celery
API网关 统一调度/降级/重试
人机协同引擎 确认节点/回滚机制
AI能力层(第三方API集成)
🎨 2D美术资产
Midjourney API DALL·E 3 API Stable Diffusion API RemoveBG API
🧊 3D资产生成
腾讯混元3D API Meshy API Tripo3D API CSM API
💻 代码与逻辑生成
OpenAI GPT-4 Claude 3.5 DeepSeek API 游戏代码模板库
🔊 音频生成
Suno API (配乐) ElevenLabs (配音) Udio API
🧠 理解与推理
GPT-4V / GPT-4o Claude Vision Gemini Pro
游戏引擎对接层
Cocos Creator 2D/轻量3D游戏
Unity WebGL 3D/复杂游戏
Phaser.js H5小游戏
Three.js 3D可视化
基础设施层
PostgreSQL 项目/用户数据
Redis 会话/任务队列
腾讯云COS 资产存储/CDN
K8s集群 弹性部署

Cocos / Unity 引擎对接方案

Cocos Creator 对接
  • 资产导入:AI生成的2D Sprite、图集通过cc.assetManager动态加载
  • 代码注入:GPT-4生成TypeScript组件代码,热更新到场景节点
  • 场景模板:预置Prefab模板,AI填充参数生成完整场景
  • 导出发布:一键构建Web-Mobile/微信小游戏/原生包
Unity WebGL 对接
  • 3D资产:混元3D API生成glTF模型,通过UnityWebRequest加载
  • C#代码生成:GPT-4基于Unity API生成MonoBehaviour脚本
  • 场景编排:JSON配置驱动场景构建,支持运行时修改
  • JS Bridge:WebGL与前端通信,支持微调编辑器实时预览

整合平台设计思路

API优先策略: 每个环节选用最强第三方API(3D用混元、代码用GPT-4、配乐用Suno),团队聚焦产品体验
统一API网关: 封装所有第三方API,实现负载均衡、故障切换、成本控制、调用统计
引擎适配层: 抽象资产格式转换,AI输出统一JSON Schema,适配Cocos/Unity/H5多端
LangGraph编排: 多API串联调用,支持条件分支、并行执行、失败重试、人工介入

人机协同机制(避免AI失控的关键设计)

AI生成存在不可控性,通过多层确认机制分阶段人工介入,确保产出质量可控、问题可追溯。

人机协同流程

1
🎯 需求确认阶段

AI通过多轮对话澄清需求,生成需求确认单(游戏类型、玩法、风格、目标平台)

人工确认点:用户确认需求摘要后才进入生成阶段
2
🎨 美术资产阶段

调用Midjourney/混元3D生成资产,每批次生成4个方案供选择

人工确认点:用户选择满意方案,或点击"重新生成"/"手动上传"
3
💻 代码生成阶段

GPT-4基于模板生成游戏代码,自动运行Playwright测试验证可玩性

自动化检查:测试通过才继续,失败自动重试3次后提交人工审核
4
🎮 集成预览阶段

资产+代码组装为可运行游戏,生成预览链接

人工确认点:用户试玩预览版,确认"满意发布"或进入"微调编辑"
5
✏️ 微调修正阶段

用户可在微调编辑器中调整参数、替换素材、修改代码

即时反馈:修改后实时预览,支持无限次迭代直到满意

问题兜底机制

API调用失败
  • 自动重试3次(指数退避)
  • 主备API切换(如GPT-4→Claude)
  • 降级到开源模型兜底
  • 最终失败通知用户+人工介入
生成质量不达标
  • 美术:多方案选择+重新生成
  • 代码:自动化测试+错误定位
  • 每个阶段可回退到上一步
  • 保留完整版本历史可恢复
生成超时处理
  • 设置每阶段超时阈值
  • 超时自动切换备用方案
  • 任务状态实时推送前端
  • 支持取消+重新开始
版本回滚机制
  • 每次确认自动存档
  • 支持一键回退任意版本
  • 对比不同版本差异
  • 导出历史版本ZIP

经验如何迁移到大疆

智能剪辑平台

自然语言输入→AI理解→全流程生成的端到端架构可直接复用

AI引导式交互

引导式提问机制可用于帮助用户明确拍摄/剪辑需求

人机协同设计

关键节点确认+微调编辑器的Human-in-the-loop经验可迁移

多输出形态

Web预览+本地下载+在线编辑的多形态输出模式适用于大疆云端服务

多模态虚拟人Agent

有记忆、有情感、多模态的AI伙伴 · 情感陪伴与历史人物数字孪生

项目概述

产品愿景 打造有记忆、有情感的多模态虚拟人,实现自然连续的交互体验
核心能力 多模态对话(文本/语音/表情/动作) + 长期记忆 + 人格一致性
目标用户 C端情感陪伴需求用户、教育机构、文化IP方、知识传播平台
核心价值 显著提升互动深度与使用时长,沉淀可复用的多模态Agent架构

两种产品形态

💕 情感陪伴虚拟人

有记忆、有情感、可穿搭的AI伙伴。记住用户喜好、陪伴成长、提供情感支持,是用户的专属数字朋友

  • 长期记忆:记住重要日期、偏好、对话历史
  • 情感识别:感知用户情绪并给予恰当回应
  • 穿搭系统:自定义虚拟人外观

📜 历史人物数字孪生

复刻历史名人的性格、思想、知识,实现跨时空对话。与孔子讨论人生、与爱因斯坦聊物理、与乔布斯谈产品

  • 人格复刻:基于史料训练专属人格模型
  • 知识注入:RAG接入人物相关知识库
  • 风格一致:语言风格、思维方式保持一致

核心技术架构:多模态Agent Pipeline

ASR语音识别
语音转文字,支持流式识别,实时显示用户输入
NLU意图理解
情感分析+意图识别+实体抽取,理解用户真实需求
记忆召回
向量检索相关记忆,注入上下文,让AI"记得"用户
DM对话管理
人格约束+情绪调节+回复策略,生成情感标签
NLG生成回复
基于人设生成回复文本,输出情感标签驱动表情
TTS语音合成
情感化语音合成,同步驱动表情和动作

三级记忆系统:让AI真正"记住"用户

短期记忆

当前会话的完整对话历史,存储在Context Window中,支持多轮上下文理解

技术实现:滑动窗口 + 摘要压缩

长期记忆

跨会话的关键信息摘要,存储在向量数据库中,每轮对话语义检索召回相关记忆

技术实现:Embedding + Pinecone/Milvus

关键记忆

用户主动标记或系统识别的重要信息(如生日、喜好),永久保存并优先召回

技术实现:结构化存储 + 规则触发
🧠 记忆召回:每轮对话根据当前语义检索Top-K相关记忆,注入System Prompt
🗑️ 遗忘机制:定期衰减不重要的记忆,避免信息过载影响检索效果
📊 记忆统计:让用户感知"被记住"——展示记忆条数、陪伴天数等

人格一致性系统:避免"人设崩塌"

虚拟人最大的挑战是保持人格一致性——不能前后矛盾、不能偏离设定。我们设计了三层人格架构:

核心层(固定)

固定的性格特征、说话风格、价值观,写入System Prompt,不随对话改变

例:你是小悦,一个温柔体贴的AI伙伴,喜欢用可爱的语气说话...

情绪层(动态)

根据对话内容实时调整的情绪状态(开心/难过/兴奋/关心),影响回复风格

情绪标签:happy/sad/excited/caring/gentle

场景层(适配)

适配当前场景的表达方式,如聊天/唱歌/安慰/讲故事,调用不同的技能模块

场景识别 → 技能路由 → 专属回复策略
✅ 一致性检测:每轮回复后自动检测是否偏离人设,偏离则触发修正重生成
✅ 人设注入:每轮对话注入人设摘要(200字以内),确保LLM不遗忘角色

多模态信号同步:表情/动作/语音一体化

多模态虚拟人的体验关键是信号同步——表情、动作、语音必须协调一致,否则会让用户感到割裂。

1
LLM生成回复

输出文本+情感标签

🎭
表情渲染

根据情感标签驱动

🕺
动作选择

匹配情感的动作库

🔊
TTS合成

情感化语音参数

▶️
同步播放

时间戳对齐输出

⚡ 延迟优化:流式TTS + 表情预加载,端到端延迟<500ms
🎯 统一标签:情感标签作为多模态驱动的统一信号源

技术栈架构

前端展示层
3D渲染引擎 Three.js / Unity
Live2D动画 表情/动作驱动
对话界面 React + WebSocket
AI能力层(第三方API)
ASR语音识别 讯飞/Azure Speech
LLM对话 GPT-4 / Claude
TTS语音合成 Azure TTS / 讯飞
向量检索 Pinecone / Milvus
服务编排层
Agent编排 LangGraph / Dify
人格管理 Prompt + 检测
记忆服务 PostgreSQL + Redis

0-1 实现过程

1

产品定义与MVP(3周)

目标:验证"有记忆、有情感的虚拟人"核心价值假设

  • 调研目标用户,确认情感陪伴/教育IP两条路线
  • 搭建最小可用Demo:文本对话+简单2D形象+基础记忆
  • 邀请30+用户内测,验证"被记住"的价值感知

结果:85%用户认为"记忆"是核心卖点,但"对话不够自然"是主要痛点

2

人格系统设计(3周)

目标:解决"人设崩塌"和"对话不自然"问题

  • 设计三层人格架构:核心层(固定性格)+情绪层(动态)+场景层(适配)
  • 构建人设注入机制:每轮对话注入200字人设摘要
  • 添加一致性检测:偏离人设自动触发修正重生成

结果:人设一致性从70%提升到95%+

3

三级记忆系统(4周)

目标:让AI真正"记住"用户,建立长期关系

  • 短期记忆:当前会话Context Window + 滑动窗口压缩
  • 长期记忆:跨会话摘要 + 向量数据库(Pinecone)语义检索
  • 关键记忆:用户标记/系统识别的重要信息永久保存

结果:用户感知"被记住"的满意度从40%提升到90%

4

多模态升级(5周)

目标:从文本对话升级到语音+表情+动作的多模态交互

  • 接入ASR语音识别(讯飞/Azure)+ TTS语音合成
  • 设计情感标签系统:LLM输出情感标签驱动表情/动作/语音参数
  • 优化同步机制:时间戳对齐,端到端延迟控制在500ms以内

结果:互动深度和使用时长显著提升,形成可复用的多模态Agent架构

经验如何迁移到大疆

AI飞行教练

人格系统可用于塑造"教练"角色,保持教学风格一致性

语音交互

ASR→LLM→TTS的多模态Pipeline可直接复用到无人机语音控制

长对话体验

记忆系统可用于记住用户飞行偏好、拍摄风格,提供个性化服务

情感化交互

情感识别与响应经验可用于提升产品亲和力和用户粘性

C端AI游戏助手Agent

实时识别用户卡点,主动介入引导 · 让复杂产品变得简单易用

项目概述

产品愿景 让用户在复杂产品中永不迷路,AI实时感知状态并主动引导
核心能力 状态机驱动 + 卡点检测 + 主动介入 + 多轮对话引导
目标用户 复杂产品的新手用户、需要操作指导的C端用户
核心价值 新手留存显著提升,沉淀可复用的C端Agent设计方法论

核心设计理念:从"被动问答"到"主动引导"

❌ 传统客服式AI

用户问什么答什么,被动等待提问,用户不知道问什么就卡住了

问题:用户不知道自己不知道什么

✅ 主动式游戏助手

实时监测用户状态,识别卡点后主动介入,像教练一样引导完成任务

方案:AI主动感知 + 适时介入 + 分步引导

核心架构:状态机驱动的Agent

Agent的行为完全由状态机驱动,确保在任何状态下都有明确的行为边界,避免AI"胡说八道"。

初始化
识别用户等级,加载对应任务树
教程阶段
分步引导,每步有明确目标和检测
卡点检测
空闲超时/操作失败触发卡点状态
主动介入
根据卡点类型提供针对性帮助
任务完成
确认完成,进入下一阶段
🎯 明确边界:每个状态有明确的入口条件、行为范围、出口条件
🔄 可追溯:所有状态转换有日志,问题可定位、可复现

卡点检测系统:识别用户"卡住了"

空闲超时检测

用户在某步骤停留超过阈值(如5秒),判定为可能卡住

实现:计时器 + 动态阈值(根据步骤难度调整)

操作失败检测

用户连续多次操作失败(如动作识别失败),判定需要帮助

实现:失败计数器 + 连续失败阈值

路径偏离检测

用户操作偏离预期路径(如该做A却做了B),判定需要纠正

实现:期望动作 vs 实际动作对比

主动介入策略:分层级帮助

帮助不是越多越好,而是恰到好处。我们设计了分层级的介入策略:

L1:轻提醒

非侵入式提示,如界面上的高亮引导、小图标闪烁

触发:空闲3秒 | 方式:视觉提示

L2:语音/文字提示

Agent主动发起对话,询问是否需要帮助

触发:空闲5秒 | 方式:对话框弹出

L3:详细指导

展示分步骤操作说明,配合动画演示

触发:用户请求/连续失败 | 方式:全屏教程
🎯 用户控制:用户可随时说"我知道了"跳过帮助,不强制打断
📈 自适应:根据用户等级调整帮助频率和深度,老手少打扰

Prompt Pipeline:保证回答相关性

LLM容易"跑偏",我们通过多层Prompt Pipeline确保回答始终与当前任务相关。

1
意图分类

高频场景快速路由

2
上下文注入

当前状态+任务信息

3
专属Prompt

场景定制化模板

4
LLM生成

GPT-4生成回复

5
相关性校验

确保回复在边界内

📊 效果:回答相关性从85%提升到95%+,用户反馈"AI终于靠谱了"

体验稳定性保障

响应速度优化

  • 流式输出:首字响应<1秒
  • 高频问题缓存:命中率>60%
  • 骨架屏预加载:感知延迟降低60%

降级兜底策略

  • LLM超时:切换到规则引擎回复
  • API失败:展示预设帮助内容
  • 极端情况:引导联系人工客服

质量监控

  • 实时监控回复相关性评分
  • 用户反馈自动收集分析
  • 异常回复自动告警

技术栈架构

前端交互层
游戏运行时 Unity / Cocos
对话界面 React + WebSocket
体感识别 MediaPipe / OpenPose
Agent服务层
状态机引擎 XState / 自研
意图识别 BERT + 规则
卡点检测 计时器 + 规则
AI能力层
LLM对话 GPT-4 / Claude
知识库 Embedding + RAG
缓存层 Redis

核心业务指标

95%+
回答相关性
<1s
首字响应
+35%
新手留存提升
60%
缓存命中率

0-1 实现过程

1

需求调研与MVP(3周)

目标:验证"主动式AI助手"在C端游戏场景的价值

  • 调研新手用户痛点:教程跳过率高、操作失败放弃、不知道问什么
  • 搭建最小可用Demo:基于规则的卡点检测+简单对话引导
  • 邀请50+新手用户测试,观察使用行为

结果:验证"主动介入"比"被动问答"有效,但规则触发太机械,用户感觉被打扰

2

状态机架构设计(3周)

目标:构建可控、可追溯的Agent行为框架

  • 设计状态机模型:初始化→教程阶段→卡点检测→主动介入→任务完成
  • 定义状态转换条件:每个状态有明确的入口/出口条件
  • 构建任务树:将复杂教程拆解为可验证的子任务

结果:Agent行为有了明确边界,问题可定位、可复现

3

智能卡点检测(3周)

目标:精准识别用户"卡住了",减少误触发

  • 多维度检测:空闲超时+操作失败+路径偏离
  • 动态阈值:根据任务难度和用户等级调整触发条件
  • 分层级介入:轻提醒→语音提示→详细指导,避免过度打扰

结果:误触发率从40%降到8%,用户满意度显著提升

4

Prompt Pipeline优化(4周)

目标:解决LLM回答"跑偏"问题,提升相关性

  • 意图分类前置:高频场景快速路由,长尾场景LLM处理
  • 上下文注入:当前状态+任务信息+用户等级动态注入Prompt
  • 相关性校验:输出前检测是否在任务边界内,偏离则重生成

结果:回答相关性从85%提升到95%+,新手留存显著提升

经验如何迁移到大疆

新手引导系统

状态机+卡点检测可直接用于无人机首飞引导、APP功能学习

智能客服升级

从被动问答升级为主动式助手,提升用户支持效率

体验稳定性

Prompt Pipeline + 降级策略确保AI功能在各种情况下稳定可用

复杂产品简化

大疆产品功能丰富,AI助手可大幅降低学习成本

描述你想要的游戏

用自然语言描述,AI会引导你完善细节

选择风格标签

游戏类型
射击 跑酷 解谜 塔防 RPG
视觉风格
像素风 卡通 赛博朋克 低多边形
游戏维度
2D横版 2D俯视 3D

目标引擎 & 平台

Cocos Creator 2D/轻量3D·微信小游戏
Unity WebGL 3D游戏·复杂交互
Phaser.js H5小游戏·快速发布

AI游戏制作人

在线·GPT-4 驱动

👋 你好!我是你的AI游戏制作人(由 GPT-4 驱动)。

我会协调多个AI服务为你生成游戏:

Midjourney 混元3D GPT-4 Suno

请描述你的游戏,我会引导你完善细节!

🎮
像素风-复古街机
✅ 已发布
🌸
日系二次元
✅ 已发布
🤖
赛博朋克机甲
🔄 训练中 72%
🏰
中世纪幻想
📝 草稿
训练统计
已训练模型6个
本月训练次数12次
GPU使用时长28.5h

创建新风格模型

上传20-50张参考图,AI将学习你的专属风格

推荐 SDXL 1.0 高质量·适合多数场景
SD 1.5 训练快·兼容性好
Anime SDXL 二次元专用

拖拽图片到此处,或 点击上传

支持 PNG/JPG/WEBP,单张≤10MB
📸
🖼️
🎨
🌅
+21
高级参数
预计耗时:约2小时

我的游戏作品

🚀
已发布

太空射击大作战

2D像素风 · 射击类 · 创建于3小时前

🏃
已发布

像素跑酷冒险

2D横版 · 跑酷类 · 创建于1天前

🧩
草稿

解谜小屋逃脱

3D · 解谜类 · 创建于2天前

游戏参数

🎮 基础设置
100%
🚀 玩家属性
👾 敌人设置
🎨 界面设置

素材管理

玩家角色
🚀
🛸
✈️
敌人角色
👾
👽
🤖
道具
💎
❤️
🛡️
背景
🌌 星空
🌆 城市
🏔️ 山脉

代码编辑

直接修改游戏逻辑代码

main.js
player.js
enemy.js
config.js
// main.js
const game = new Game({
  width: 800,
  height: 600,
  fps: 60
});

game.onUpdate = () => {
  player.move();
  enemies.update();
};

音效设置

背景音乐
🎵 太空探险
🎵 激烈战斗
🎵 神秘星云
音效
音量控制

实时预览

太空射击大作战
🚀
👾
👾
👽
SCORE: 1250
❤️❤️❤️
LEVEL 3
60 FPS 800×600

选择Demo体验

🎮

AIGC游戏生产流水线

自然语言描述 → AI自动生成完整游戏

B端平台 Pipeline编排 人机协同
✅ 已就绪
🎮

C端AI游戏助手Agent

体感游戏场景 · 实时识别用户卡点并主动引导

C端Agent 状态机 体感交互
✅ 已就绪
👤

多模态虚拟人Agent

3D虚拟人 · 情感陪伴 / 历史人物数字孪生

多模态交互 长期记忆 人格系统
✅ 已就绪
🎬

AI导演助手

自然语言控制无人机拍摄 · 小白也能拍大片

大疆场景 Function Calling 飞控API
✅ 已就绪
🎓

AI飞行教练

个性化学习伴侣 · 从新手到航拍大师

大疆场景 个性化学习 技能成长
✅ 已就绪
📍

智能航拍规划师

地点推荐 · 最佳时间 · 航线自动规划

大疆场景 LLM+地图 法规提醒
✅ 已就绪
✂️

智能剪辑大师

从素材到大片 · 一句话搞定

大疆场景 多模态LLM 叙事结构
✅ 已就绪
C端 AI 游戏助手 Agent 体感游戏场景
摄像头画面
骨骼识别中...
🎯
请举起双手开始游戏
得分0
连击0

AI游戏助手

实时监测中
用户状态: 新手 · 教程阶段

👋 欢迎来到体感互动游戏

我是你的AI游戏助手,会实时监测你的动作,在你遇到困难时主动提供帮助。

检测到这是你的首次游戏,让我带你熟悉基本操作吧!

📋 新手教程:学习基础动作

举起双手激活游戏
向右挥手选择关卡
跳跃躲避障碍物
下蹲收集道具

💡 如果卡住了,我会自动出现帮助你!

Agent 状态机可视化
已完成 进行中 待完成 卡点
🙌
举手激活
进行中
👋
右挥选关
待操作
🦘
跳跃躲避
待操作
⬇️
下蹲收集
待操作
🎉
教程完成
待解锁
空闲检测
0s / 5s
会话统计
对话: 2 操作: 0 帮助: 0
多模态虚拟人 Agent 情感陪伴
💕

情感陪伴虚拟人

有记忆、有情感、可穿搭的AI伙伴

📜

历史人物数字孪生

跨时空对话,体验伟人思想

😊
休闲装
当前情绪 开心 😊
动作 待机
穿搭选择
💕

小悦

在线 · 已陪伴你 128 天
记忆: 23

👋 早上好呀!今天是我们认识的第 128 天了~

我记得你昨天说工作有点累,今天感觉怎么样?

基于记忆
情感状态
亲密度
75%
信任度
82%
记忆系统
短期: 5 长期: 18 关键: 3
Agent状态
🎤 ASR 🧠 NLU 💭 DM 📝 NLG 🔊 TTS
AI 导演助手 大疆无人机 · 自然语言控制
普通挡
↑ 52m 02'35" 4G 68%
🧍
跟踪目标
云台: -15°
3
1x
N E S W
H
52m +0.5m/s
320m 8.5km/h
💾 00:02:35 RES&FPS 4K 30 EV 0.0
AI导演待命中

AI导演助手

● 在线
🎬 快捷指令
🎬

你好!我是你的AI导演助手 ✨

你可以用自然语言告诉我想要的镜头效果,比如:

  • "给我来一个环绕镜头"
  • "慢慢拉远,露出整个海岸线"
  • "跟着那个人跑"
  • "再高一点,速度慢一些"

我会把你的想法转化为飞控指令 🚁

💡 试试:"给我一个环绕拍摄" 或 "镜头再高一点"
AI 飞行教练 个性化学习伴侣
Lv.2

飞行学员

初级飞手
350/1000 XP

技能画像

基础操控
航拍构图
飞行安全
智能功能
后期处理
创意表达
✨ 基础操控较强 📈 需加强: 航拍构图

📐 航拍构图基础

步骤 1/5
📚 知识点 1/5

什么是三分法构图?

🏔️

将画面用两条横线和两条竖线分成9等份,将主体放在四个交叉点上,可以获得更具美感的构图。

航拍时,可以将地平线放在上1/3或下1/3处,避免将主体放在正中央
🎯 互动练习

拖动下方的主体图标到你认为最佳的构图位置:

🏠
AI Coach

小飞教练

● 在线辅导中
🎓

你好!我是你的AI飞行教练小飞 👋

根据你的飞行数据分析,我发现你的基础操控已经不错了!

航拍构图还有提升空间,所以我为你推荐了这门课程~ 📐

有任何问题随时问我!

💬 常见问题
智能航拍规划师 LLM + 地图 + POI
🌊
月牙湖
⭐ 4.6
🌳
森林步道
⭐ 4.5
⚠️ 限高区
当前位置
推荐点位
限飞区域
规划航线
🎯 快捷指令
📍

你好!我是你的智能航拍规划师 ✨

我可以帮你:

  • 推荐附近适合航拍的地点
  • 分析最佳拍摄时间
  • 自动规划飞行航线
  • 提醒禁飞区和法规

告诉我你想拍什么,我来帮你规划!🚁

智能剪辑大师 多模态LLM · 叙事结构

素材库

8个片段 · 12.5GB
🌅
0:45
海边日落
日落 温馨
美学评分:92
🏙️
1:20
城市航拍
城市 大气
美学评分:88
👫
0:30
人物互动
人物 欢乐
美学评分:85
⛰️
2:10
山峰云海
自然 壮观
美学评分:95
🏃
0:55
运动追拍
运动 动感
美学评分:82
🌃
1:05
城市夜景
夜景 璀璨
美学评分:90

选择素材或生成视频后预览

00:00 / 00:00

时间线

视频
AI将在此生成视频序列
音乐
AI将自动匹配背景音乐
字幕
可添加字幕和标题
0:00 0:30 1:00 1:30 2:00 2:30 3:00
✂️

AI剪辑师

● 在线
🎬 一键生成
✂️

你好!我是AI剪辑师 🎬

我已分析了你的8个航拍素材,发现了一些精彩片段!

你可以:

  • 告诉我想要什么风格的视频
  • 点击上方模板快速生成
  • 对生成结果进行微调

试试说:"帮我剪一个3分钟的旅行vlog"

反问面试官

展现深度思考与真诚兴趣的高质量问题

业务落地类

贴大疆核心赛道,映自身场景理解能力
Q1

"了解到大疆的 AI 产品始终围绕智能硬件场景深耕,目前团队将 AI Agent(比如对话、多模态、工具调用类)落地到硬件产品时,核心聚焦的用户痛点或业务目标是什么?过程中遇到的最大挑战是技术适配(比如硬件算力约束)还是场景建模(比如不同用户群体的需求差异)?"

👉 亮点: 精准命中大疆 "智能硬件 ×AI" 的核心方向,同时暗示你懂硬件场景下 AI 落地的关键痛点(算力、适配),呼应你简历中 "智能硬件 ×AI 场景深入理解" 的优势,也能让你快速明确岗位核心工作方向。

产品标准类

贴大疆强落地文化,映自身规模化经验
Q2

"大疆的产品一直以'高可靠性、强实用性'为核心,想请教下,团队对 AI 类产品(比如你负责的 Agent 或多模态相关方向)从 0-1 验证到规模化推广,最核心的评判标准是什么?是优先看用户体验数据,还是业务效率提升,或是硬件兼容性覆盖度?"

👉 亮点: 契合大疆 "高要求、强落地" 的产品文化,同时呼应你简历中 "多个项目从 0-1 到规模化落地" 的经验(比如卡通拍从 0 到数万用户、AIGC 平台用于真实生产),暗示你能快速对齐公司的产品评判标准,避免 "实验性产品" 思维。

跨团队协同类

贴 AI 产品核心痛点,映自身协同优势
Q3

"AI 产品尤其是硬件相关的,需要算法、硬件研发、产品、业务多方协同,想了解下大疆内部这类 AI 产品的跨团队协作模式是怎样的?比如算法团队和产品团队在 AI 能力定义、效果迭代上的权责划分,以及如何解决硬件性能约束与 AI 效果提升之间的矛盾?"

👉 亮点: 切中 AI + 硬件产品的核心协作痛点,呼应你简历中 "擅长在算法、工程与业务之间建立协作机制" 的优势(比如智慧校园项目协调教育业务方与技术团队、AIGC 项目联动算法团队做风格控制),展示你能快速融入内部协作流程,提前预判并解决协同矛盾。

技术平衡类

贴大疆核心诉求,映自身核心竞争力
Q4

"大模型的不确定性是 AI 产品落地的关键问题,而大疆作为硬件厂商,对产品稳定性的要求极高。想请教下,团队在推进 AI 创新(比如多模态交互、Agent 长对话能力)时,是如何平衡'AI 能力的突破性'与'硬件产品的稳定性、用户体验的一致性'的?有没有明确的边界或机制来规避 AI 的不可控风险?"

👉 亮点: 精准戳中大疆 "硬件产品 + AI" 的核心矛盾(创新与稳定),直接呼应你简历中 "在大模型不确定性下,通过产品机制保障体验稳定" 的核心优势(比如 C 端 Agent 的异常兜底、客服机器人的混合方案),让面试官瞬间联想到你的能力能解决他们的核心诉求。

长期发展类

贴岗位成长,映自身长期价值
Q5

"目前这个 AI 产品处于什么迭代阶段?后续 1-2 年在 AI 能力深化上有哪些核心规划?比如是否会结合更前沿的大模型技术优化 Agent 的决策能力,或是拓展更多智能硬件的适配场景?"

👉 亮点: 体现你对岗位长期价值的关注,而非只看短期工作,同时呼应你简历中 "沉淀可复用的 Agent 架构、方法论" 的经验(比如 C 端 Agent 设计方法论、多模态 Agent 架构),暗示你能为产品的长期演进贡献可复用的价值,契合大疆 "可持续演进" 的产品需求。

快问快答类

深入了解岗位核心
Q6

端侧与云端的能力边界怎么划?哪些必须端侧实时,哪些可以云端异步?背后的延迟预算怎么定义?

Q7

如果我入职 3 个月,你们最希望我解决的 Top 1 问题是什么?为什么它至今没被解决?

Q8

对这个岗位的"优秀/普通"分水岭是什么?你见过最优秀的人在做什么不同的事?

反问原则

🎯
有准备

问题要体现你做过功课,而非"官网能查到的"

💡
有深度

问"为什么"和"如何",而非"是什么"

🤝
有诚意

真正想了解的问题,而非"表演性提问"

⏱️
有分寸

2-3个问题为宜,根据时间和氛围灵活调整