✓ 湖南大学(985)软件工程,完全匹配
✓ 8年AI产品经验,多个Agent产品落地,远超要求
✓ C端AI产品经验丰富,擅长用户洞察到产品落地
✓ 多项目中与算法、研发、运营深度协作经验
✓ 所有项目都有明确落地成果和数据验证
△ 有C端APP产品经验,可迁移
△ 有AIGC图像生成产品经验(卡通拍)
面试官您好,我是马靖昱,毕业于湖南大学软件工程专业。首先今天很荣幸来面试大疆的AI产品岗,我是一名有8年经验的AI产品经理。我的核心是将前沿AI技术转化为用户热爱的产品体验,并实现规模化落地。
【技术背景】我的职业生涯始于技术背景,这让我能深入理解算法边界并与工程师高效协同。在十米科技,我主导的AI体感产品矩阵,需要将AI算法与手机、手表等硬件传感器深度结合,实现高精度的动作识别和交互。这段经历让我对软硬件协同有了深刻的实践。
【核心能力】更重要的是,我主导的多模态虚拟人和AIGC生产力平台项目,锻炼了我设计复杂AI系统(如任务型Agent、Workflow)的能力,尤其擅长在大模型不确定性下,通过产品架构保障体验的稳定和可控。
【与大疆的契合】我关注到大疆一直在探索AI与硬件的深度融合,从无人机自主避障到影像AI增强。我相信,我在多模态交互、AI Agent架构和软硬件协同方面的经验,能帮助大疆为全球用户打造下一代更智能、更易用的革命性产品:
很期待在消费级或行业级AI场景中发挥价值!
背景:用户在复杂产品中缺乏耐心,传统教程无法适配实时场景
职责:设计任务型Agent,实时理解意图,通过对话引导完成目标
行动:建立状态模型、设计任务树与状态机、构建Prompt Pipeline、设计容错机制
结果:新手用户留存显著提升,沉淀可复用的C端Agent设计方法论
• 单元测试:Prompt模板覆盖率100%
• 集成测试:端到端对话流程自动化测试
• 压力测试:模拟1000并发,确保响应稳定
• 人工测试:200+真实场景Case验收
• 对话启动/完成/中断事件
• 每轮意图识别结果+置信度
• 用户反馈(点赞/点踩/重试)
• 响应延迟(首字/完整响应)
• 实时:QPS/延迟/错误率/Token消耗
• 日报:DAU/对话轮次/任务完成率
• 周报:留存趋势/满意度/高频问题Top10
• BadCase自动收集→周度Prompt优化
• 低置信度Case人工标注→模型微调
• 高频问题→专属Prompt模板沉淀
• 用户反馈→功能优先级排序
用户输入先经过轻量分类器,识别意图类型(游戏攻略/功能引导/闲聊/其他),非相关意图直接走兜底话术,避免LLM"瞎编"
游戏攻略/操作指南等事实性内容,强制从结构化知识库检索后注入Prompt,LLM只做润色和组织,不允许"创作"事实
关键场景(如任务指引)强制JSON Schema输出,只允许预定义字段,杜绝自由发挥导致的"幻觉指令"
意图识别置信度<0.7时,回复"我不太确定你的意思,你是想问XXX吗?",宁可追问也不乱答
背景:游戏开发周期长(6-18个月)、门槛高,非专业用户无法参与创作
职责:作为AI产品负责人,主导平台从0到1的产品设计与落地
行动:设计自然语言→可玩游戏的全流程;构建AI引导式人机协同机制;输出Web链接+ZIP源码+微调编辑器
结果:开发周期从数月缩短至数天,非程序员也能独立完成游戏创作
• 自动化测试:生成游戏自动运行+截图对比+崩溃检测
• 兼容性测试:覆盖主流浏览器/设备
• 回归测试:每次模型更新触发全量Case回归
• 人工验收:100+不同类型游戏人工试玩
• 生成漏斗:开始→引导完成→生成中→成功/失败
• 各环节耗时(理解/美术/代码/测试)
• 用户行为:编辑次数/重新生成/分享/下载
• 质量指标:崩溃率/白屏率/加载时间
• 实时:生成队列/成功率/平均耗时
• 日报:生成量/完成率/用户满意度
• 质量:各类型游戏Bug率/崩溃分布
• 资源:GPU利用率/队列积压情况
• 失败Case分析→代码生成Prompt优化
• 高频编辑操作→预设模板沉淀
• 用户类型偏好→推荐算法优化
• 崩溃日志→自动化修复规则积累
AI像制作人一样追问关键细节(类型、玩法、风格、目标用户),每一步确认后才进入下一步,避免理解偏差导致生成结果"跑偏"
核心游戏逻辑基于经过验证的代码模板库生成,LLM只负责参数填充和逻辑组合,而非从零"创作"代码,大幅降低Bug率
每个生成环节(美术/代码/音效)都有自动化校验:代码能编译运行、资源格式正确、风格一致性检测,不合格自动重新生成
AI生成结果必须经过用户预览确认,用户可随时介入修改,关键节点设置"人工确认点",AI幻觉有人兜底
背景:探索AI生成内容在C端的可用性与商业价值
职责:主导AIGC图像生成产品从0到1
行动:基于GAN+风格迁移构建生成模型、FP16推理优化、端到端流程
结果:秒级生成体验,产品从0到数万用户
• 图像质量测试:人脸畸变率/清晰度/色彩准确度自动评分
• 性能测试:端侧推理耗时/内存占用/发热情况
• 兼容性测试:覆盖iOS/Android主流机型
• 众测验收:500+真实用户试用反馈
• 生成漏斗:选择风格→上传照片→生成中→成功/失败
• 质量指标:重新生成率/删除率/分享率
• 性能指标:生成耗时/内存峰值/崩溃率
• 用户偏好:风格选择分布/使用频次
• 实时:生成成功率/平均耗时/错误分布
• 日报:DAU/生成量/分享率/留存
• 质量:各风格满意度/畸变率趋势
• 性能:各机型耗时/崩溃率分布
• 高畸变Case→人脸检测模型优化
• 热门风格→优先级资源倾斜
• 低使用风格→下线或优化
• 用户反馈→每周迭代优先级排序
人脸检测+关键点定位前置,检测失败或置信度低时直接拒绝并提示"请上传清晰正脸照片",避免后续生成出现畸变
生成后自动检测:人脸完整性/五官位置合理性/整体美学评分,不合格自动重新生成或标记警告
每个风格模型上线前经过严格评测(1000张测试集),畸变率>5%不允许上线,线上模型出现质量下降自动回滚
单次生成多个候选结果,选择质量评分最高的展示,用户也可切换查看其他候选,降低单次"翻车"概率
背景:单轮对话难以建立长期关系,需要更自然、连续的交互体验
职责:设计虚拟人Agent的人格、记忆与任务系统,支持多模态交互
行动:意图理解与行为决策、文本/语音/动作多模态信号对齐、长上下文与状态保持机制
结果:显著提升互动深度与使用时长,沉淀可复用的多模态Agent架构
• 人设一致性测试:1000轮对话自动评估人设偏离率
• 多模态同步测试:音画延迟自动检测<0.5s
• 记忆准确性测试:跨会话信息召回准确率验证
• 情感识别测试:多维度情感标注对比评估
• 对话深度:单次会话轮数/总时长/主动发起率
• 情感指标:情绪识别分布/情感回应匹配度
• 记忆触发:记忆召回次数/召回准确率
• 多模态性能:各模态延迟/同步偏差
• 实时:并发会话数/响应延迟/错误率
• 日报:DAU/平均会话时长/留存率
• 体验:人设一致性评分/情感满意度
• 技术:多模态同步率/记忆命中率
• 人设崩塌Case→System Prompt优化
• 记忆遗忘反馈→记忆系统架构调优
• 情感误判→情感识别模型微调
• 用户高频话题→知识库扩充
每轮对话强制注入角色人设(性格/说话风格/禁忌话题),System Prompt中明确"你是XXX,绝不能说XXX",防止角色"出戏"
涉及用户历史信息时,强制从记忆库检索后再回答,禁止LLM"编造"用户没说过的事;检索为空时回复"我不记得你提过这个"
情感识别结果只能是预定义的标签集(开心/难过/生气等),LLM输出非法标签时自动映射到"中性",避免驱动异常表情
政治/暴力/色情等敏感话题前置分类拦截,触发时直接走预设安全回复,不经过LLM生成,杜绝"幻觉"导致的安全风险
8年AI产品背景,多个AI产品从0到1规模化落地,符合"结果导向"
软件工程背景,能与算法研发深度协作,符合"工程师文化"
丰富的与算法、研发、运营团队协作经验
有AIGC图像生成产品经验,理解图像处理的技术边界
擅长在AI不确定性下设计容错和兜底机制
对产品细节有执念,认同"追求极致"的文化
推荐:C端AI游戏助手Agent
S:用户在复杂产品中缺乏耐心,传统教程无法适配实时场景
T:设计任务型Agent,实时理解意图,对话引导完成目标
A:建立状态模型、任务树、Prompt Pipeline、容错机制
R:新手留存显著提升,沉淀C端Agent设计方法论
大疆产品同样有"功能复杂用户不会用"的问题
1. 预期管理:让用户知道这是AI,设置合理预期
2. 状态机设计:明确AI在不同状态下的行为边界
3. 置信度控制:低置信度时采取保守策略
4. 异常检测:建立监控,及时发现问题
5. 降级策略:AI失效时平滑降级
消费级:Mavic(折叠旗舰)、Air(性能便携)、Mini(轻量入门)
手持:Osmo(云台)、Action(运动相机)、Pocket(口袋云台)
AI功能:智能跟随、避障系统、一键短片、智能返航、场景识别
面试前务必深度体验大疆产品
追求极致:我对产品细节也有执念
工程师文化:软件工程背景,能理解技术约束
结果导向:所有项目都有明确落地结果
高强度:有创业经历,能接受高强度工作
1. 产品文化契合:"追求极致"与我的理念一致
2. 场景兴趣:智能硬件×AI方向非常吸引我
3. 技术深度:大疆的技术积累让我向往
4. 全球影响:能参与有全球影响力的产品
三层人格架构:
1. 核心层:固定的性格特征、说话风格、价值观(写入System Prompt)
2. 情绪层:动态的情绪状态,根据对话内容实时调整(开心/难过/兴奋)
3. 场景层:适配当前场景的表达方式(聊天/唱歌/安慰)
技术手段:每轮对话注入人设摘要 + 对话后一致性检测 + 偏离自动修正
类似设计可用于大疆飞行教练的"教练人格"塑造
三级记忆架构:
1. 短期记忆:当前会话的完整对话历史(存Context Window)
2. 长期记忆:跨会话的关键信息摘要(存向量数据库,如Pinecone)
3. 关键记忆:用户主动标记或系统识别的重要信息(如生日、喜好)
召回机制:每轮对话根据当前语义检索相关记忆,注入Prompt
遗忘机制:定期衰减不重要的记忆,避免信息过载
统一情感标签系统:
1. LLM输出文本回复的同时,输出情感标签(如:happy/sad/excited)
2. 情感标签同步驱动:表情渲染、动作选择、语音合成参数
3. 通过时间戳对齐,确保表情变化与语音内容同步
端到端延迟优化:流式TTS + 表情预加载,整体延迟<500ms
多模态同步经验可迁移到大疆语音助手场景
痛点:普通用户不懂专业拍摄参数
方案:AI分析场景→推荐最佳参数和构图→语音/AR引导
价值:降低专业拍摄门槛,让小白也能拍出大片
痛点:拍了很多素材但不会剪辑,好素材"躺"在相册
方案:AI分析素材→自动筛选精彩片段→智能配乐→一键生成
价值:从"素材"到"作品"的一键转化
痛点:飞行时操控复杂,需要更自然的交互
方案:语音控制("跟拍我")、手势识别、意图理解
价值:解放双手,更沉浸的拍摄体验
痛点:新手不知道怎么飞、怎么拍更好
方案:实时指导飞行技巧、拍摄建议、安全提醒
价值:让新手快速成长为航拍高手
巧用大模型能力,打造前所未有的智能影像体验
大疆产品的核心是让专业级影像创作变得简单。大模型(LLM)+多模态AI为这个目标带来革命性机会:理解用户意图、分析视觉内容、生成创意方案。以下是我对大疆如何巧用大模型的深度思考:
任何LLM指令都需经过安全层校验,不能生成危险飞行指令。安全边界由规则引擎硬控制,LLM只负责意图理解
飞行场景对延迟敏感,需要端云协同:简单指令端侧处理,复杂理解云端处理,确保响应及时
LLM输出必须可预测、可解释。用户说"往左飞",必须往左飞。建立指令-动作的确定性映射
端侧模型需要轻量化,不影响续航和飞行性能。能端侧处理的不上云,能缓存的预加载
基于我的Agent产品经验,详细规划三个核心AI产品的落地路径
让每个人都能用自然语言指挥无人机,像导演一样拍出电影级镜头。"说人话,拍大片"
目标:验证"自然语言→飞控指令"的核心链路可行性
范围:聚焦5个高频场景指令(环绕、渐远、跟随、升高俯瞰、定点悬停)
技术方案:
验证指标:指令识别准确率>90%,用户任务完成率>80%
目标:提升理解准确度和交互自然度
功能扩展:
验证指标:用户满意度>4.0/5,NPS>40
目标:覆盖更多复杂场景,建立竞争壁垒
高级功能:
每个新手身边都有一位耐心的AI教练,实时指导、个性化学习,让新手快速成长为航拍高手
目标:验证AI实时指导对新手的帮助效果
核心功能:
验证指标:新手首飞完成率提升、首周留存提升
目标:个性化学习路径,提升学习效率
功能扩展:
目标:从新手延伸到进阶用户,打造学习社区
高级功能:
用户只需说一句话,AI就能把素材变成精彩作品。"告别素材躺相册,一句话出大片"
目标:验证"自然语言描述需求→自动剪辑"的核心价值
核心功能:
验证指标:生成作品分享率、用户满意度
目标:提升生成质量和可控性
功能扩展:
目标:专业级能力,建立创作生态
高级功能:
打造有记忆、有情感、多模态的虚拟人,实现自然、连续的交互体验。"不止是对话,是真正的陪伴"
目标:验证"有记忆的多模态对话"核心体验价值
核心功能:
验证指标:人设一致性>90%,用户情感满意度>4.0
目标:建立长期记忆,增强情感连接
功能扩展:
验证指标:用户感知"被记住"比例>80%,日均对话轮数提升50%
目标:多角色、多场景,建立虚拟人生态
高级功能:
AI再智能也不能突破安全边界,安全约束由规则引擎硬控制
从简单场景开始验证,逐步扩展;用户信任是靠稳定体验积累的
AI辅助而非替代,关键决策权交给用户,AI负责降低操作门槛
每个阶段都有明确的验证指标,用数据说话,快速迭代
基于真实面试问题,结合十米科技多个项目深度准备(点击标签切换项目)
产品规划 = 目标拆解 + 路径设计 + 节奏把控 + 资源协调
我在葫乐APP主导C端AI游戏助手Agent项目。这是一个从0到1的项目,面临几个规划难点:
第一步:明确北极星指标 - 提升新手留存率
第二步:分阶段规划 - P0(MVP验证) → P1(体验打磨) → P2(场景扩展)
第三步:风险预判 - 技术风险/体验风险/资源风险都有Plan B
MVP按期上线,新手留存显著提升,沉淀C端Agent规划方法论
主导端到端AIGC游戏生产平台建设,用户自然语言描述即可生成可玩游戏:
北极星指标:游戏生成成功率、用户满意度、开发周期缩短比例
分阶段路径:P0验证2D简单游戏 → P1扩展游戏类型 → P2支持3D+复杂玩法
关键设计:AI引导式提问+人机协同确认点+微调编辑器
开发周期从数月缩短至数天,非程序员可独立完成游戏创作,输出Web链接+ZIP源码
北极星指标:生成完成率、用户分享率、DAU留存
分阶段路径:P0单一风格验证 → P1优化速度和质量 → P2扩展风格库
技术风险预判:人脸质量/生成速度是核心风险,提前投入优化
秒级生成体验,产品从0到数万用户,沉淀AIGC图像产品方法论
直接应用于大疆AI后期/智能滤镜——规划"一键风格化"功能:用户拍摄后秒变电影风格/水墨画/赛博朋克。我的AIGC图像产品规划经验可复用。
北极星指标:日均互动时长和7日留存
分阶段路径:P0文本对话 → P1语音交互 → P2多模态融合
技术风险预判:多模态延迟/记忆一致性都有预案
互动深度与时长显著提升,沉淀多模态Agent架构
直接应用于AI飞行教练——规划教练的人格、记忆、多模态交互:记住用户水平、语音实时指导、飞后复盘分析。
如果我负责大疆的AI智能拍摄助手产品规划,我会:
产品决策 = 信息收集 + 利弊分析 + 取舍判断 + 结果复盘
面临关键决策:用户输入后直接生成 vs AI引导式提问后再生成?
数据验证:直接生成时用户满意度仅45%,多次重试导致时间更长
最终决策:AI引导式提问 + 关键节点人机协同确认
首次生成满意度提升至85%,减少无效重试,整体完成时间反而更短
AB测试:通用70%准确率,场景化90%+
折中方案:"分层Prompt" - 高频场景专属,长尾场景通用兜底
核心场景90%+准确率,维护成本可控(5-6个核心Prompt)
面临关键决策:要速度还是质量?
数据验证:30s等待时用户流失率高达60%,“快但糟糙”的负评率也高
技术突破:通过FP16+模型蒸馏+GPU批处理,实现“又快又好”
最终决策:技术优化后实现3s生成+高质量,不用牢牲
单图生成30s→3s,用户完成率提升40%,且质量无下降
应用于大疆AI后期处理——端侧AI处理同样面临速度vs质量的权衡,我的推理优化经验可帮助实现“又快又好”的体验。
场景分析:用户在意"被记住"感觉,非100%细节
混合方案:"分层记忆" - 短期全量 + 长期结构化 + 情景向量化
"被记住"感知度提升,Token消耗降低60%,架构可扩展
应用于AI飞行教练记忆系统——记住用户水平、常犯错误、学习进度,让教练越用越懂你。
事故处理 = 快速止血 + 根因定位 + 彻底修复 + 预防复发
上线后Agent在某些场景下回答"跑偏",用户反馈"AI不靠谱"
止血:问题场景启用规则兜底,绕过LLM
根因:Prompt中上下文注入顺序错误,缺少优先级控制
修复:重构Prompt Pipeline,增加意图分类前置
预防:Prompt变更Review机制 + 回答相关性监控
当天修复,回答相关性从85%提升到95%+,沉淀Prompt Pipeline最佳实践
用户生成的游戏频繁出现运行崩溃、白屏,成功发布率从90%骤降到40%
止血:暂停自动发布,人工审核后再上线
根因:代码生成模型更新后产出的代码与游戏引擎版本不兼容
修复:锁定模型版本 + 增加自动化测试流水线(功能测试、兼容性测试)
预防:发布前强制通过自动化测试 + 模型更新灰度验证 + 回滚机制
6小时内恢复正常发布率95%+,建立完整的发布质量门禁
上线后用户反馈"脸变形了""眼睛大小不一""根本不像我",负评率飙升15%
止血:紧急上线"重新生成"按钮,不满意可立即重试
根因:五官检测在特定角度/光线下失准,导致生成时关键点位置错误
修复:增加人脸关键点检测预处理+面部区域单独优化+生成后质量校验
预防:建立图像质量自动检测机制,不合格自动重生成
面部畸变率从15%陃3%,负评率大幅下降,沉淀图像质量检测机制
应用于大疆AI图像处理——航拍中过曝/模糊/构图不佳的自动检测,及时提醒用户或自动修复。
虚拟人说话和动作不同步,嘴型对不上声音,用户反馈"出戏"
止血:临时关闭口型同步,只保留固定表情
根因:语音流式输出,动作预先生成,时序不一致
修复:重新设计同步机制,增加时间戳对齐,优化渲染管线
预防:多模态同步自动化测试 + 音画延迟监控
同步延迟从200ms+降到50ms以内,沉淀多模态同步技术规范
应用于AI飞行教练多模态同步——语音指导+画面提示+飞行轨迹需要精确同步,我的多模态对齐经验可直接复用。
大疆产品对稳定性要求极高,我的事故处理经验可迁移:
无论是规划、决策还是解决问题,都需要有清晰的框架和步骤
不凭直觉判断,用数据验证假设、衡量结果
规划要追踪结果、决策要复盘效果、问题要预防复发
每次实践都沉淀方法论,让经验可迁移、可复用
从创意构想到可发行成品,AI驱动全流程自动化 · 您的专属游戏制作人
通过中英文自然语言描述,自动生成可玩的3D/2D游戏,如FPS、飞行模拟等多种类型
AI支持文本、3D建模、物理引擎的无缝结合,提供沉浸式游戏体验
根据用户需求智能调整游戏场景、玩法规则及视觉效果,实现高度个性化
从概念输入到完整游戏生成全程由AI驱动,大幅降低开发门槛
适用于游戏、潮玩、IP形象及空间装置设计,提供高自由度3D视觉表达
生成后能直接在线体验,输出Web链接+ZIP下载,支持快速迭代与社交化传播
平台像资深制作人一样,不时提问、征集意见、提供选择,引导用户完成游戏创作
非专业用户也能在AI引导下完成游戏创作,无需编程或美术专业知识
专业团队可借助平台大幅缩短开发周期、降低成本,专注于创意与体验优化
生成后直接获得一个可分享的Web链接,点击即可在浏览器中体验游戏
下载完整的游戏源码包,可在本地进行深度定制和二次开发
生成后可直接在平台内进行微调修改,无需下载即可预览效果
为确保生成质量和用户意图准确传达,我们在关键节点设置了人机协同确认点,让用户可以随时介入和调整。
用户描述想法
AI追问细节
用户确认方向
AI批量产出
用户挑选满意的
AI整合发布
用户最终调整
非程序员也能做游戏,个人用户和小团队可直接量产作品
将传统6-18个月的开发周期缩短到数周甚至数天
批量生成游戏Demo,快速验证市场与玩法,提高创新尝试成功率
B2B:面向企业提供定制化生产能力
B2C:面向个人创作者收取订阅或分成
目标:验证"自然语言→可玩游戏"核心价值假设
结果:80%用户认为有价值,但"生成结果不符预期"是核心问题
目标:解决"AI理解偏差"问题,提升首次生成满意度
结果:首次满意度从45%提升到85%
目标:打通策划→美术→程序→测试→发布完整链路
输出:完整的端到端游戏生成Pipeline
目标:支持用户自定义风格,构建模板生态
结果:形成"生成→分享→复用"的正向飞轮
作为中小型团队,我们定位为「AI能力整合平台」,通过统一接入第三方API实现快速迭代,聚焦产品体验和流程编排,而非重复造轮子。
cc.assetManager动态加载UnityWebRequest加载AI生成存在不可控性,通过多层确认机制和分阶段人工介入,确保产出质量可控、问题可追溯。
AI通过多轮对话澄清需求,生成需求确认单(游戏类型、玩法、风格、目标平台)
调用Midjourney/混元3D生成资产,每批次生成4个方案供选择
GPT-4基于模板生成游戏代码,自动运行Playwright测试验证可玩性
资产+代码组装为可运行游戏,生成预览链接
用户可在微调编辑器中调整参数、替换素材、修改代码
自然语言输入→AI理解→全流程生成的端到端架构可直接复用
引导式提问机制可用于帮助用户明确拍摄/剪辑需求
关键节点确认+微调编辑器的Human-in-the-loop经验可迁移
Web预览+本地下载+在线编辑的多形态输出模式适用于大疆云端服务
有记忆、有情感、多模态的AI伙伴 · 情感陪伴与历史人物数字孪生
有记忆、有情感、可穿搭的AI伙伴。记住用户喜好、陪伴成长、提供情感支持,是用户的专属数字朋友
复刻历史名人的性格、思想、知识,实现跨时空对话。与孔子讨论人生、与爱因斯坦聊物理、与乔布斯谈产品
当前会话的完整对话历史,存储在Context Window中,支持多轮上下文理解
跨会话的关键信息摘要,存储在向量数据库中,每轮对话语义检索召回相关记忆
用户主动标记或系统识别的重要信息(如生日、喜好),永久保存并优先召回
虚拟人最大的挑战是保持人格一致性——不能前后矛盾、不能偏离设定。我们设计了三层人格架构:
固定的性格特征、说话风格、价值观,写入System Prompt,不随对话改变
根据对话内容实时调整的情绪状态(开心/难过/兴奋/关心),影响回复风格
适配当前场景的表达方式,如聊天/唱歌/安慰/讲故事,调用不同的技能模块
多模态虚拟人的体验关键是信号同步——表情、动作、语音必须协调一致,否则会让用户感到割裂。
输出文本+情感标签
根据情感标签驱动
匹配情感的动作库
情感化语音参数
时间戳对齐输出
目标:验证"有记忆、有情感的虚拟人"核心价值假设
结果:85%用户认为"记忆"是核心卖点,但"对话不够自然"是主要痛点
目标:解决"人设崩塌"和"对话不自然"问题
结果:人设一致性从70%提升到95%+
目标:让AI真正"记住"用户,建立长期关系
结果:用户感知"被记住"的满意度从40%提升到90%
目标:从文本对话升级到语音+表情+动作的多模态交互
结果:互动深度和使用时长显著提升,形成可复用的多模态Agent架构
人格系统可用于塑造"教练"角色,保持教学风格一致性
ASR→LLM→TTS的多模态Pipeline可直接复用到无人机语音控制
记忆系统可用于记住用户飞行偏好、拍摄风格,提供个性化服务
情感识别与响应经验可用于提升产品亲和力和用户粘性
实时识别用户卡点,主动介入引导 · 让复杂产品变得简单易用
用户问什么答什么,被动等待提问,用户不知道问什么就卡住了
实时监测用户状态,识别卡点后主动介入,像教练一样引导完成任务
Agent的行为完全由状态机驱动,确保在任何状态下都有明确的行为边界,避免AI"胡说八道"。
用户在某步骤停留超过阈值(如5秒),判定为可能卡住
用户连续多次操作失败(如动作识别失败),判定需要帮助
用户操作偏离预期路径(如该做A却做了B),判定需要纠正
帮助不是越多越好,而是恰到好处。我们设计了分层级的介入策略:
非侵入式提示,如界面上的高亮引导、小图标闪烁
Agent主动发起对话,询问是否需要帮助
展示分步骤操作说明,配合动画演示
LLM容易"跑偏",我们通过多层Prompt Pipeline确保回答始终与当前任务相关。
高频场景快速路由
当前状态+任务信息
场景定制化模板
GPT-4生成回复
确保回复在边界内
目标:验证"主动式AI助手"在C端游戏场景的价值
结果:验证"主动介入"比"被动问答"有效,但规则触发太机械,用户感觉被打扰
目标:构建可控、可追溯的Agent行为框架
结果:Agent行为有了明确边界,问题可定位、可复现
目标:精准识别用户"卡住了",减少误触发
结果:误触发率从40%降到8%,用户满意度显著提升
目标:解决LLM回答"跑偏"问题,提升相关性
结果:回答相关性从85%提升到95%+,新手留存显著提升
状态机+卡点检测可直接用于无人机首飞引导、APP功能学习
从被动问答升级为主动式助手,提升用户支持效率
Prompt Pipeline + 降级策略确保AI功能在各种情况下稳定可用
大疆产品功能丰富,AI助手可大幅降低学习成本
用自然语言描述,AI会引导你完善细节
上传20-50张参考图,AI将学习你的专属风格
拖拽图片到此处,或 点击上传
支持 PNG/JPG/WEBP,单张≤10MB展现深度思考与真诚兴趣的高质量问题
"了解到大疆的 AI 产品始终围绕智能硬件场景深耕,目前团队将 AI Agent(比如对话、多模态、工具调用类)落地到硬件产品时,核心聚焦的用户痛点或业务目标是什么?过程中遇到的最大挑战是技术适配(比如硬件算力约束)还是场景建模(比如不同用户群体的需求差异)?"
"大疆的产品一直以'高可靠性、强实用性'为核心,想请教下,团队对 AI 类产品(比如你负责的 Agent 或多模态相关方向)从 0-1 验证到规模化推广,最核心的评判标准是什么?是优先看用户体验数据,还是业务效率提升,或是硬件兼容性覆盖度?"
"AI 产品尤其是硬件相关的,需要算法、硬件研发、产品、业务多方协同,想了解下大疆内部这类 AI 产品的跨团队协作模式是怎样的?比如算法团队和产品团队在 AI 能力定义、效果迭代上的权责划分,以及如何解决硬件性能约束与 AI 效果提升之间的矛盾?"
"大模型的不确定性是 AI 产品落地的关键问题,而大疆作为硬件厂商,对产品稳定性的要求极高。想请教下,团队在推进 AI 创新(比如多模态交互、Agent 长对话能力)时,是如何平衡'AI 能力的突破性'与'硬件产品的稳定性、用户体验的一致性'的?有没有明确的边界或机制来规避 AI 的不可控风险?"
"目前这个 AI 产品处于什么迭代阶段?后续 1-2 年在 AI 能力深化上有哪些核心规划?比如是否会结合更前沿的大模型技术优化 Agent 的决策能力,或是拓展更多智能硬件的适配场景?"
端侧与云端的能力边界怎么划?哪些必须端侧实时,哪些可以云端异步?背后的延迟预算怎么定义?
如果我入职 3 个月,你们最希望我解决的 Top 1 问题是什么?为什么它至今没被解决?
对这个岗位的"优秀/普通"分水岭是什么?你见过最优秀的人在做什么不同的事?
问题要体现你做过功课,而非"官网能查到的"
问"为什么"和"如何",而非"是什么"
真正想了解的问题,而非"表演性提问"
2-3个问题为宜,根据时间和氛围灵活调整