
你肯定听过他们说“这不是竞争!”好吧,别被他们骗了;无论何时,尤其是涉及AI时,一切都是竞争。几乎没有哪一天我不在多个聊天机器人之间测试AI能力,而我总是对结果感到惊讶。某些平台在某些任务上确实比其他平台更强。
这段旅程始于我的iPhone 17 Pro Max上的Notes。通常,我喜欢在Android智能手机上进行采访,例如Google Pixel 10 Pro Fold,那里出色的录音应用能精准捕捉每一句话,并在转录时巧妙地区分并标记每位说话者。
然而,这次采访我只带了iPhone。我知道在Notes里,隐藏在附件图标(回形针)下的音频录制功能,我在iPhone与桌面上都极度依赖这个应用(我几乎有2500条笔记)。
Notes在音频录制方面表现不错,我在笔记中找到了完整的20分钟录音。与此同时,还附带了一段看似有用的转录文字。快速浏览后发现转录基本准确,但有一个大问题它没有给说话者加标签,所有混在一起成为一段长篇独白。这让人很难在阅读时区分受访者的引述和我自己的提问与观察。
我只好重新听一遍,并手动加上标签……直到我产生了另一个想法如果让Gemini来帮忙会怎样?
Gemini3Pro穿上拳套最近几个月,我对Google Gemini的能力印象深刻,尤其是最新的3 Pro机型,它似乎能从容应对几乎任何提示请求。
有了这个想法后,我必须想办法让Gemini听取录音。直接在iPhone扬声器播放并让Gemini听取不可行,因为我担心桌面麦克风能否清晰捕捉iPhone扬声器的声音。此外,我当时在办公室,也不想让旁人听到这段私人对话(直到我发布为止)。
首先,我发现可以从Notes中下载音频文件。在播放界面,点击右上角的三个点,会出现分享按钮,我可以通过AirDrop将音频文件发送到我的14英寸MacBookPro。文件格式为MPEG‑4(M4A)。
回到Gemini3Pro,我在提示框中点击 “+” 号,选择了M4A音频文件,并添加了简短提示“听这个文件,转录它并确保标识不同的说话者”。
没有任何来回交互。Gemini3Pro立刻输出完整的转录文本,并将说话者标记为“采访者”以及我的受访者的姓名和职务。值得一提的是,这里唯一的错误是Gemini3Pro完全搞错了受访者的姓名——尽管对方在对话结束时拼写了自己的名字,Gemini却给出了别的名字。除此之外,Gemini能精准识别是我还是受访者在说话,准确度相当惊人。
为了完整起见,我让Gemini3Pro修正受访者的身份标识并把我标记为“采访者”。修正后,我愉快地使用这份转录来推动完整的报道。
在此角落,ChatGPT当然,我也想知道ChatGPT5.1(Plus账户)是否能完成同样的任务。
在ChatGPT的提示窗口,我选择了音频文件并输入了完全相同的提示。ChatGPT回答“我当然可以转录音频,但无法直接访问或播放您引用位置的 .m4a文件。”
随后展开了一轮长时间的来回,ChatGPT不断建议我以不同方式上传文件,甚至把它压缩成zip。无论我怎么做,ChatGPT都只能在提示窗口中显示音频文件,却无法实际聆听。
在这场小小的竞争中,Gemini3Pro成为胜者,把原本令人沮丧的问题轻松化解。越少提及Apple Notes的转录功能有多无用越好。
景盛配资提示:文章来自网络,不代表本站观点。