量子位 09-30
大神卡帕西安利爆火AI应用,称「或是下一个ChatGPT」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大神卡帕西墙裂推荐!

甚至预言这个AI 应用,有可能开启「和 ChatGPT 一样大的机会」。

它就是来自谷歌的实验性 AI 产品,Notebook LM,背后由谷歌现在最强大的模型 Gemini 1.5 Pro 提供支持。

最近这应用要多火就有多火,全因上线了一项新功能——

上传文件(文字、音频、视频),AI 不仅能帮忙用文字提炼要点,还可以通过音频概述(Audio Overview)功能,把文件转换成 AI 生成的对话播客,根据文档内容进行讨论。

2 个 AI,用真人般的语音和口吻,围绕文件内容激情讨论,最后总结陈词。

卡帕西输入训练 GPT-2 的 C 代码,制作的对话播客

这真的很酷!

而且不是卡帕西一个人在夸。逛了下互联网几大平台,网友们对 Notebook LM 普遍还是挺买账的。

AI 界的 KOL@elvis 也在卡帕西评论区留言:

卡神称这 " 让人想起 ChatGPT 时刻 ",绝对不是夸大其词!

真正让多种模型联合工作,会解锁 Notebook LM 这样独特的内容格式和用户体验。

Notebook LM 怎么玩?

玩法很简单,打开试玩页面,拖拽上传需要处理的文件。

可以是谷歌文档,可以是网站和视频链接,甚至干脆粘贴一大段文本都可以。

每个笔记本支持上传 50 个文件,每个文件内容上限 500000 个单词。

这里我们上传了 OpenAI o1 的 System Card 文档,接下来就可以选择需要创建的内容。

内置支持问答、小测验、目录、时间线、摘要等文字版功能,以及两个主持人的深度对话音频内容。

如果有更个性化的需求也可以自己敲 prompt。

我们尝试用中文提问,结果 AI 是可以理解的。

很可惜的是 Notebook LM不支持用中文回答,即使刻意要求也不行。

选择创建音频的话,视文档长度需要等待几分钟到十几分钟。

趁这个时间来了解一下这背后的 Gemini 模型叭~

NotebookLM 由 Gemini 1.5 Pro 来支持,也就是谷歌家目前旗舰级大模型。

Gemini 1.5 Pro 支持超长 128k 上下文,这是能解读长文档的基础。

好了,刚才生成的音频也处理完毕,英语好的朋友可以来听听看。

英语没那么好的朋友,也可以看看套娃 AI 转写、翻译出来的 AI 播客文字版,感受一下。

单纯的上传文档,生成内容,还只是 Notebook 的实用玩法之一。

还有人介绍了学生上课录音,回家用 AI 整理重点的玩法,也广受好评。

(不是自己不听课了的意思)

具体来说,可以遵循以下步骤:、

上课时用手机录音;

上课期间不需要用电脑,只需(纸笔)记下简短的重点;

(下课后)把录音和笔记扫描上传到 NotebookLM,让它根据录音细节扩写笔记。

另外,还可以每周创建一份对所学内容重点的复习音频。

一种与单纯 Chat 不同的交互范式

其实,NotebookLM 并不是出道即爆火。

早在去年 5 月的 Google I/O 大会上它就已经出现了,不过那个时候,作为 AI 笔记本项目的它还叫Project Tailwind

到了去年 7 月,NotebookLM 它才改成现在的名字。

起初,只支持美国局部地区的用户食用;功能也还是围绕着基础的 Chat 模式展开。

NotebookLM 自动生成文档指南(来自谷歌官网)

到了这个月 11 号,NotebookLM 突然宣布面向全球玩家开放,并且新增了重磅功能,音频概述

谷歌给的官方介绍是这样的:

" 新的音频概述功能,可以一键将文档、幻灯片、图表等转化为引人入胜的讨论。"

因为交互形式很新、AI 语音逼真、讨论起来真的很像真人播客,大家一下就玩嗨了。

到这两天,Notebook LM 不仅已经能够把 Youtube 视频作为输入,还已经支持超 100 种语言。

现在,卡帕西的下场 " 示爱 ",更为 Notebook LM 的热度添了一把火。

如卡帕西所说,Notebook LM 爆火最主要的原因,是它提供了一种与单纯 Chat 不同的交互范式。

卡帕西表示,Notebook LM 消除了大模型的两大享受障碍:

第一点,聊天其实挺难的。

有些人在日常生活中跟人交流都费尽心力,更别提要和 Chatbot 聊天,还得不停提问、追问。

NotebookLM 好就好在,生成的二 AI 播客,其中有一方就会处于提问、引导角色。

咱把文档、音视频放进去,等待生成,美美听 AI 根据文件唠就是了。

第二点,阅读不是件容易的事。

信息爆炸的碎片化时代,挑个舒服的姿势,或者开车时候听别人讨论我需要的东西,比自己费劲吧啦搁那儿看容易得多。

——哪怕看的是 AI 已经帮我们总结出来的凝练版本(哎,没错,咱就是这么懒!doge)。

本着精益求精的精神,也有网友表示了对 Notebook LM 更上一层楼的期待。

Hyperbolic Labs 的联创兼 CTO Yuchen Jin 试玩过后,总结了两个局限性:

一个是它 " 看不到 ",也就是没法处理文档里的图片信息。

不过背后的 Gemini 是多模态的嘛,相比 Notebook LM 长眼睛不会太晚。

另一个是用户无法引导 AI 播客的内容

Yuchen Jin 喂给它两条推文,它就生成了近 13 分钟的音频内容,但它默认听众是普通受众,所以讲了很多很基本的概念。

如果能指定生成播客的目标群体,或者谈论主题、方向、角度,那真的是棒上加棒。

One More Thing

说时迟那时快,开发者搞出开源版的 NotebookLM了!

不过暂时只能喂给它 PDF 嗷。

咱就是说,人类真有意思哈!

以前在音频转文字方面费劲,追求把广播、会议录音啥的转成文字。

现在又开始用大模型把文字转成播客了……

有意思哇有意思哇(狗头)。

参考链接:

[ 1 ] https://notebooklm.google/

[ 2 ] https://x.com/karpathy/status/1840112692910272898

[ 3 ] https://x.com/omarsar0/status/1840145774874898506

[ 4 ] https://x.com/Yuchenj_UW/status/1840203324571943403

[ 5 ] https://github.com/gabrielchua/open-notebooklm

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 谷歌 大神 英语 用户体验
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论