为什么现在的AI都像"人工智障"?【下】精华 |
Part 3 👮♂️🦺📷😶🤞人类对话的本质:思维 “ 对话的最终目的是为了同步思维 ” 你是一位30出头的职场人士,每天上午9点半,都要过办公楼的旋转门,进大堂的,然后刷工牌进电梯,去到28楼,你的办公室。今天是1月6日,平淡无奇的一天。你刚进电梯,电梯里只有你一个人,正要关门的时候,有一个人匆忙挤进来。 进来的快递小哥,他进电梯时看到只有你们两人,就说了一声“你好”,然后又低头找楼层按钮了。 你很自然的回复:“你好”,然后目光转向一边。👳💎🪜😅🖕 两边都没什么话好讲——实际上,是对话双方认为彼此没有什么情况需要同步的。 人们用语言来对话,其最终的目的是为了让双方对当前场景模型(Situation model)保持同步。(大家先了解到这个概念就够了。更感兴趣的,详情请见 )。 👨🎨👒🖥😛✊ 上图中,A和B两人之间发展出来所有对话,都是为了让红框中的两个“Situation model” 保持同步。Situation model 在这里可以简单理解为对事件的各方面的理解,包括Context。 不少做对话系统的朋友会认为Context是仅指“对话中的上下文”,我想要指出的是,除此以外,Context还应该包含了对话发生时人们所处的场景。这个场景模型涵盖了对话那一刻,除了明文以外的所有已被感知的信息。 比如对话发生时的天气情况,只要被人感知到了,也会被放入Context中,并影响对话内容的发展。 💪🏦🍞📳🪰 引用 对同一件事情,不同的人在脑海里构建的场景模型是不一样的。 (想要了解更多,可以看 Situation models in language comprehension and memory. Zwaan, R. A., & Radvansky, G. A. (1998). ) 所以,如果匆忙进电梯来的是你的项目老板,而且假设他和你(多半都是他啦)都很关注最近的新项目进展,那么你们要开展的对话就很多了。 🦴⛪🥣➡🐅 在电梯里,你跟他打招呼:“张总,早!”, 他会回你 “早啊,对了昨天那个…” 不待他问完,优秀如你就能猜到“张总” 大概后面要聊的内容是关于新项目的,这是因为你认为张总对这个“新项目”的理解和你不同,有同步的必要。甚至,你可以通过昨天他不在办公室,大概漏掉了这个项目的哪些部分,来推理你这个时候应该回复他关于这个项目的具体什么方面的问题。 👆🛑🥣✡🐝 引用 一旦你对对方的情景模型判断失误,那么可能完全“没打中点上”。 引用 所以,人们在进行对话的过程中,并不是仅靠对方上一句话说了什么(对话中明文所包含的信息)就来决定回复什么。而这和当前的对话系统的回复机制非常不同。 👂🚗🍓🆚🐺 “ 对话是思想从高维度向低维的投影 ” 我们假设,在另一个平行宇宙里,还是你到了办公楼。 👦🎒⚒💩👈
请问你这时脑袋里是不是有很多信息汹涌而过?这时该回答什么?是不是类似“一时不知道该如何开口”的感觉? 这个感觉来自(你认为)你和她之间的情景模型有太多的不同(分手2年了),甚至你都无法判断缺少哪些信息。有太多的信息想要同步了,却被贫瘠的语言困住了。 🤳⛄🍞🅰🐻 在信息丰富的程度上,语言是贫瘠的,而思想则要丰富很多。 有人做了一个比喻:语言和思维的丰富程度相比,是冰山的一角。我认为远远不止如此:对话是思想在低维的投影。 👮♂️🧣📞🤬🤛 如果是冰山,你还可以从水面上露出来的部分反推水下大概还有多大。属于维度相同,但是量不同。但是语言的问题在,只用听到文字信息,来反推讲话的人的思想,失真的情况会非常严重。 为了方便理解这个维度差异,在这儿用3D和2D来举例:思维是高维度(立体3D的形状),对话是低维度(2D的平面上的阴影)。如果咱们要从平面上的阴影的形状,来反推,上面悬着的是什么物体,就很困难了。两个阴影的形状一模一样,但是上面的3D物体,可能完全不同。 ✊🛑🍌🆒🐂 对于语言而言,阴影就像是两个 “你好”在字面上是一模一样的,但是思想里的内容却完全不同。在见面的那一瞬间,这个差异是非常大的:引用 “ 挑战:用低维表达高维 ” 🤞🚤🌰™🐶 要用语言来描述思维有多困难?这就好比,当你试图给另一位不在现场的朋友,解释一件刚刚发生过的事情的时候,你可以做到哪种程度的还原呢? 试试用语言来描述你今天的早晨是怎么过的。 ✌🗼🧊☯🐻当你用文字完整描述后,我一定能找到一个事物或者某个具体的细节,它在你文字描述以外,但是却确实存在在你今天早晨那个时空里。 比如,你可能会跟朋友提到,早饭吃了一碗面;但你一定不会具体去描述面里一共有哪些调料。传递信息时,缺少了这些细节(信息),会让听众听到那碗面时,在脑海里呈现的一定不是你早上吃的“那碗面”的样子。 引用 这还只是对客观事物的描述。当人在试图描述更情绪化的主观感受时,则更难用具体的文字来表达。 比如,当你看到Angelina Jordan这样的小女生,却能唱出 这样的歌的时候,请尝试用语言精确描述你的主观感受。是不是很难?能讲出来话,都是类似“鹅妹子嘤”这类的?这些文字能代表你脑中的感受的多少部分?1%?🧑🌾💄📀😆🤞 希望此时,你能更理解所谓 “语言是贫瘠的,而思维则要丰富很多”。 那么,既然语言在传递信息时丢失了那么多信息,人们为什么理解起来,好像没有遇到太大的问题? 👃🚂📶🐥 “ 为什么人们的对话是轻松的?” 假设有一种方式,可以把此刻你脑中的感受,以完全不失真的效果传递给另一个人。这种信息的传递和上面用文字进行描述相比,丰富程度会有多大差异? 可惜,我们没有这种工具。我们最主要的交流工具,就是语言,靠着对话,来试图让对方了解自己的处境。 💪🗼🍼❎🐖 那么,既然语言这么不精准,又充满逻辑上的漏洞,信息量又不够,那么人怎么能理解,还以此为基础,建立起来了整个文明? 比如,在一个餐厅里,当服务员说 “火腿三明治要买单了”,我们都能知道这和“20号桌要买单了”指代的是同样的事情 ( )。是什么让字面上那么大差异的表达,也能有效传递信息? 🥷🎩💳😂🤝 人能通过对话,有效理解语言,靠的是解读能力——更具体的点,靠的是对话双方的共识和基于共识的推理能力。 当人接收到低维的语言之后,会结合引用常识、自身的世界模型(后详),来重新构建一个思维中的模型,对应这个语言所代表的含义。这并不是什么新观点,大家熟悉的开复老师,在1991年在苹果搞语音识别的时候,就在采访里科普,“ ”。 当对话的双方认为对一件事情的理解是一样的,或者非常接近的时候,他们就不用再讲。需要沟通的,是那些(彼此认为)不一样的部分。 👍🏦🥚☣🦜 引用 还记得,在Part 2 里我们提到的那个测试指代关系的Winograd Schema Challenge么?这个测试的名字是根据 的一个例子而来的。 引用 同理,之前(Part 2)我们举例时提到的那个常识 (“四川火锅是辣的;日料不是辣的”),也在表达中被省略掉了。常识(往往也是大多数人的共识)的总量是不计其数,而且总体上还会随着人类社会发展的演进而不断新增。 例子1,如果你的世界模型里已经包含了“华农兄弟” (你看过并了解他们的故事),你会发现我在Part 2最开始的例子,藏了一个梗(做成叫花鸡)。但因为“华农兄弟”并不是大多数人都知道的常识,而是我与特定人群的共识,所以你看到这句话时,获得的信息就比其人多。而不了解这个梗的人,看到那里时就不会接收到这个额外的信息,反而会觉得这个表达好像有点点奇怪。 🤞🎠🍍♊🦋例子2,创投圈的朋友应该都有听说过 Elevator pitch,就是30秒,把你要做什么事情讲清楚。通常的案例诸如:“我们是餐饮界的Uber”,或者说“我们是办公室版的Airbnb”。这个典型结构是“XX版的YY”,要让这句话起到效果,前提条件是XX和YY两个概念在发生对话之前,已经纳入到听众的模型里面去了。如果我给别人说,我是“对话智能行业的麦肯锡”,要能让对方理解,对方就得既了解对话智能是什么,又了解麦肯锡是什么。 “ 基于世界模型的推理 ” 场景模型是基于某一次对话的,对话不同,场景模型也不同;而世界模型则是基于一个人的,相对而言长期不变。🧑🎤👜📠🤮🖕 对世界的感知,包括声音、视觉、嗅觉、触觉等感官反馈,有助于人们对世界建立起一个物理上的认识。对常识的理解,包括各种现象和规律的感知,在帮助人们生成一个更完整的模型:世界模型。 无论精准、或者对错,每一个人的世界模型都不完全一样,有可能是观察到的信息不同,也有可能是推理能力不一样。世界模型影响的是人的思维本身,继而影响思维在低维的投影:对话。 🧒👒📞😷🤌 让我们从一个例子开始:假设现在咱们一起来做一个不那么智障的助理。我们希望这个助理能够推荐餐厅酒吧什么的,来应付下面这样的需求: 当用户说:“我想喝点东西”的时候,系统该怎么回答这句话?经过Part 2,我相信大家都了解,我们可以把它训练成为一个意图“找喝东西的店”,然后把周围的店检索出来,然后回复这句话给他:“在你附近找到这些选择”。 👨🚒👙🪜😒👊 恭喜,咱们已经达到Siri的水平啦! 但是,刚刚我们开头就说了,要做不那么智障的助理。这个“喝东西的店”是奶茶点还是咖啡店?还是全部都给他? 嗯,这就涉及到了推理。我们来手动模拟一个。假设我们有用户的Profile数据,把这个用上:如果他的偏好中最爱的饮品是咖啡,就给他推荐咖啡店。 👁🦼🍟ℹ🐂 这样一来,我们就可以更“个性化”的给他回复了:“在你附近找到这些咖啡店”。 这个时候,咱们的AI已经达到了不少“智能系统”最喜欢鼓吹的个性化概念——“千人千面”啦! 🧒👜🛏😂👀 然后我们来看这个概念有多蠢。{:13_521:} 一个人喜欢喝咖啡,那么他一辈子的任意时候就都要喝咖啡么?人是怎么处理这个问题的呢?如果用户是在下午1点这么问,这么回他还好;如果是在晚上11点呢?我们还要给他推荐咖啡店么?还是应该给他推荐一个酒吧? 🤌🦼🫑➡🐡或者,除此之外,如果今天是他的生日,那么我们是不是该给他点不同的东西?或者,今天是圣诞节,该不该给他推荐热巧克力? 你看,时间是一个维度,在这个维度上的不同值都在影响给用户回复什么不同的话。 🤛🛩🍍♾🦄 时间和用户的Profile不同的是:1. 时间这个维度上的值有无限多; 2. 每个刻度还都不一样。比如虽然生日是同一个日期,但是过生日的次数却不重复; 除了时间这个维度以外,还有空间。 于是我们把空间这个维度叠加(到时间)上去。你会发现,如果用户在周末的家里问这个问题(可能想叫奶茶外卖到家?),和他在上班时间的办公室里问这个问题(可能想出去走走换换思路),咱们给他的回复也应该不同。 光是时空这两个维度,就有无穷多的组合,用"if then"的逻辑也没法全部手动写完。我们造机器人的工具,到这个需求,就开始捉襟见肘了。🎩💳😫👂 何况时间和空间,只是世界模型当中最显而易见的两个维度。还有更多的,更抽象的维度存在,并且直接影响与用户的对话。比如,人物之间的关系;人物的经历;天气的变化;人和地理位置的关系(是经常来出差、是当地土著、是第一次来旅游)等等等等。咱们聊到这里,感觉还在聊对话系统么?是不是感觉有点像在聊推荐系统? 要想效果更好,这些维度的因素都要叠加在一起进行因果推理,然后把结果给用户。 🖕🪐🥄♏🦋至此,影响人们对话的,光是信息(还不含推理)至少就有这三部分:明文(含上下文)+ 场景模型(Context)+ 世界模型。 普通人都能毫不费力地完成这个工作。但是深度学习只能处理基于明文的信息。对于场景模型和世界模型的感知、生成、基于模型的推理,深度学习统统无能为力。 这就是为什么现在炙手可热的深度学习无法实现真正的智能(AGI)的本质原因:不能进行因果推理。 👍🎠🥭♂🐥 根据世界模型进行推理的效果,不仅仅体现上在对话上,还能应用在所有现在成为AI的项目上,比如自动驾驶。 经过大量训练的自动驾驶汽车,在遇到偶发状况时,就没有足够的训练素材了。比如,突然出现在路上的婴儿车和突然滚到路上的垃圾桶,都会被视为障碍物,但是刹不住车的情况下,一定要撞一个的时候,撞哪一个? 👍🌡🍪®🦚又比如,对侯世达(Douglas Hofstardler )而言,“驾驶”意味着当要赶着去一个地方的时候,要选择超速还是不超速;要从堵车的高速下来,还是在高速上慢慢跟着车流走...这些决策都是驾驶的一部分。他说:“ ”。 “ 人脑有两套系统:系统1 和系统2 ” 关于 “系统1和系统2”的详情,请阅读 Thinking, Fast and Slow, by Daniel Kahneman,一本非常好的书,对人的认知工作是如何展开的进行了深入的分析。在这儿,我给还不了解的朋友介绍一下,以辅助本文前后的观点。🧑💻🩰🪝😛👂 心理学家认为,人思考和认知工作分成了两个系统来处理:
🧑⚕️🕶🗡😷🤳 系统1先上,遇到搞不定的事情,系统2会出面解决。 系统1做的事情包括: 判断两个物体的远近、追溯声音的来源、完形填空 ( "我爱北京天安___ " )等等。 顺带一提,下象棋的时候,一眼看出这是一步好棋,这个行为也是系统1实现的——前提是你是一位优秀的玩家。 💅🏦🍊💲🐅 对于中国学生而言,你突然问他:“7乘以7”,他会不假思索的说:“49!”这是系统1在工作,因为我们在小学都会背99乘法表。这个49并非来自计算结果,而是背下来的(反复重复)。 相应的,如果你问:“3287 x 2234等于多少?”,这个时候人就需要调用世界模型中的乘法规则,加以应用(计算)。这就是系统2的工作。 🖕🦼🍽🔞🦬另外,在系统1所设定的世界里,猫不会像狗一样汪汪叫。若事物违反了系统1所设定的世界模型,系统2也会被激活。 在语言方面, 。 对于深度学习而言,它更适合去完成系统1的工作,实际上它根本没有系统2的功能。 👨🦱👠🛏😆🤝 关于这两个系统,值得一提的是,人是可以通过训练,把部分系统2才能做的事情,变成系统1来完成的。比如中国学生得经过“痛苦的记忆过程”才能熟练掌握99乘法表,而不是随着出生到长大的自然经验,慢慢学会的。 但是这里有2个有意思的特征: 1. 变成系统1来处理问题的时候,可以节约能量。人们偏向相信自己的经验,是因为脑力对能量的消耗很大,这是一个节能的做法。🧑🌾🥼📀😆🙏 2. 变成系统1的时候,会牺牲辩证能力,因为系统1对于逻辑相关的问题一无所知。“我做这个事情已经几十年了”这种经验主义思维就是典型案例。 想想自己长期积累的案例是如何在影响自己做判断的? 👂🚐🍟🔞🐉 “ 单靠深度学习搞不定语言,现在不行,将来也不行 ” 在人工智能行业里,你经常会听到有人这么说 “尽管当前技术还实现不了理想中的人工智能,但是技术是会不断演进的,随着数据积累的越来越多,终将会实现让人满意的人工智能。” 如果这个说法,是指寄希望于仅靠深度学习,不断积累数据量,就能翻盘——那就大错特错了。 👨⚕️🗝😈✋ 无论你怎么优化“马车”的核心技术(比如更壮、更多的马),都无法以此造出汽车(下图右)。 对于大众而言,技术的可演进性,是以宏观的视角看人类和技术的关系。但是发动机的演化和马车的关键技术没有半点关系。 🖐🗽🔪🚭🦖 深度学习领域的3大牛,都认为单靠深度学习这条路(不能最终通向AGI)。感兴趣的朋友可以沿着这个方向去研究: :“我的观点是都扔掉重来吧” 🙌🪐🥄🉑🐋 :“如果你对于这个每天都在接触的世界,有一个好的因果模型,你甚至可以对不熟悉的情况进行抽象。这很关键......机器不能,因为机器没有这些因果模型。我们可以手工制作这些模型,但是这远不足够。我们需要能发现因果模型的机器。” :“A learning predictive world model is what we’re missing today, and in my opinion is the biggest obstacle to significant progress in AI.” 至于深度学习在将来真正的智能上扮演的角色,在这儿我引用Gary Marcus的说法:“I don’t think that deep learning won’t play a role in natural understanding, only that deep learning can’t succeed on its own.”🥷🩲⌨💩👃 “ 解释人工智障产品 ” 现在,我们了解了人们对话的本质是思维的交换,而远不只是明文上的识别和基于识别的回复。而当前的人工智能产品则完全无法实现这个效果。那么当用户带着人类的世界模型和推理能力来跟机器,用自然语言交互时,就很容易看到破绽。 🦴🏠🍚🆒🪰
到此,是不是有一种绝望的感觉?这些学界和行业的大牛都没有解决方案,或者说连有把握的思路都没有。是不是做对话智能这类的产品就没戏了?上限就是这样了么? 不是。对于一项技术而言,可能确实触底了;但是对于应用和产品设计而言,并不是由一个技术决定的,而是很多技术的结合,这里还有很大的空间。👨🎨💍🧻😪👊 作为产品经理,让我来换一个角度。我们来研究一下,既然手中的工具是这些,我们能用他们来做点什么? Part 4🧑🍳🥼💿💩✍ 🧑🍳💎🪦😪👀AI产品的潜力在于设计 “ AI的归AI,产品的归产品 ” 《The Prestige》2006,剧照 有一部我很喜欢的电影,The Prestige,里面讲了一个关于“瞬间移动”的魔术。对于观众而言,就是从一个地方消失,然后瞬间又从另一个地方出现。 👂🚤🍼🐻第一个魔术师,成功的在舞台上实现了这个效果。他打开舞台上的右边的门,刚一进去的一瞬间,就从舞台左边的门出来了。对观众而言,这完全符合他们的期望。 第二个魔术师在观众席里,看到效果后惊呆了,他感觉这根本毫无破绽。但是他是魔术师——作为一个产品经理——他就想研究这个产品是怎么实现的。但是魔术行业里,最不受人待见的,就是魔术揭秘。 影片最后,他得到了答案(剧透预警):所有的工程机关、升降机、等等,都如他所料的藏在了舞台下面。但真正的核心是,第一个魔术师一直隐藏着自己的另一个双胞胎兄弟。当他打开一个门,从洞口跳下舞台的那一刻,双胞胎的另一位就马上从另一边升上舞台。 ✍🚤🫑🅿🐅 看到这里,大家可能就恍然大悟:“ 原来是这样,双胞胎啊!” 这感觉是不是有点似曾相识?在本文Part 2,我们聊到把对话系统的黑箱打开,里面就是填一张表的时候,是不是有类似的感觉?对话式人工智能的产品(对话系统)就像魔术,是一个黑箱,用户是以感知来判断价值的。 🧑⚕️👙🖌😚🧠 “ 我还以为有什么黑科技呢,我是双胞胎我也可以啊。”{:13_524:} 其实这并不容易。我们先不说魔术的舞台里面的工程设计,这个魔术最难的地方是如何能在魔术师的生活中,让另一个双胞胎在大众视野里完全消失掉。如果观众们都知道魔术师是双胞胎,就很可能猜到舞台上的魔术是两个人一起表演的。所以这个双胞胎,一定不能出现在大众的“世界模型”里。 为了让双胞胎的另一个消失在大众视野里,这两兄弟付出了很多代价,身心磨,绝非一般人能接受的,比如共享同一个老婆。👳👑🔋🤡👊 这也是我的建议:技术不够的时候,设计来补。做AI产品的同学,不要期待给你智能。要是真的有智能了,还需要你干什么?人工智能产品经理需要设计一套庞大的系统,其中包括了填表、也当然包括深度学习带来的意图识别和实体提取等等标准做法、也包括了各种可能的对话管理、上下文的处理、逻辑指代等等。 这些部分,都是产品设计和工程力量发挥的空间。 👨⚕️👚📟😶🤝 “ 设计思路的基础 ” 我需要强调一下,在这里,咱们讲的是AI产品思路,不是AI的实现思路。 对于对话类产品的设计,以现在深度学习的基础,语义理解应该只占整个产品的5%-10%;而其他的,都是想尽一切办法来模拟“传送”这个效果——毕竟我们都知道,这是个魔术。如果只是识别就占了你家产品的大量心血,其他的不去拉开差异,基本出来就是智障无疑。 🧒🪖🪗😪👂 在产品研发方面上,如果研发团队能提供多种技术混用的工具,肯定会增加开发团队和设计的发挥空间。这个做法也就是DL(Deep Learning) + GOFAI (Good Old Fashioned AI) 的结合。GOFAI是John Haugeland首先提出的 ,也就是深度学习火起来之前的symbolic AI,也就是专家系统,也就是大多数在AI领域的人都看不起的 “if then…” DL+GOFAI 这个前提,是当前一切后续产品设计思路的基础。 ✋🚂🌰📵🐺 “ Design Principle:存在即为被感知 ”“存在即为被感知” 是18世纪的哲学家George Berkeley的名言。加州大学伯克利分校的命名来源也是为了纪念这位唯心主义大师。这个意思呢,就是如果你不能被感知到,你就是不存在的! 我认为“存在即为被感知” 是对话类AI产品的Design principle。对话产品背后的智能,是被用户感知到而存在的。直到有一天AI可以代替产品经理,在那之前,所有的设计都应该围绕着,如何可以让用户感觉和自己对话的AI是有价值的,然后才是聪明的。 🧠🔥🍽❌🦬 要非常明确自己的目的,设计的是AI的产品,而不是AGI本身。就像魔术的设计者,给你有限的基础技术条件,你能组装出一个产品,体验是人们难以想到。 同时,也要深刻的认识到产品的局限性。魔术就是魔术,并不是现实。 🤝🌞🅾🐯 这意味着,在舞台上的魔术,如果改变一些重要的条件,它就不成立了。比如,如果让观众跑到舞台的顶上,从上往下看这个魔术,就会发现舞台上有洞。或者“瞬间移动”的不是这对双胞胎中的一个,而是一个观众跑上去说,“让我来瞬间移动试试”,就穿帮了。 Narrow AI的产品,也是一样的。如果你设计好了一个Domain,无论其中体验如何,只要用户跑到Domain的边界以外了,就崩溃了。先设定好产品边界,设计好“越界时给用户的反馈”,然后在领域里面,尽可能的模拟这个魔术的效果。 👦👙🧪🥲🖐 假设Domain的边界已经设定清晰了,哪些方面可以通过设计和工程的力量,来大幅增加效果呢? 其实,在“Part 3 对话的本质” 里谈到的与思维相关的部分,在限定Domain的前提下,都可以作为设计的出发点:你可以用GOFAI来模拟世界模型、也可以模拟场景模型、你可以Fake逻辑推理、可以Fake上下文指代——只要他们都限定在Domain里。 “ 选择合适的Domain ” 🖐⛪🫖🆚🐴 成本(工程和设计的量)和给用户的价值并不是永远成正比,也根据不同的Domain的不同。 比如,我认为现在所有的闲聊机器人都没有什么价值。开放Domain,没有目标、没有限定和边界,对用户而言,会认为什么都可以聊。但是其自身“场景模型”一片空白,对用户所知的常识也一无所知。导致用户稍微试一下,就碰壁了。我把这种用户体验称为 “每次尝试都容易遇到挫折”。 👨🚒🩴🪝😄👂 可能,有些Domain对回复的内容并不那么看重。也就并不需要那么强壮的场景模型和推理机制来生成回复内容。 我们假设做一个“树洞机器人”,可以把产品定义是为,扮演一个好的听众,让用户把心中的压力烦恼倾诉出来。 这个产品的边界,需要非常明确的,在用户刚刚接触到的时候,强化到用户的场景模型中。主要是系统通过一些语言的反馈,鼓励用户继续说。而不要鼓励用户来期望对话系统能输出很多正确且有价值的话。当用户做出一些陈述之后,可以跟上一些对“场景模型”依赖较小,泛泛的话。 👏🌧🍏 “我从来没有这么考虑过这个问题,你为什么会这么想呢?” “关于这个人,你还有哪些了解?” “你觉得他为什么会这样?” ……🧒👖📏🥲👍 这样一来,产品在需求上,就大幅减轻了对“自然语言生成”的依赖。因为这个产品的价值,不在回复的具体内容是否精准,是否有价值上。这就同时降低了对话背后的“场景模型”、“世界模型”、以及“常识推理”这些高维度模块的需求。训练的素材嘛,也就是某个特定分支领域(比如职场、家庭等)的心理咨询师的对话案例。产品定义上,这得是一个Companion型的产品,不能真正起到理疗的作用。 当然,以上并不是真正的产品设计,仅仅是用一个例子来说明,不同的Domain对背后的语言交互的能力要求不同,进而对更后面的“思维能力”要求不同。选择产品的Domain时,尽量远离那些严重依赖世界模型和常识推理,才能进行对话的场景。 💪🚤🍭🆘🪶有人可能说,你这不就是Sophia的做法么?不是。这里需要强调的是Sophia的核心问题是欺骗。产品开发者是想忽悠大众,他们真的做出了智能。 在这里,我提倡的是明确告诉用户,这就是对话系统,而不是真的造出了智能。这也是为什么,在我自己的产品设计中,如果遇到真人和AI同时为用户服务的时候(产品上称为Hybrid Model),我们总是会偏向明确让用户知道,什么时候是真人在服务,什么时候是机器人在服务。这么做的好处是,控制用户的预期,以避免用户跑到设计的Domain以外去了;不好的地方是,你可能“听上去”没有那么酷。 所以,当我说“存在即为被感知”的时候,强调的是对价值的感知;而不是对“像人一样”的感知。 👩🧬😳👄 “ 对话智能的核心价值:在内容,不在交互 ” 多年前,还在英国读书的时候,我曾经在一个非常有名历史悠久的秘密结社里工作。我对当时的那位照顾会员需求的大管家印象深刻。你可以想象她好像是“美国运通黑卡服务”的超级礼宾,她有两个超能力: 👎🗽🍽♀🦉 1. Resourceful,会员的奇葩需求都能想尽办法的实现:一个身在法兰克福的会员半夜里遇到急事,临时想尽快回伦敦,半夜没有航班了,打电话找到大管家求助。最后大管家找到另一个会员的朋友借了私人飞机,送他一程,凌晨回到了伦敦。2. Mind-reading,会员想要什么,无需多言: “Oliver,我想喝点东西…” “当然没问题,我待会给你送过来。” 她也不需要问喝什么,或者送到哪里。🧑🚀👞📠😤👀 人人都想要一个这样的管家。蝙蝠侠需要Alfred;钢铁侠需要Javis;西奥多需要Her(尽管这哥们后来走偏了);iPhone 需要Siri;这又回到了我们在Part1里提到的,AI的to C 终极产品是智能助理。 但是,人们需要这个助理的根本原因,是因为人们需要它的对话能力么?这个世界上已经有70亿个自然语言对话系统了(就是人),为什么我们还需要制造更多的对话系统? 👊🧳🍖☣🦜我们需要的是对话系统后面的思考能力,解决问题的能力。而对话,只是这个思考能力的交互方式(Conversational User Interface)。如果真能足够聪明的把问题提前解决了,用户甚至连话都不想说。 我们来看个例子。 👦🎩🛒😋💅 我知道很多产品经理已经把这个iPhone初代发布的东西讲烂了。但是,在这儿确实是一个非常好的例子:我们来探讨一下iPhone用虚拟键盘代替实体键盘的原因。 普通用户,从最直观的视角,能得出结论:这样屏幕更大!需要键盘的时候就出现,不需要的时候就消失。而且还把看上去挺复杂的产品设计给简化了,更好看了。甚至很多产品经理也是这么想的。实际上,这根本不是硬件设计的问题。原因见下图。 👨🚒👔😴🙏 其实乔布斯在当时也讲的很清楚:物理键盘的核心问题是,(作为交互UI)你不能改变它。物理交互方式(键盘)不会根据不同的软件发生改变。 如果要在手机上加载各种各样的内容,如果要创造各种各样的软件生态,这些不同的软件都会有自己不同的UI,但是交互方式都得依赖同一种(物理键盘无法改变),这就行不通了。 所以,实际代替这些物理键盘的,不是虚拟键盘,而是整个触摸屏。因为iPhone(当时的)将来会搭载丰富的生态软件内容,就必须要有能与这些还没出现的想法兼容的交互方式。🧢🎺🤔👊 在我看来,上述一切都是为了丰富的内容服务。再一次的,交互本身不是核心,它背后搭载的内容才是。 但是在当初看这个发布会的时候,我是真的没有get到这个点。那个时候真的难以想象,整个移动互联时代会诞生的那么多APP,都有各自不同的UI,来搭载各式各样的服务。 👊🏠🍼💲🐉你想想,如果以上面这些实体键盘,让你来操作大众点评、打开地图、Instagram或者其他你熟悉的APP,是一种怎样的体验?更有可能的是,只要是这样的交互方式,根本设计不出刚才提到的那些APP。 与之同时,这也引申出一个问题:如果设备上,并没有多样的软件和内容生态,那还应该把实体键设计成触摸和虚拟的方式么?比如,一个挖掘机的交互方式,应该使用触屏么?甚至对话界面? “ 对话智能解决重复思考 ”🧓🦺🧪😅✌ 同样的,对话智能的产品的核心价值,应该在解决问题的能力上,而不是停留在交互这个表面。这个“内容” 或者 “解决问题的能力” 是怎么体现的呢? 工业革命给人类带来的巨大价值在于解决“重复体力劳动”这件事。 🤙🌞🍚🅾🐟经济学家Tyler Cowen 认为,“ 什么行业的就业人越多,颠覆这个工种就会创造更大的商业价值。” 他在Average Is Over这本书里描述到: 引用 这里提及的工作,都是需要大量重复的工作。而且不停的演变,从重复的体力,逐步到重复的脑力。 👀🚗🥩♀🦌 从这个角度出发,对一个场景背后的“思考能力”没有把控的AI产品,会很快被代替掉。首当其冲的,就是典型意义上的智能客服。在市场上,有很多这样的智能客服的团队,他们能够做对话系统(详见Part 2),但是对这各领域的专业思考,却不甚了解。 我把“智能客服” 称为“前台小姐姐”——无意冒犯,但是前台小姐姐的主要工作和专业技能并没有关系。他们最重要的技能就是对话,准确点说是用对话来“路由”——了解用户什么需求,把不合适的需求过滤掉,再把需求转给专家去解决。 🦴🚠🧊♻🐥 但是对于一个企业而言,客服是只嘴和耳,而专家才是脑,才是内容,才是价值。客服有多不核心?想想大量被外包出去的呼叫中心,就知道了。 与这类客服机器人产品对应的,就是专家机器人。一个专家,必定有识别用户需求的能力,反之不亦然。你可以想象一个企业支付给一个客服多少薪资,又支付给一个专家多少薪资?一个专家需要多少时间培训和准备才能上岗,客服小姐姐呢?于此同时,专业能力是这个机构的核心,而客服不是。 👮♂️👠🔭😈🦴 正因为如此,很多人认为,人工的呼叫中心,以后会被AI呼叫中心代替掉;而我认为,用AI做呼叫中心的工作,是一个非常短暂的过渡型方案。很快代替人工呼叫中心的,甚至代替AI呼叫中心,是具备交互能力的专家AI中心。在这儿,“专家”的意义大于“呼叫”。 在经历过工具化带来的产能爬坡和规模效应之后,他们成本差不多,但是却专业很多。比如他直接链接后端的供给系统的同时,还具备专业领域的推理能力,也能与用户直接交互。 NLP在对话系统里解决的是交互的问题。 👁🗼🍼🈸🐢 在人工智能产品领域里,给与一定时间,掌握专业技能的团队一定能对话系统;而掌握对话系统的团队则很难掌握专业技能。试想一下在几年前,移动互联刚刚出现的时候,会做app的开发者,去帮银行做app;而几年之后银行都会自己开发app,而开发者干不了银行的事。 在这个例子里,做AI产品定义的朋友,你的产品最好是要代替(或者辅助)某个领域专家;而不要瞄准那些过渡性岗位,比如客服。 👃🦼🥚🈸🦟 从这个角度出发,对话智能类的产品最核心的价值,是进一步的代替用户的重复思考。Work on the mind not the mouth. 哪怕已经是在解决脑袋的问题,也尽量去代替用户系统2的工作,而不只是系统1的工作。在你的产品中,加入专业级的推理;帮助用户进行抽象概念与具象细节之间的转化;帮助用户去判断那些出现在他的模型中,但是他口头还没有提及的问题;考虑他当前的环境模型、发起对话时所处的物理时空、过去的经历;推测他的心态,他的世界模型。 先解决思考的问题,再尽可能的转化成语言。 🤌🪐🍭♊🐂 Part 5 AIPM “ 缺了什么?” 🧓👚🧯🤩👈 2018年10月底,我在慕尼黑为企业客户做on site support。期间与客户的各个BU、市场老板们以及自身的研发团队交流对话AI的应用。作为全球最顶尖的汽车品牌之一,他们也在积极寻求AI在自身产品和服务上的应用。 不缺技术人才。尽管作为传统行业的大象,可能会被外界视为不擅长AI,其实他们自身并不缺少NLP的研发。当我跟他们的NLP团队交流时,发现基本都有世界名校的PHD。而且,在闭门的供应商大会上,基本全球所有的科技大厂和咨询公司都在场了。就算实在搞不了,也大有人排着队的想帮他们搞。 🧒👠🖲😭👁 创新的意愿强烈。在我接触过的大企业当中,特别是传统世界100强当中中,这个巨头企业是非常重视创新的。经过移动互联时代,丢掉的阵地,他们是真心想一点点抢回来,并试图领导所在的行业,而不是follow别人的做法。不仅仅是像“传统的大企业创新”那样做一些不痛不痒的POC,来完成创新部门的KPI。他们则真的很积极地推进AI的商业化,而且勇于尝试改变过去和Tech provider之间的关系。这点让我印象深刻,限于保密条款,在此略过细节。(关于国际巨型企业借新技术的初创团队之手来做颠覆式创新,也是一个很有意思的话题,以后新开一个Topic。) 数据更多。那么传统巨头的优势就在于,真正拥有业务场景和实际的数据。卖出去的每一台产品都是他们的终端,而且开始全面联网和智能化。再加上,各种线下的渠道、海量的客服,其实他们有能力和空间来搜集更完整的用户生命周期数据。 当然,作为硬币的另一面,百年品牌也自然会有严重的历史牵绊。机构内部的合规、采购流程、数据的管控、BU之间的数据和行政壁垒也是跑不掉的。这些环节的Trade off确实大大的影响了对上述优势的利用。👨🎨💍🔭🤐👈 但是最缺少的还是产品定义能力。 如果对话智能的产品定义失败,后面的执行就算是完美的,出来的效果也是智障。有些银行的AI机器人就是例子:立项用半年,竞标用半年,开发用一年,然后上线跑一个月就因为太蠢下线了。 🧒👞🪝😊👃 但这其实并不是传统行业的特点,而是目前所有玩家的问题——互联网或科技公司的对话AI产品也逃不掉。可能互联网企业还自我感觉良好,在这产品设计部分,人才最不缺了——毕竟“人人都是产品经理” 嘛。但在目前,咱们看到的互联网公司出来的产品也都是差不多的效果,具体情况咱们在Part 2里已经介绍足够多了。 我们来看看难点在哪里。 AI产品该怎么做定义呢?也就是,需要怎样的产品才能实现商业需求。技术部门往往主要关注技术实现,而不背商业结果KPI;而业务部门的同事对AI的理解又很有限,也就容易提出不合适的需求。🧢🖲😤🤌 关键是,在做产品定义时,你想要描述 “我想要一个这样的AI,它可以说…” 的时候你会发现,因为是对话界面,你根本无法穷尽这个产品的可能性。其中一个具体细节就是,产品文档该怎么写,这就足够挑战了。 “ 对话AI产品的管理方法 ” 🤳🌦🎂➡🦚 先给结论:如果还想沿用管理GUI产品的方法论来管理对话智能产品,这是不可能的。从行业角度来看,没有大量成功案例,就不会有流水线;没有流水线,就没有基于流水线的项目管理。 也就是说,从1886年开始第一辆现代汽车出现,到1913年才出现第一条流水线——中间有27年的跨度。再到后来丰田提出The Toyota Way,以精益管理(Lean Management)来快速迭代(类似敏捷开发)以尽量避免浪费,即Kaizen(改善),这已经是2001年的事情了。 这两天和其他也在给大企业做对话的同行交流的时候,听到很多不太成功的产品案例,归结起来几乎都是因为 “产品Scope定义不明”,导致项目开展到后面根本收不了尾。而且因为功能之间的耦合紧密,连线都上不了(遇到上下文对话依赖的任务时,中间环节一但有缺失,根本走不通流程)。这些都是行业早期不成熟的标志。 “ 对话AI产品的Design Principle 尚未出现 ”🥷👙🪦🤡🦴 对话智能领域相对视觉类的产品,有几个特性上的差异: 1)是产品化远不如视觉类AI成熟; 2)深度学习在整个系统里扮演的角色虽然重要,但是还是很少,远不够撑起来有价值的对话系统; 3)产品都是黑箱,目前在行业中尚无比较共同认可的设计标准。 🧑⚕️🧢🏮😰🤌 APP发展到后面,随着用户的使用习惯的形成,和业界内成功案例的“互相交流”,逐步形成了一些设计上的共识,比如下面这一排,最右边红圈里的 “我”: 但是,从2007年iPhone发布,到这些移动产品的设计规范逐步形成, 也花了近6、7年时间,且不提这是图形化界面。 👂🏝🍓✔🐉 到如今,这类移动设备上的产品设计标准已经成熟到,如果在设计师不遵循一些设计思路,反而会引起用户的不习惯。只是对话系统的设计规范,现在谈还为时尚早。 到这里,结合上述两个点(对话AI产品的管理方法、设计规范都不成熟),也就可以解释为什么智能音箱都不智能。因为智能音箱的背后都是一套“技能打造框架”,给开发者,希望开发者能用这套框架来制作各种“技能”。 🧑🍳🦺🧻😅👍 而“对话技能类平台” 在目前根本走不通。任何场景一旦涉及到明文识别以外的,需要对特定的任务和功能进行建模,然后再融合进多轮对话管理里的场景,以现在的产品成熟程度,都无法抽象成有效的设计规范。现在能抽象出来的,都是非常简单的上下文管理(还记得Part 2里的“填表”么?)。 我就举一个例子,绝大部分的技能平台,根本就没有“用户生命周期管理”的概念。这和服务流程是两码事,也是很多机器人智障的诸多原因之一。因为涉及到太细节和专业的部分,咱们暂且不展开。 也有例外的情况:技能全部是语音控制型,比如“关灯开灯” “开空调25度”。这类主要依赖明文识别的技能,也确实能用框架实现比较好的效果。但这样的问题在于,开放给开发者没有意义:这类技能既不需要多样的产品化;开发者从这类开发中也根本赚不到钱——几乎没有商业价值。 🧠🚤🍍🅰🦜 另一个例外是大厂做MLaaS类平台,这还是很有价值的。能解决开发者对深度学习的需求,比如意图识别、分词、实体提取等最底层的需求。但整个识别部分,就如我在Part 3&4里提到的,只应占到任务对话系统的10%,也仅此而已。剩下的90%的工作,也是真正决定产品价值的工作,都得开发者自己搞。 他们会经历些什么?我随便举几个最简单的例子(行业外的朋友可以忽略): 👎🌞🌶✡🐤 如果你需要训练一个意图,要生成1000句话来做素材,那么“找100个人,每人写10句” 的训练效果要远好于 “找10个人,每人写100句”;是用场景来分意图、用语义来分意图和用谓语来拆分意图,怎么选?这不仅影响机器人是否能高效支持“任务”之间的跳转,还影响训练效率、开发成本; 有时候意图的训练出错,是训练者把自己脑补的内容放进去了; 🦷🗼🍼⚛🕊 话术的重要性,不仅影响用户看着舒不舒服,更决定了他的回复的可能性——以及回复的回复的可能性——毕竟他说的每一句后面的话,都需要被识别后,再回复; 如果你要给一个电影院做产品,最好用图形化界面,而不要用语言来选座位:“现在空着的座位有,第一排的1,2,3,4….” ✊💈🍭🈳🪶这些方面的经验和技巧数都数不完,而且还是最浅显、最皮毛的部分。你可以想象,对话智能的设计规范还有多少路要走——记得,每个产品还是黑箱,就算出了好效果,也看不到里面是怎么设计的。 “ 一个合适的AIPM ” 当真正的人工智能实现之后,所有产品经理所需要做的思考,都会被AI代替。所以,真正的人工智能也许是人类最后的一个发明。在那一天之前,对话智能产品经理的工作,是使用各种力量来创造智能给人的感觉。👵🩴📡😂💅 AIPM一定要在心中非常明确 “AI的归AI,产品的归产品”。做工具的和用工具的,出发点是完全不同。应该是带着做产品的目的,来使用AI;千万不要出现“AIPM是来实现AI的”这样的幻觉。 我们都熟悉,PM需要站在“人文和技术的十字路口”来设计产品。那么对话智能的AIPM可能在这方面可能人格分裂的情况更极端,以至于甚至需要2个人来做配合成紧密的产品小组——我认为一个优秀的对话智能产品经理,需要在这三个表现优秀: 👨🦱🩳🎺😋🙌 1. 懂商业:就是理解价值。 对话产品的价值一定不在对话上,而是通过对话这种交互方式(CUI)来完成背后的任务或者解决具体问题。一个本来就很强的APP,就不要想着去用对话重新做一遍。反而是一些APP/WEB还没有能很好解决的问题,可以多花点时间研究看看。 🧓🩰⚒😘🙌 这方面在Part 4 里的对话智能的核心价值部分,当中有详细阐述,在这里就不重复了。 2. 懂技术:理解手中的工具(深度学习 + GOFAI) 一个大厨,应该熟悉食材的特性;一个音乐家,应该熟悉乐器的特征;一个雕塑家,应该熟悉手中的凿子。大家工具都差不多,成果如何,完全取决于艺术家。👮♂️👞🎷😀👄 现在,AIPM手中有深度学习,那么就应该了解它擅长什么和不擅长什么。以避免提出太过于荒谬的需求,导致开发的同学向你发起攻击。了解深度学习的特性,会直接帮助我们判断哪些产品方向更容易出效果。比如,做一个推荐餐厅的AI,就比做一个下围棋的AI难太多了。 下围棋的产品成功,并不需要人类理解这个过程,接受这个结果就行。而推荐一个餐厅给用户,则必须要去模拟人的思维后,再投其所好。 👩🕶🗑🥲🦴 人们在想要推荐餐厅的时候,通过对话,了解他的需求(绝对不能问太多,特别是显而易见的问题,比如他在5点的时候,你问他要定几点的餐厅) 对于围棋而言,每次(单次)输入的可能性只有不超过棋盘上19x19=361种可能性;一局棋的过程尽管千变万化,我们可以交给深度学习的黑箱;最后决定输赢所需要的信息,全部呈现在棋盘上的落子上,尽管量大,但与落子以外的信息毫无关系,全在黑箱里,只是这个黑箱很大。最后,输出的结果的可能性只有两种:输或者赢。 对于推荐餐厅。每次输入的信息,实际并不包含决策所需要的全部信息(无法用语言表达所有相关的影响因素,参考Part 3 里世界模型部分);而且输出的结果是开放的,因为推荐的餐厅,既不可被量化,更不存在绝对的对错。 👊🚘🎂🚭🐅 了解CUI的特性后,不该用对话的就不要强上对话交互;有些使用对话成本非常高,又很不Robust的环节,同时用户价值和使用频次又很低的,就要考虑规避——咱们是做产品的,不是实现真正的AI的,要分清楚。 3. 懂人:心理和语言 🧠🌕🎂🪰 这可能是当前对话类产品最重要的地方,也是拉开和其他产品设计的核心部分。也可能是中年人做产品的第二春。对心理的理解,指的是当用户在说话的时候,对他脑中的模型的理解。英文中“Read the room”就是指讲话之前,先观察一下了解周围听众的情况,揣摩一下他们的心理,再恰当的说话。 比如,讲话的时候,是否听众开始反复的看表?这会让直接影响对话的进程。你有遇到过和某人对话起来感觉很舒服的么?这个人,不仅仅是语言组织能力强,更重要的则是他对你脑中的对话进程的把握,以及场景模型,甚至对你的世界模型有把握。他还知道怎么措辞,会更容易让你接受,甚至引导(Manipulate)你对一些话题的放弃,或者是加强。🧑🍳👒🖌🙃💪 对话系统的设计也是一样的。哪些要点在上文中说过?哪些类型的指代可以去模拟?如果是文字界面,用户会不会拉回去看之前的内容?如果是语音界面,用户脑中还记不记得住?如果记得住,还强调,会感觉重复;如果记不住,又不重复,会感觉困惑。 对语言的理解,则是指对口语特性的理解。我知道Frederick Jelinek说的“每当我开除一个语言学家,Speech识别的准确率就会增高”。只是,现在根本没有真正意义上的自然语言生成(NLG),因为没有真正的思维生成。 🪖📮🤩🤟 所以,任务类的对话的内容,系统不会自然产生,也无法用深度学习生成。对于AIPM而言,要考虑的还是有很多语言上的具体问题。一个回复里,内容会不会太长?要点该有几个?谓语是否明确,用户是否清晰被告知要做什么?条件又是什么?这样的回复,能引发多少种可能的问询?内容措辞是否容易引起误解(比如因为听众的背景不同,可能会有不同的解读)? 从这个角度而言,一个好的对话系统,必定出自一个很能沟通的人或者团队之手。能为他人考虑,心思细腻,使用语言的能力高效,深谙人们的心理变化。对业务熟悉,能洞察到用户的Context的变化,而其格调又帮助用户控制对话的节奏,以最终解决具体问题。 Part 6 🧢🪦🥰✌ 可见的未来是现状的延续 “ 过渡技术” 👃🎠🍟🈸🐴在几周前,我与行业里另一家做对话的CEO讨论行业的将来。当我聊到“深度学习做对话还远达不到效果”的态度时,他问我:“如果是悲观的,那么怎么给团队希望继续往前进呢?” 其实我并不是悲观的,可能只是更客观一点。 既然深度学习在本质上搞不定对话,那么现在做对话AI的实现方式,是不是个过渡技术?这是一个好问题。👩🧥🪗😰🦴 我认为,用现在的技术用来制作AI的产品,还会持续很长时间,直到真正智能的到来。 如果是个即将被替代或者颠覆的技术,那就不应该加码投入。如果可以预见未来,没人想在数码相机崛起的前期,加入柯达;或者在LED电视普及之前,重金投入在背投电视的研发上。而且难以预测的不仅仅是技术,还有市场的发展趋势。比如在中国,作为无现金支付方式,信用卡还没来得及覆盖足够多的支付场景,就被移动支付断了后路。 👨🎨🩰💉😤🖐 而现在的对话智能所使用的技术,还远没到这个阶段。 Clayton M. Christensen在《创新者的窘境》里描述了每个技术的三个阶段: 【第一个阶段,缓步爬坡; 👆⛴🍚🆎🐅 第二个阶段开始迅猛发展,但是到接近发展的高地(进步减速)的时候,另一个颠覆式技术可能已经悄悄萌芽,并重复着第一个技术的发展历程; 第三个阶段,则进入发展瓶颈,并最终被新技术颠覆 👮♂️🪖🖲🤖🙏 下图黑色部分,为书中原图: 而当前对话AI的技术,还在第一阶段(蓝色旗帜位置)称不上是高速发展,还处于探索的早期。黑箱的情况,会使得这个周期(第一阶段)可能比移动时代更长。 🧑🍳👗🪜😃✍ 以当前的技术发展方向,结合学术界与工业界的进展来看,第二个技术还没有出现的影子。 但是同样因为深度学习在对话系统中,只扮演的一小部分角色,所以大部分的空间,也是留给大家探索和成长的空间。换句话来讲,还有很多发展的潜力。 前提是,我们在讨论对话类的产品,而不是实现AI本身。只是,这个阶段的对话AI,还不会达到人们在电影里看到的那样,能自如的用人类语言沟通。 👮♂️👠🪗😳🙏 2) 服务提供者崛起的机会 因为上述的技术发展特点,在短期的将来,数据和设计是对话智能类产品的壁垒,技术不是。🧒👜🖌🤬🖐 只是这里说的数据,不是指的用来训练的数据。而是供给端能完成服务的数据;能够照顾用户整个生命周期的数据;是当对话发生的时候,用户的明文以外的数据这些数据;影响用户脑中的环境模型、影响对任务执行相关的常识推理数据,等等。 而随着IOT的发展,服务提供者,作为与用户在线下直接打交道的一方,是最有可能掌握这些数据。他们能在各个Touch point去部署这些IOT设备,来搜集环境数据。并且,由他们决定要不要提供这些数据给平台方。 🤝🦼🥩🚭🐥但是,往往这些行业里的玩家都是历史悠久、行动缓慢。其组织机构庞大,而且是组织结构并不是为了创新而设计,而是围绕着如何能让庞大的躯干不用思考,高速执行。而这也正是互联网企业和创业企业的机会。 3)超级终端与入口之争 ✊🚈🍇♊🐋 对话智能类的产品必须搭载在硬件终端上。很多相关的硬件尝试,都是在赌哪个设备能够成为继手机之后的下一个超级终端。就好像智能手机作为计算设备,代替了PC的地位一样。毕竟,在移动时代,抢到了超级终端,就抢到了用户获取服务的入口。在入口的基础之上,才是各个应用。 如果对话智能发展到足够好的体验,并能覆盖更多的服务领域时,哪一个终端更有可能成为下一个超级终端呢?智能音箱、带屏幕的音箱、车载设备甚至车机、穿戴设备等等都可以搭载对话智能。在5G的时代,更多的计算交给云端,在本地设备上留下能耗较低的OS和基础设施,I/O交给麦克风和音频播放就完成了。🧑🎤👑🪟😄👀 因此任意一个联网设备,都可能具备交互和传递服务的能力,进一步削弱超级终端的存在。也就是说,作为个人用户,在任意一个联网设备上,只要具备语音交互和联网能力,都可能获得服务。特别是一些场景依赖的商业服务,如酒店、医院、办公室等等。 随着这些入口的出现,在移动时代的以流量为中心的商业模式,可能将不再成立。而新的模式可能诞生,想象一下,每一个企业,每一个品牌都会有自己的AI。一个或是多个,根据不同的业务而产生;对内部员工服务或者协助其工作,同时也接待外部的客服,管理整个生命周期从注册成这家企业的用户开始,到最后(不幸地)中断服务为止。 👨🚒🧢🎺💀👂 只是这个发展顺序是,先有服务,再有对话系统——就好像人,是有脑袋里的想法,再用对话来表达。 结语 🧓🩴📡👻🤌在本文中,所有与技术和产品相关的讨论,都是在强调一个观点:一个产品是由很多技术组合而成。我不希望传达错误的想法,类似“深度学习不重要”之类的;相反,我是希望每一类技术都得到正确的认识,毕竟我们离真正的人工智能还有距离,能用上的都有价值。 作为AI从业者,心中也会留有非理性的希望,能早日见证到人造的智能的到来。毕竟,如果真正的智能出现了,可能产品经理(以及其他很多岗位)就彻底解放了(或者被摧毁了)。 这或许就是人类的最后一个发明。 🦷🏠🦀®🐂 本文开始于慕尼黑,最终成稿于北京,断断续续耗时接近3个月。期间与很多大企业,行业内的创业者,还有一些资本的同学沟通交流。在此表示感谢,就不一一点名啦。 关于作者 作者Mingke,正在从事对话智能方面的创业,为世界一百强企业提供对话智能应用的咨询和解决方案。上次《为什么现在的人工智能助理都像人工智障》一文发出来之后,认识结交了不少行业内的朋友。希望这次,把过去一段时间的思考与大家分享,能给行业内的新老朋友们一些启发,有兴趣沟通和碰撞的也欢迎与我联系。 👏🗽🔪🔞🐴 欢迎行业里的新老朋友勾搭吐槽,微信:mingke27 (请注明称呼+所在机构) 评分
帖子热度 3.4万 ℃
|
|
作为新人,在论坛不敢大声说话,也不敢得罪人,只能默默地顶完贴转身就走,不求深藏功与名,只求前排混脸熟{:12_623:}
|
原来语言还有这样的理解,现在我明白了语言代表什么了!
|