专栏名称: Dance with GenAI
关于生成式人工智能AIGC的一切
目录
相关文章推荐
国家知识产权局  ·  开工生产忙 多地交通重点工程建设冲刺首季“开门红” ·  10 小时前  
IPRdaily  ·  下周四15:00直播! ... ·  2 天前  
上城区市场监管局  ·  数据知识产权登记篇(一) ·  3 天前  
51好读  ›  专栏  ›  Dance with GenAI

读书笔记之《智能语音时代》

Dance with GenAI  · 公众号  ·  · 2024-12-18 19:36

正文

这本书名为《智能语音时代:商业竞争、技术创新与虚拟永生》(Talk to Me: How Voice Computing Will Transform the Way We Live, Work, and Think),由詹姆斯·弗拉霍斯(James Vlahos)等人撰写。全书共分为三个部分,涵盖了智能语音技术的竞争、创新和革命性影响。

詹姆斯·弗拉霍斯(James Vlahos):《纽约时报》《连线》《大众科学》《科学美国人》《大西洋》《智族GQ》和《国家地理》等杂志著名记者,美国鬼才科普作家,以兴趣盎然、发人深省的方式来讨论复杂难懂的科学问题见长。弗拉霍斯从20世纪80年代开始跟踪和报道智能语音技术,30多年来,他零距离地见证和细致地观察了这一领域的研究进展,曾与这一领域中的许多杰出人物直接对话,本书中的许多观点就是来自于他对一手访谈资料的提炼。

以下是对每个章节内容的详细总结:

第一部分:竞争

描述了各大科技公司如苹果、亚马逊、谷歌和微软之间的激烈竞争,它们都在努力开发自己的语音平台,试图在这个新兴领域中占据主导地位。特别提到了Siri的诞生,以及随后其他公司的响应。

CHAPTER 01 范式转移

作者指出,每十年左右,人与技术的互动方式会发生根本性转变。智能语音时代的到来标志着新的范式转移,语音技术将成为控制各种技术装置的手段。作者强调,语音技术的兴起是人类历史的转折点,因为它利用了人类特有的语言能力。

每十年左右,人与技术的互动方式就会有一个根本性的转变。数十亿美元的财富会“恭候”那些定义了新的时代范式的公司,而落伍者将破产倒闭。在计算机的大型机时代,IBM是主宰者;微软公司是桌面时代的王者;谷歌公司靠搜索引领了互联网时代;苹果公司和脸书公司则在移动互联网时代一飞冲天。最近的一次范式转移正在进行中。最新的平台之战已经打响。最新的技术颠覆正在发生,无论是其规模还是其重要性,都可能是世人前所未见的。

我们正在迈入智能语音时代。语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的手段。当运用得好时,语音的优势非常明显,以至于你几乎难以感觉到它也是一层介质。人类知道如何说话,因为我们终其一生都在说话。

语音对话公司Active Buddy沦为了历史的产物,最重要的原因是技术的不完善,计算机的“听力”还不够好,还不能自然地表达思想。

在智能语音时代,我们对数字生活的诉求不再停留在通过打字和点击在网页中搜索的阶段。取代传统互联网的将是人与人工智能之间的对话,这是新文明到来的征兆。由此带来的好处是效率的提高,代价则是独立性的减弱。人们不必

再亲自去寻找答案,而是由计算机来完成。

CHAPTER 02 语音助理

本章介绍了语音助理的起源和发展,特别是Siri的诞生及其对智能语音领域的推动作用。作者通过Siri的发展历程,展示了语音技术如何从实验室走向市场,并成为改变人们生活方式的重要工具。

CHAPTER 03 科技巨头

作者分析了科技巨头如苹果、亚马逊、谷歌等公司在智能语音领域的竞争态势。这些公司通过开发智能语音平台,试图主导新兴的商业模式。作者指出,这场竞争不仅是技术的较量,也是商业模式的革新。

第二部分:创新

关注于语音计算领域的技术创新,包括对话设计等跨学科的工作。

CHAPTER 04 探索之旅

作者回顾了智能语音技术的早期探索,包括古代传说中的会说话的物体,以及19世纪和20世纪的早期语音合成尝试。这些探索为现代智能语音技术的发展奠定了基础。

CHAPTER 05 技术突破

本章详细介绍了智能语音技术的关键技术突破,包括自动语音识别、自然语言理解和生成、以及语音合成等。作者强调,这些技术的进步使得智能语音设备能够更自然、更准确地与人类交流。

神经网络可以用来表达逻辑命题——由“and”“or”“not”“if/then”等词连接的多部分复合性陈述。请思考以下命题:“如果外面是晴天,我就去散步。但如果下雨,我就不去了,除非我有一把伞。”现在想象一个高度简化的神经网络只有两个神经元。如果第一个神经元检测到阳光充足,它就会输出一个1,相当于达到峰值。如果下雨,它就会输出一个0。如果你有伞,第二个神经元就会输出1;如果你没有伞,它就会输出一个0。由此,神经网络可以得出满足逻辑命题条件的结果。如果神经元输出的总和为零,那就意味着外面很湿,你没有伞,所以今天不能出去散步。如果总数是1,就说明天气晴朗或你有伞,所以你能出去散步。如果总数是2,你又有一把伞,那么你绝对没有理由待在屋里。

辛顿和本吉奥为用数字来表示文字奠定了重要基础。他们想出了一

种方法,使用被称为向量的有序的数字串来表示文字,这种方法被称为词嵌入。想象一下,如果英语中只有三个单词:“男人”“女人”“男孩”,那么“女人”这个词的嵌入就是三维向量[0,1,0]。一个简单的例子:假设你试图嵌入的单词只有三个维度的含义——它们的甜度、大小和圆度。从数字上讲,你可以设置0.01这样一个值来表示与这些属性的最小关联,0.99则表示非常密切的关联。“焦糖”这个词可能会用[0.91,0.03,0.01]来表示,因为糖果很甜,但它既不大也不圆。而“南瓜”可能会用[0.14,0.31,0.63] 来表示,因为南瓜不甜,大小中等,有点圆。“太阳”可能用[0.01,0.98,0.99] 来表示,因为太阳一点也不甜,但它非常大,非常圆。

语音人工智能的组成部分——语音识别、自然语言理解、自然语言生成和语音合成——还有很长的路要走。

CHAPTER 06 个性设计

作者探讨了为语音助理设计个性的重要性。通过赋予语音助理独特的个性特征,设计师们希望使这些设备更加人性化,从而增强用户的使用体验。

谷歌公司没有给自己的语音助理起一个像Siri或微软小娜这样听起来像是未来科技女神的名字,而是选择了用平淡的“助理”作为名字。一位公司发言人解释说,谷歌公司不想做出过多的承诺。他说:“公司在塑造语音助理的个性时存在某种风险。我们的期望是,它将像人一样聪明,能像人那样做所有的事情。但基础技术远远不够,所以我们一直非常谨慎,不敢在拟人化的道路上走得太远。”

第三部分:革命

回顾了语音计算给社会带来的深刻变化,以及它对商业和个人生活的深远影响。

CHAPTER 08 陪伴功能

作者分析了智能语音设备如何成为人们的陪伴者,提供情感支持和社交互动。这些设备模糊了人与机器的界限,改变了人们的生活方式。







请到「今天看啥」查看全文