a16z:生成式人工智能领域的 4 个突破点

互联网 阅读 366 2023-06-26 09:18:00

大型语言模型(LLMs)已经成为科技行业的热点,为我们提供了一些令人称奇的体验——从几秒钟内编写一周的代码,到生成比与人类进行的对话更富有共情的对话。通过使用成千上万个GPU进行数万亿令牌的数据训练,LLMs展示了出色的自然语言理解能力,并改变了文案和代码等领域,将我们推进了全新、令人兴奋的生成式AI时代。与任何新兴技术一样,生成式AI也受到了一些批评。尽管这些批评在一定程度上反映了LLMs当前能力的局限性,但我们将这些阻碍视为进一步创新的机会,而不是技术本质性的缺陷。

为了更好地了解LLMs的近期技术突破,并为创始人和运营者做好未来准备,我们与一些领先的生成式AI研究人员进行了交谈,他们正在积极构建和训练一些最大最前沿的模型,包括Anthropic公司的首席执行官Dario Amodei、Cohere公司的首席执行官Aidan Gomez、Character.AI公司的首席执行官Noam Shazeer以及AI21 Labs的Yoav Shoham。这些交谈确定了未来即将到来的4个关键创新方向:导向、记忆、"手和脚"以及多模态。在本文中,我们将讨论这些关键创新如何在未来6到12个月内发展,以及对于对将AI整合到自己的业务中感兴趣的创始人来说,如何利用这些新进展。

导向

许多创始人对在其产品和工作流程中使用LLMs表示担忧,因为这些模型有可能产生幻觉和重现偏见。为了解决这些问题,一些领先的模型公司正在致力于改进导向技术——一种在LLMs输出中更好地控制模型结果、让模型更好地理解和执行复杂用户需求的方法。Noam Shazeer在这方面提到了LLMs和孩子之间的相似之处:“这是如何更好地引导[模型]的问题...我们在LLMs上面临的问题就是我们需要正确的方式告诉它们如何按照我们的要求行事。小孩子也是如此——他们有时会编造事情,对幻想和现实没有一个明确的理解。”尽管在模型提供商和类似Guardrails和LMQL的工具出现之后,在导向能力方面[1]已经取得了显著的进展,研究人员仍在不断取得进步,我们认为这对于更好地将LLMs产品化对于最终用户至关重要。

在企业公司中,改进的导向尤其重要,因为不可预测行为的后果可能是昂贵的。Amodei指出,LLMs的不可预测性会让人们感到不安,作为一个API提供者,他希望能够“对着客户说‘不,模型不会做这个’,或者至少很少会这样做。”通过改进LLMs的输出,创始人们可以更有信心地确保模型的性能与客户需求相符。改进的导向还将为其他行业的广泛采用铺平道路,这些行业对精确性和可靠性的要求更高,例如广告行业,其中广告投放的风险很高。Amodei还认为改进的导向可以应用于“法律用例、医疗用例、存储金融信息和管理金融赌注,以及需要保护公司品牌的场景。您不希望您所整合的技术是不可预测或难以预测或刻画的。”通过更好的导向,LLMs还能够在少量提示工程的情况下完成更复杂的任务,因为它们将能够更好地理解整体意图。

LLMs导向方面的进展还有可能在用户期望定制和准确回应的敏感消费者应用中开启新的可能性。虽然当用户与LLMs进行对话或创造性交互时,他们可能会容忍较低准确性的输出,但是当用户使用LLMs来协助日常任务、指导重要决策或增强生活教练、治疗师和医生等专业人士时,他们希望得到更准确的输出。有人指出,LLMs有望取代搜索等已深入人心的消费者应用,但在这成为真正可能之前,我们可能需要更好的导向来改善模型输出并建立用户信任。

关键突破点:用户可以更好地定制LLMS的输出。

记忆

由LLMs驱动的文案撰写和广告生成应用程序已经取得了巨大的成功,从而在营销人员、广告商和创业者中迅速流行起来。然而,目前大多数LLMs的输出相对泛化,这使得难以将它们用于需要个性化和情境理解的用例。虽然提示工程和微调可以提供一定程度的个性化,但是提示工程的可扩展性较差,而微调往往代价高昂,因为它需要一定程度的重新训练,并且通常需要与大多数闭源LLMs紧密合作。为每个个体用户进行微调模型通常是不可行或不可取的。

上下文学习是实现这一目标的圣杯,其中LLMs从您的公司生成的内容、您公司的特定行话和特定上下文中获取信息,以创建更精细、针对特定用例的输出。为了实现这一目标,LLMs需要增强的记忆能力。LLM记忆有两个主要组成部分:上下文窗口和检索。上下文窗口是模型可以处理和用于指导其输出的文本,除了它被训练的数据语料库之外。检索是指从模型的训练数据语料库之外的数据体中检索和引用相关信息和文档(“上下文数据”)。目前,大多数LLMs的上下文窗口有限,无法原生地检索附加信息,因此生成的输出缺乏个性化。然而,通过更大的上下文窗口和改进的检索,LLMs可以直接提供更加精细的、针对个别用例的输出。

特别是通过扩展上下文窗口,模型将能够处理更大量的文本并更好地保持上下文,包括在对话中保持连贯性。这将进一步显著提高模型在需要更深入理解较长输入的任务中的能力,例如总结长篇文章或在长时间对话中生成连贯且上下文准确的回应。在上下文窗口方面,我们已经看到了显著的改进——GPT-4具有8k和32k标记的上下文窗口,相比之下,GPT-3.5和ChatGPT的上下文窗口分别为4k和16k标记,而Claude最近将其上下文窗口扩展到惊人的100k标记[2]。

仅扩展上下文窗口并不能充分改善内存,因为推理的成本和时间与提示的长度呈准线性甚至二次方关系。[3]检索机制通过与提示相关的上下文数据增强和完善LLM的原始训练语料库。由于LLMs是在一个信息体上进行训练的,并且通常难以更新,检索的两个主要好处是根据Shoham的说法:“首先,它允许您访问在训练时没有的信息源。其次,它使您可以将语言模型聚焦在您认为与任务相关的信息上。”矢量数据库(例如Pinecone)已成为高效检索相关信息的事实标准,并且作为LLMs的内存层,使模型更容易快速准确地搜索和引用海量信息中的正确数据。

增加的上下文窗口和检索将在企业用例中尤为重要,例如导航大型知识库或复杂数据库。公司将能够更好地利用其专有数据,如内部知识、历史客户支持票据或财务结果,作为LLMs的输入,而无需进行微调。改进LLMs的记忆将在培训、报告、内部搜索、数据分析和业务智能以及客户支持等领域带来改进和深度定制的能力。

在消费者领域,改进的上下文窗口和检索将实现强大的个性化功能,从而革新用户体验。Noam Shazeer认为:“其中一个重大突破将是开发出一种具有非常高的内存容量,可以针对每个用户进行定制,同时在规模上仍然具有成本效益的模型。您希望您的治疗师了解您的生活方方面面;您希望您的老师了解您已经掌握的知识;您希望生活教练能够就正在发生的事情向您提供建议。他们都需要上下文。” Aidan Gomez对此发展也表示兴奋。“通过让模型访问与您独特相关的数据,如您的电子邮件、日历或直接消息,”他说,“模型将了解您与不同人的关系以及您如何与朋友或同事交谈,并在这种情况下帮助您最大程度地提供帮助。”

关键突破点:LLMs将能够考虑大量相关信息,并提供更个性化、定制和有用的输出。

“手臂和腿部”:赋予模型使用工具的能力

LLMs的真正威力在于使自然语言成为行动的媒介。LLMs对常见且有详细文档的系统具有复杂的理解能力,但它们无法执行从这些系统中提取的任何信息。例如,OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班,但它们本身无法原生地预订航班(尽管像ChatGPT的插件等技术进展正在推动这一边界)。Amodei表示:“这个大脑在理论上拥有所有这些知识,只是缺少从名称到按钮的映射。”他说:“连接这些电缆并不需要太多的训练。你有一个没有实体的大脑,它知道如何移动,但它还没有连接上手臂和腿部。”

随着时间的推移,我们已经看到公司不断改善LLMs使用工具的能力。像必应和谷歌这样的老牌公司和Perplexity和You.com这样的初创公司推出了搜索API。AI21 Labs推出了Jurassic-X,它通过将模型与一组预定工具(包括计算器、天气API、维基百科API和数据库)结合起来,解决了独立LLMs的许多缺陷。OpenAI推出了ChatGPT的插件测试版,允许ChatGPT与Expedia、OpenTable、Wolfram、Instacart、Speak、网络浏览器和代码解释器等工具进行交互,这一突破被认为类似于苹果的“应用商店”时刻。最近,OpenAI在GPT-3.5和GPT-4中引入了函数调用[4] ,允许开发者将GPT的能力与任何外部工具进行链接。

通过从知识挖掘转向行动导向,增加手臂和腿部的能力有望在各种公司和用户类型之间实现一系列用例。对于消费者而言,LLMs可能很快就能给出菜谱建议,然后为您订购所需的食材,或者建议一个早午餐地点并为您预订餐桌。在企业领域,创始人可以通过接入LLMs使他们的应用程序更易于使用。正如Amodei所指出的:“对于从用户界面角度来说非常难以使用的功能,我们可能只需用自然语言描述即可实现复杂的操作。”例如,对于Salesforce等应用程序,LLM集成应允许用户用自然语言进行更新,并使模型自动进行这些更改,从而大大减少了维护CRM所需的时间。像Cohere[5]和Adept[6]这样的初创公司正在致力于将LLMs集成到这类复杂工具中。

Gomez认为,虽然LLMs能够在2年内使用Excel等应用程序的可能性越来越大,但“仍然需要进行许多细化工作。我们将拥有第一代能够使用工具的模型,这将是引人注目但易碎的。最终,我们将获得梦寐以求的系统,我们可以将任何软件交给模型,并附上一些描述,例如‘这是工具的功能,这是如何使用它的’,它将能够使用它。一旦我们可以为LLMs提供特定和通用的工具,它所带来的自动化将成为我们领域的巅峰之作。”

关键突破点:LLMs将能够与我们今天使用的工具进行更加有效的交互。

多模态

尽管聊天界面对许多用户来说令人兴奋和直观,但人类听和说语言的频率可能与写或读语言的频率相当或更高。正如Amodei所指出的:“AI系统能做的事情是有限的,因为并不是所有的事情都是文本。”具备多模态功能的模型能够无缝地处理和生成多种音频或视觉格式的内容,将这种交互扩展到超越语言的领域。像GPT-4、Character.AI和Meta的ImageBind这样的模型已经能够处理和生成图像、音频和其他模态,但它们在这方面的能力还比较基础,尽管进展迅速。用Gomez的话说,我们的模型在字面上今天是盲的,这一点需要改变。我们构建了很多假设用户能够看到的图形用户界面(GUI)。

随着LLMs不断进化,更好地理解和与多种模态交互,它们将能够使用依赖GUI的现有应用程序,比如浏览器。它们还可以为消费者提供更加引人入胜、连贯和全面的体验,使用户能够超越聊天界面进行互动。Shazeer指出:“多模态模型的许多出色整合可以使事物更具吸引力和与用户更紧密相连。”他还说:“我认为,目前大部分核心智能来自文本,但音频和视频可以使这些事物更有趣。”从与AI导师进行视频聊天到与AI合作迭代和编写电视剧剧本,多模态有潜力改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。

多模态与工具使用密切相关。尽管LLMs最初可能通过API与外部软件进行连接,但多模态将使LLMs能够使用设计给人类使用但没有自定义集成的工具,例如传统的企业资源计划(ERP)系统、桌面应用程序、医疗设备或制造机械。在这方面,我们已经看到了令人兴奋的进展:例如,谷歌的Med-PaLM-2模型可以合成乳腺摄影和X射线图像。而且从长远来看,多模态(特别是与计算机视觉的集成)可以通过机器人、自动驾驶车辆和其他需要与物理世界实时交互的应用程序,将LLMs扩展到我们自己的物理现实中。

关键突破点:多模态模型能够在没有重大定制的情况下推理图像、视频,甚至物理环境。

尽管LLMs存在一些实际限制,但研究人员在短时间内对这些模型进行了惊人的改进。事实上,我们在撰写本文时已经多次更新过它,这证明了该领域技术的快速发展。Gomez也表示同意:“LLM在20次中有1次编造事实显然还是太高了。但我真的非常有信心,这是我们第一次构建这样的系统。人们的期望相当高,所以目标已经从‘计算机很笨,只会做数学’变成了‘一个人可能做得更好’。我们已经足够弥合差距,以至于批评集中在人类能做到什么程度上。”

我们特别对以下4项创新感到兴奋,它们正处于改变创业者构建产品和经营公司方式的临界点。从长远来看,潜力更大。Amodei预测:“在某个时刻,我们可能会拥有一个模型,它能够阅读所有生物数据,并找出治愈癌症的方法。”现实情况是,最好的新应用可能仍然是未知的。在Character.AI,Shazeer让用户开发这些用例:“我们将看到许多新的应用程序解锁。对我来说很难说出这些应用程序是什么。将会有数百万个应用程序,用户比少数工程师更善于发现如何使用技术。”我们迫不及待地期待这些进步将如何影响我们作为创业者和公司在生活和工作中的方式,因为这些新工具和能力赋予了我们新的力量。

免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场
上一篇:长推:写在稀有聪布局前夜,市场已经开始活跃 下一篇:长推:透彻了解MadLadsNFT

您可能感兴趣

  • 解读CKB版 “闪电网络” Fiber Network:比特币可编程性扩展的另一种思路
    解读CKB版 “闪电网络” Fiber Network:比特币可编程性扩展的另一种思路

    作者:NingNing行业周期与宏观金融周期共振,加密行业正处在与 2019 年相似的整体性迷茫之中,现阶段不仅流动性枯竭,叙事貌似也在枯竭。市场不但对 VC 叙事兴趣阙如,对反 VC 的 Meme 叙事也已经疲倦。就像每次哲学危机,人们都会回归柏拉图寻找出路,当加密行业危机时,我们也需要回归比特币、回归中本聪。正如 CKB 生态 RGB++ 协议创始人 Cipher 在最新 Blog 里所阐述的,加密行业需要对以太坊 “链上计算” 的路径依赖进行反思,回归P2P经济学,让计算归于链下,让验证归于链上。因

    每日资讯 2024-09-02 12:06 1309
  • 面对NFL球员工会起诉,“退圈”的DraftKings竟主动承认NFT是证券?
    面对NFL球员工会起诉,“退圈”的DraftKings竟主动承认NFT是证券?

    作者:Zen,PANews近日,美国国家橄榄球联盟球员协会 (NFLPA) 指控数字体育娱乐和游戏公司DraftKings 逃避了其 NFT 球员许可协议的付款义务。在放弃NFT业务后,涉嫌出售未注册证券而遭到集体诉讼的DraftKings又背上了一起官司。而有趣的是,在与NFLPA的纠纷中,DraftKings的立场似乎已从反驳转变为积极承认“NFT就是证券”。放弃NFT业务:驳回集体诉讼的动议遭到否决今年7月底,Draftkings在给用户的电子邮件中表示:“经过慎重考虑,DraftKings 决定终

    每日资讯 2024-09-02 12:06 1415
  • 简析两种最新比特币智能合约实现方案:OP_NET与Arch有何区别?
    简析两种最新比特币智能合约实现方案:OP_NET与Arch有何区别?

    作者:Cookie过去半个月,OP_NET 与 Arch 这两个比特币主网上的智能合约实现方案引发了较多的讨论。有意思的事情是,OP_NET 这个名字与大家熟悉的 OP_CAT 很像,都以「OP_」开头,具有很强的、让大家认为这哥俩差不多的迷惑性。所以,在开篇要和大家先提一嘴 OP_CAT。首先,OP_CAT 是比特币操作码,从去年开始有以「量子猫」Quantum Cats,也就是「大巫师」Taproot Wizards 的创始人 Udi Wertheimer 为首的社区力量一直在呼喊要「复活」OP_CA

    每日资讯 2024-09-02 12:06 1318
  • 争议不断,以太坊正在失去“万链之王”的权威
    争议不断,以太坊正在失去“万链之王”的权威

    作者:Climber,金色财经近期围绕以太坊的话题和争议越来越多,不仅 Vitalik 本人需要下场解释观点,就连以太坊基金会也要发布公告来平息社区的质疑声。在本轮牛市周期中,以太坊的表现可谓平平。而美国以太坊现货 ETF 的通过也并未让 ETH 走势如投资者期待般爆发,相反却在币价方面越走越低。这就不免让有着「万链之王」美誉的以太坊逐渐失去投资者和社区的尊重,进而质疑起有关以太坊的方方面面。争议不断,以太坊亟需重塑权威最近一段时间以来社区成员对 Vitalik 言论观点、以太坊基金会乃至以太坊生态系统的

    每日资讯 2024-09-02 12:06 1017
  • 从《黑神话:悟空》谈起,GameFi何时能取得真经?
    从《黑神话:悟空》谈起,GameFi何时能取得真经?

    作者:YBB Capital Researcher Zeke前言本文是市场垃圾时间中的一些闲聊,需要对传统游戏市场有一定程度了解。大家可以把这篇文章当作日记或者随想观看,这些只是我在游玩《黑神话:悟空》之后对GameFi的一些粗浅思考,以及对这个赛道未来的看法。一、游戏科学的九九八十一难三天全网销量破千万、Steam玩家同时在线峰值破235万、多家品牌联名周边销售爆火、国家级媒体多次采访、多个游戏取景地可凭游戏通关记录终身免费进入、86版《西游记》YouTube观看量超400万。以上,是《黑神话:悟空》上

    每日资讯 2024-09-02 12:06 706
  • Gavin Wood:如何防止女巫攻击进行有效空投?
    Gavin Wood:如何防止女巫攻击进行有效空投?

    演讲:Gavin WoodGavin 近期一直在关注的女巫攻击(civil resistance)的问题,PolkaWorld 回顾了 Gavin Wood 博士在 Polkadot Decoded 2024 上的主题演讲,想要探究 Gavin 在如何防止女巫攻击上的一些见解。什么是女巫攻击?你们可能知道,我一直在研究一些项目,我在编写灰皮书,专注于 JAM 项目,也在这个方向上做了一些代码的工作。实际上,在过去的两年时间里,我一直在思考一个非常关键的问题,这个问题在这个领域中非常重要,那就是如何防止女巫

    每日资讯 2024-09-02 12:06 1264
  • 市场热议,链抽象将成加密新叙事?
    市场热议,链抽象将成加密新叙事?

    2024年,加密货币领域的技术创新持续加速,链抽象(Chain Abstraction)逐渐成为行业内的焦点。链抽象技术的核心在于通过隐藏底层技术的复杂性,让用户能够更加便捷地在多个区块链之间进行操作。传统的区块链技术通常要求用户掌握不同链的操作流程,并需要应对跨链操作中的技术难题,这极大地吸引了新用户的进入。而链抽象的出现,则为这些问题提供了有效的解决方案,成为Web3建设不可忽视的重要一环。01、什么是链抽象及其作用链抽象能够将不同的区块链之间的差异整合在一个统一的操作界面中,使得用户只需一个账户即可

    每日资讯 2024-09-02 12:05 555
  • 今日日报|马斯克和特斯拉赢得“被指控操纵狗狗币”的诉讼;稳定币支付平台Bridge完成5800万美元融资
    今日日报|马斯克和特斯拉赢得“被指控操纵狗狗币”的诉讼;稳定币支付平台Bridge完成5800万美元融资

    今日要闻提示:马斯克和特斯拉赢得驳回指控他们操纵狗狗币的诉讼OpenAI和Anthropic已同意将其主要新AI模型在发布前共享给美国政府OKX将上线Hamster Kombat(HMSTR)现货交易X平台纽约总部将于9月13日关闭,预计将迁往得州萨尔瓦多总统布克尔成为《时代》杂志最新一期封面人物稳定币支付公司Bridge完成5800万美元融资数据:MATIC、SHIB、UNI代币头部地址持仓均超50%网龙今年上半年通过出售2.9亿元的加密货币,获利5100万元人民币监管消息美国众议院计划在9月举行多场加

    每日资讯 2024-09-02 12:05 1057