每经记者 王紫薇 每经编辑 刘雪梅
基础模型搭建了之后,企业对生成式AI的建设关键来到数据层面。
近日,在亚马逊云科技“无数据不模型――生成式AI时代的数据基座”媒体沟通会上,亚马逊云科技大中华区产品部总经理陈晓建强调了数据在生成式AI时代的关键作用。他表示,数据在生成式AI时代处于核心地位,企业要想在生成式AI时代取得成功,必须从数据做起,利用自身的数据构建具有商业价值的AI应用。
陈晓建认为,企业需要构建以下3个方面的数据能力:模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力、有效处理新数据以助推生成式AI应用持续快速发展的能力,在被问及AIGC时代,亚马逊云科技在人工智能推理成本和训练成本上是否不像在原本的商业模式上有优势时,亚马逊云科技方面表示,还是看重客户最终要的是什么。言下之意,亚马逊云科技希望无论AIGC时代的服务成本怎么变动,自身的商业模式仍是以提供云基础设施、模型层、应用层的工具与服务为主。
数据处理为何重要
大量的、高质量的数据对生成式AI的重要性已经不言而喻。
亚马逊云科技方面此次表示,如果每个公司都能访问相同的基础模型,那么各个公司处于同一起跑线;而能够利用自身的数据构建具有真正商业价值的生成式AI应用的公司,就赢在了起跑线上。
可以说,生成式AI基础模型的局限性之一,在于无法及时拥有企业的专有数据。如果想让模型服务于企业发展,那么通过技术手段加速数据与模型的结合,就成了企业数据基座的关键之一。
陈晓建进一步表示,成功的企业需要懂业务、懂用户的生成式AI应用,而这些应用的构建需要从数据做起。他举了位于美国的人工智能初创公司Perplexity的例子,其通过将传统搜索、客户数据与大型语言模型相结合,实现了快速增长。
也是因此,这家公司是人工智能领域的“红人”。据悉,Perplexity正进行至少2.5亿美元的新一轮融资,估值可能达到25亿至30亿美元。而这家公司在过去四个月中刚刚进行了两笔大额融资,并且估值实现了飞跃:今年1月,Perplexity以5.4亿美元的估值筹集了近7400万美元;3月初,Perplexity以10亿美元的估值融资约6300万美元。
目前来说,用企业自身的数据去差异化生成式AI应用、通过数据定制基础模型的方式主要分为三大类:检索增强生成(RAG)、微调、持续预训练。这三种方式在不同应用场景中的适用性和对数据的要求不同。
亚马逊云科技的对策
亚马逊云科技强调了自身在数据基座构建方面的三大核心能力:模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力。
在数据存储方面,亚马逊云科技提供的Amazon S3服务可以满足用户在微调和预训练基础模型时对数据存储的严格要求。同时,文件存储服务的亚毫秒级延迟和高吞吐性能,将进一步加快模型优化速度。
数据清洗和治理方面,亚马逊云科技通过 Amazon EMR Serverless和Amazon Glue等服务,帮助企业高效完成数据清理、去重和分词等操作,使企业能够专注于AI业务创新。
此外,亚马逊云科技还着重强调了其在向量搜索和无服务器架构方面的创新。其中,检索增强生成(RAG)技术被普遍认为是实现数据与模型结合的主要途径之一。RAG通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。
向量搜索与数据存储的结合可以带来多方面的好处,包括更高效和更精确的检索能力、处理和索引大规模的数据等。目前来说,结合向量搜索和数据存储的优势,可以构建出强大的信息检索系统,满足现代应用对于速度、准确性、可靠性和智能化的需求。
但这同时也带来一部分成本问题,比如需要更多的存储空间。对此,陈晓建告诉《每日经济新闻》记者,存储上确实会让成本有所增加,但能够在整个数据内容检索时取得更好的效果。
亚马逊云科技同时表示,自身已在8种数据存储中添加了向量搜索功能。客户还可以通过Amazon Memory DB内存数据库,降低生成式AI应用的模型调用成本和响应延迟。从亚马逊云科技对生成式AI时代数据基座的看重,可以看到数据处理的重要性以及企业在这一领域面临的挑战与机遇。对于亚马逊云科技来说,为AIGC时代的企业提供更全面的服务也是机遇与挑战并存。
- 随机文章
- 热门文章
- 热评文章
- PPP新机制重磅文件出炉 直指民企“入场难”
- 指数同步回升折射经济复苏暖意
- 苹果探索混合AI模型算法,为你制定更个性化、更有效的健身方案
- “便民办税春风行动”再起航 三方面发力吹暖经营主体
- 山东省计划明年底前再建成开通7万个5G基站,总量突破27万个
- 讲座|虚构时代的事实
- 【开箱】欧米茄白色盘面超霸月球表!
- 美债收益率攀升、鲍威尔转变态度!黄金迎来新一轮挑战还是机会?
- 台州人家门口可以做什么?15分钟,1200多个“圈”
- EBC GROUP平台外汇行情播报|伊朗和委内瑞拉被点名 新制裁推升油价
- 微软CEO的精明策略:打赢AI战不能全靠OpenAI
- 共享基经丨读懂主题ETF(二十四):黄金、黄金股都在涨,以黄金、稀有金属为主题的ETF,还有机会吗?
- 美国休斯敦警察工会警告城市不安全:大量嫌犯正在街上徘徊
- 1“赛事+”提升城市“流量” 陕西商洛拓经济发展新“赛道”
- 2“五一”临近 持基过节的投资者要注意这几点
- 3华发股份:成功入选“人民优选”品牌 五一黄金周热销30亿
- 4非常危险!女子摔成粉碎性骨折!又是因为洞洞鞋,夏天多人中招……
- 5钟鼓楼老街区的古都新事
- 6金税四期试点上线,财税体制改革拉开帷幕!或有资金借道信创ETF基金(562030)逢跌进场布局
- 7到2027年产业规模达到2000亿元 浙江发布历史经典产业高质量发展计划
- 8初步数据:我国一季度经常账户顺差392亿美元
- 9“发现山西之美”TDC旅游发现者大会举办:共话文旅新生态 邀客体验新玩法
- 10IDC:24Q1全球PC出货量恢复增长 达到疫情前水平
- 11(中国新貌)“国宝”大熊猫:栖居更美境 云游更广天
- 12瑞众保险副总裁俞德本出任公司临时负责人
- 13培养工程领域专业人才 非洲首所交通大学在尼日利亚投入使用
- 1大裁员下,特斯拉两名顶级高管离职
- 2奇瑞将与欧洲高端品牌签署技术平台授权协议
- 32024中国长三角青年企业家交流大会在杭州举办
- 4雷克萨斯GX中东版 全部在售 2023款 2022款 2020款 2019款 2018款成都远卓名车雷克萨斯GX中东版团购钜惠20万 欢迎上门试驾
- 5零跑C16将搭载中创新航磷酸铁锂电池
- 6Q1净利微增7%,宁德时代股东总数较2023年年末减少10728户
- 7哪吒,需要背水一战
- 8“新”中有“机”!创新服务承接新流量 撬动消费升级
- 9非创始版SU7何时交付 小米:工厂生产爬坡 全力提高产能
- 10央媒评卧铺挂帘:谁买的票谁做主
- 11江西南昌首部“多规合一”国土空间总体规划获批
- 12方程豹旗舰硬派越野!豹8正式亮相:仰望U8“青春版”登场
- 13583家族/造型霸气 方程豹豹8量产版发布