此次 Yi 系列基础模型的首个公开版本包括两款:Yi-6B(数据参数量为60亿)、Yi-34B(340亿),均是双语(英文/中文)、支持开源。其中,Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-180B等大尺寸开源模型,以及百川智能(王小川创立)的Baichuan2-13B。
创新工场董事长兼CEO、零一万物CEO李开复表示,“零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就一直抱着成为‘World's No.1’的初衷和决心。我们组成了一支有潜力对标 OpenAI、Google等一线大厂的团队,经历了近半年的厚积薄发,以稳定的节奏和全球齐平的研究工程能力,交出了第一张极具全球竞争力的耀眼成绩单。Yi-34B可以说不负众望,一鸣惊人。”
“随着团队到位,今年6、7月份开始写第一行代码,短短四个月做了非常自豪的产品。我们是‘不鸣则已,一鸣惊人’。所以‘一鸣惊人’之后,如果我们过半年甚至过一年回头看,今天对我们来说只是刚刚开始,我们还会不断的去开发、推动、宣布更多令人惊艳的成果。”李开复表示。
钛媒体App还了解到,后续,Yi系列也将推出专长代码和数学的训练模型。此外,目前零一万物已惊启动100B(1000亿)参数的训练,有望近几个月内发布,未来还有望推出基于 AI 2.0 的超级应用等技术产品。
据悉,早在今年3月19日,李开复发文宣布入局 AI 大模型领域,亲自筹办新Project AI 2.0公司,称是一个致力于打造AI 2.0 全新平台与AI-first生产力应用的全球化公司。“这是一家由技术愿景驱动、拥有卓越中国工程底蕴的创新企业,在全球范围号召世界级人才加入。”他表示。
随后在7月初,李开复创办;额最新 AI 大模型创业公司“零一万物”,同时这也是创新工场“塔尖孵化”的第7家公司,总部位于北京,零一万物由李开复博士亲自挂帅、任CEO。该公司主要围绕精进模型、预训练框架技术等七个方向进行研究,致力打造全新的 AI 2.0,理念就是AI-first,驱动力是技术愿景,技术专家拥有多家中外科技大厂、博士学位等背景。
李开复当时表示,零一即01,代表的是数字世界,从零到一,乃至宇宙万物,寓意 “零一智能,万物赋能” 的雄心,并称这是李开复“撸起袖子”亲自带队,“塔尖孵化”了一家AI 2.0公司,历经了三个月的筹办期。零一万物称,其认为 AI 应当以人为本,Human(人类)+ AI 将合作创造巨大的经济价值及社会价值。
此前在2023年中关村论坛上,李开复就对钛媒体App等表示,以GPT-4等大模型为代表的生成式 AI 热度在全球蔓延,意味着AI 2.0时代已经到来,它将带来比移动互联网时代大十倍的机会,穿透各行各业极大地提振生产力。“我们预测,全新的 AI 2.0平台将能有效帮助提升人类生产力,创造巨大的经济价值及社会价值。”
“大模型的技术门槛很高,非常需要整合一个兼具科研能力和开发实力的高效团队,制定贯彻公司的技术和产品战略,从上到下一致执行。”李开复认为,零一万物将专注打造AI 2.0时代的平台及生产力应用生态,创新工场愿景是把零一万物打造为一家向全球展现其研发及工程能力的世界级公司。
团队方面,此次零一万物公布了零一万物技术副总裁及AIInfra负责人戴宗宏,零一万物技术副总裁及Pretrained负责人黄文灏两位专家。其中,公开信息显示,戴宗宏曾任职于阿里、华为,担任华为云 AI 领域CTO;黄文灏则毕业于北京大学博士学位,曾在微软研究院担任高级研究员,并曾任职于北京智源 AI 研究院。
据介绍,此次发布的60亿、340亿参数量的Yi-6B、Yi-34B,两者都以4K序列长度进行训练,并且在推理期间可以扩展到32K(3.2万)量级,且支持开源,模型对学术研究完全开放,同步开放免费商用申请。
同时,开源Yi系列大型模型还有两个主要特点:一用更少的参数击败了具有上百亿参数的模型;二支持全球最长的上下文窗口,可达40万字符。
超长上下文窗口是体现大模型实力的一个重要维度,拥有更长的上下文窗口则能处理更丰富的知识库信息,生成更连贯、准确的文本,也能支持大模型更好处理文档摘要/问答等任务。要知道,目前大模型的诸多垂直行业应用中(如金融、法律、财务等),文档处理能力是刚需。如GPT-4可支持32K、约2.5万汉字,Claude 2可支持100K、约20万字。
而Yi-34B还将大模型上下文窗口长度刷新到了200K,可处理约40万汉字超长文本输入。这相当于能一次处理两本《三体》小说、理解超过1000页的PDF文档等场景。所以,零一万物不仅刷新了业界纪录,同时也成为首家将超长上下文窗口在开源社区开放的大模型公司。
在Hugging Face开放单预训练模型排名中,Yi-34B以70.72分的成绩全球排名第一,超越了参数量是其两倍的LLaMA-70B和五倍的Falcon-180B。它不仅以较小的参数量登顶榜单,而且实现了跨数量级的逆袭,用百亿级别的参数量击败了千亿级别的大模型。特别是在MMLU(大规模多任务语言理解)和TruthfulQA(真实性基准测试)两个指标上,Yi-34B都大幅领先于其他大模型。
目前,Yi系列模型已在 Hugging Face、ModelScope、GitHub 三大全球开源社区平台正式上线,同时开放商用申请,给开发者在使用LLM的过程中提供更多、更优质的选择。
而Yi-6B、Yi-34B的主要区分点在于,Yi-6B适合个人及研究用途,Yi-34B已经具备大模型涌现能力,适合发挥于多元场景,满足开源社区的刚性需求。
在交流中,谈及算力,李开复表示,零一万物很早就意识到了GPU(图形处理器)芯片的重要性,已经租赁了大量算力,而且与国内很多云厂商、GPU云等方向上合作。
谈及大模型商业化话题时,李开复表示,他认为此前 AI 1.0商业化做的并不好,只是有博士、论文等,而资本市场最终要看企业能不能赚钱、收入是否能持续化。如今 AI 2.0时代,有更多的商业机会,一方面企业一定要AIl in AI、能够实现快速收入、产生好的利润,另一方面也要做对标微信、美团的超级App,才能推动大模型的商业化发展。
李开复曾公开表示,以基座大模型为突破的AI 2.0时代,将掀起技术、平台到应用多个层面的革命。如同Windows带动了PC普及,Android催生了移动互联网的生态,AI2.0将诞生比移动互联网大十倍的平台机会,将把既有的软件、使用界面和应用重写一次,也将诞生新一批AI-first的应用,并催生由AI主导的商业模式。
李开复还在今天透露,在完成 Yi-34B 预训练的同时,目前,零一万物已经启动下一个千亿参数模型的训练。
“零一万物的数据处理管线、算法研究、实验平台、GPU资源和 AI Infra 都已经准备好,我们的动作会越来越快”。李开复表示,零一万物希望有更多的开发者使用Yi系列模型,打造自己场景中的“ChatGPT”,引领下一代前沿创新和商业模型,探索走向通用 AI 时代。