开源标杆！最强中英双语大模型来了340亿参数超越Llama2-70B等所有开源模

时间:2023-10-14 来源：原创/投稿/转载作者：管理员点击:

　　早在2021年就把全球最大语料库公开，2022年最早前瞻布局FlagOpen大模型技术开源体系，连续推出了FlagEval评测体系、COIG数据集、BGE向量模型等全技术栈明星项目。

　　据了解，Aquila2-34B 基座模型在22个评测基准的综合排名领先，包括语言、理解、推理、代码、考试等多个评测维度。

　　正如我们刚才提到的Aquila2-34B，它是此次以“最强开源”姿势打开的基座模型之一，还包括一个较小体量的Aquila2-7B。

　　AquilaChat2-34B:是当前最强开源中英双语对话模型，在主观+客观综合评测中全面领先 ;

　　对于生成式对话模型，智源团队认为需要严格按照“模型在问题输入下自由生成的答案”进行评判，这种方式贴近用户真实使用场景，因此参考斯坦福大学HELM[1]工作进行评测，该评测对于模型的上下文学习和指令跟随能力要求更为严格。实际评测过程中，部分对话模型回答不符合指令要求，可能会出现“0”分的情况。

　　例如:根据指令要求，正确答案为“A”，如果模型生成为“B”或“答案是 A ”，都会被判为“0”分。

　　同时，业内也有其他评测方式，比如让对话模型先拼接“问题+答案”，模型计算各个拼接文本的概率后，验证概率最高的答案与正确答案是否一致，评测过程中对话模型不会生成任何内容而是计算选项概率。这种评测方式与真实对话场景偏差较大，因此在生成式对话模型评测中没有采纳。

　　不仅如此，在对于大语言模型来说非常关键的推理能力上，AquilaChat2-34B的表现也非常的惊艳——

　　对于大语言模型来说，能否应对长文本输入，并且在多轮对话过程中保持上下文的流畅度，是决定其体验好坏的关键。

　　为了解决这一“苦大模型久矣”的问题，北京智源人工智能研究院便在20万条优质长文本对话数据集上做了SFT，一举将模型的有效上下文窗口长度扩展至16K。

　　例如在LongBench的四项中英文长文本问答、长文本总结任务的评测效果上，就非常的明显了——

　　除此之外，智源团队对多个语言模型处理超长文本的注意力分布做了可视化分析，发现所有的语言模型均存在固定的相对位置瓶颈，显着小于上下文窗口长度。

　　为此，智源团队创新提出NLPE（Non-Linearized Position Embedding，非线性位置编码）方法，在 RoPE 方法的基础上，通过调整相对位置编码、约束最大相对长度来提升模型外延能力。

　　在代码、中英文Few-Shot Leaning、电子书等多个领域上的文本续写实验显示，NLPE可以将4K的Aquila2-34B模型外延到32K长度，且续写文本的连贯性远好于Dynamic-NTK、位置插值等方法。

　　智源研究院与北京大学团队便基于此，提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法—— Plan4MC。

　　Plan4MC可以使用内在奖励的强化学习训练智能体的基本技能，使得智能体可以利用大语言模型AquilaChat2的推理能力进行任务规划。

　　例如在下面的这段视频中，便展示了智能体利用AquilaChat2进行自动完成多轮对话交互的效果。

　　将游戏“当前环境状态”、“需要完成的任务”等信息输入AquilaChat2模型，AquilaChat2反馈给角色“下一步使用什么技能”等决策信息，最终完成了在《我的世界》中设定的任务“伐木并制作工作台放在附近”的任务。

　　向量数据库近年来在大模型圈里成为了香饽饽，但在面对复杂、需要深度理解问题时，能力上还是略显捉襟见肘。

　　为此，智源研究院便将Aqiula2和自研的开源语义向量模型BGE2做了结合，彻底解锁了一些仅基于传统向量库的检索方法不能解决的复杂检索任务。

　　例如在下面的这个例子中，我们可以明显看到，在处理“检索某个作者关于某个主题的论文”、“针对一个主题的多篇论文的生成总结文本”这样的任务，会变得非常丝滑。

　　在实际应用场景中，用户还可以基于AquilaSQL进行二次开发，将其嫁接至本地知识库、生成本地查询 SQL，或进一步提升模型的数据分析性能，让模型不仅返回查询结果，更能进一步生成分析结论、图表等。

　　从包含汽车销量（car_sales）、汽车颜色(car_color)的两个数据表中筛选销量大于100并且颜色为红色的汽车。

　　在经过SQL语料的继续预训练和SFT 两阶段训练，最终以67.3%准确率超过“文本-SQL语言生成模型”排行榜 Cspider 上的SOTA模型。

　　这一次在大模型升级之际，智源研究院同样是毫无保留地把一系列包括算法、数据、工具、评测方面的明星项目都开源了出来。

　　据了解，Aquila2系列模型不仅全面采用商用许可协议，允许公众广泛应用于学术研究和商业应用。

　　FlagScale 是 Aquila2-34B 使用的高效并行训练框架，可以提供一站式语言大模型的训练功能。

　　智源团队将 Aquila2模型的训练配置、优化方案和超参数通过 FlagScale 项目分享给大模型开发者，在国内首次完整开源训练代码和超参数。

　　FlagScale 基于 Megatron-LM 扩展而来，提供了一系列功能增强，包括分布式优化器状态重切分、精确定位训练问题数据以及参数到Huggingface转换等。

　　据了解，FlagScale在未来还将继续保持与上游项目 Megatron-LM最新代码同步，引入更多定制功能，融合最新的分布式训练与推理技术以及主流大模型、支持异构AI硬件，力图构建一个通用、便捷、高效的分布式大模型训练推理框架，满足不同规模和需求的模型训练任务。

　　通用性:对使用分段式计算 Attention 的模型具有通用性，可以轻松迁移至 Aquila 之外的大语言模型。

　　扩展性:同样得益于 Triton 语言，FlagAttention 算法本身的修改和扩展门槛较低，开发者可便捷地在此之上拓展更多新功能。

　　未来，FlagAttention项目将继续针对大模型研究需求，支持其他功能扩展的 Attention 算子，进一步优化算子性能，并适配更多异构AI硬件。

　　BGE2中的 BGE - LLM Embedder 模型集成了“知识检索”、“记忆检索”、“示例检索”、“工具检索”四大能力。

　　结合具体的使用场景，BGE - LLM Embedder将显着提升大语言模型在处理知识密集型任务、长期记忆、指令跟随、工具使用等重要领域的表现。

　　智源研究院会在10月28日至29日举办新一期大模型前沿技术讲习班，9位主力研究员会详细介绍 FlagOpen 的近期进展和落地实践。

　　腾讯云618狂欢节特惠来袭！现在购买3年轻量云服务器，配置2核2G4M，只需396元！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　国产新标杆:免费可商用的200亿参数大模型，来了!书生·浦语大模型20B版本正式发布，一举刷新国内新一代大模型开源纪录。它由上海人工智能实验室与商汤科技联合香港中文大学和复旦大学共同推出。正如林达华所说:这或许才是当下大模型趋势里，大家最应该“卷”的方向。

　　智源研究院发布了最强开源中英双语大模型——悟道?天鹰340亿。这个新模型在推理、泛化等方面表现出色，在智能体、代码生成、文献检索等场景方面取得了一系列成绩。智源研究院还发布了FlagScale高效并行训练框架和FlagAttention高性能Attention算子集，进一步推动大模型研究的发展。

　　【新智元导读】国产模型开源纪录，又被刷新了!上海AI实验室等机构开源的InternLM-20B，竟然能和Llama2-70B打个平手?就在刚刚，国内开源模型参数量纪录，又被刷新了!9月20日，上海人工智能实验室与商汤科技联合香港中文大学和复旦大学，正式开源了200亿参数的InternLM-20B模型。项目地址:魔搭社区:这次的200亿参数版书生·浦语大模型，可以说是「加量不加价」，参数量还不到三分之一，性能却可以剑挑当今开源模型的标杆——Llama2-70B。上海AI实验室的「雪中送炭」，必然会让大模型在落地领域发挥出巨大的价值。

　　图源备注：图片由AI生成，图片授权服务商Midjourney回想两个月前，LLaMA2的开源，曾以一己之力改变了大模型领域的竞争格局。相比于今年2月推出的第一代LLaMA，LLaMA2在推理、编码、精通性和知识测试等任务中都实现了性能的大幅提升，甚至可以在某些数据集上接近GPT-3.5。如何让大模型的能力与业务场景更好结合，同样是当下每一家大模型提供商的重点课题，也需要科技公司、学术机构和开发者共同创造。

　　最强中文版LLaMA-2来了!15小时训练，仅需数千元算力，性能碾压同级中文汉化模型，开源可商用。LLaMA-2相较于LLaMA-1，引入了更多且高质量的语料，实现了显着的性能提升，全面允许商用，进一步激发了开源社区的繁荣，拓展了大型模型的应用想象空间。ColossalAI云平台现已开启公测，注册即可获得代金券，欢迎参与并提出反馈。

　　从头预训练大模型被认为需要高达5000万美元的投资，这让很多开发者和中小企业望却步。Colossal-LLaMA-2的出现降低了大模型的门槛。该方案业已应用到多个行业领域，构建垂类大模型并取得良好效果。

　　元象宣布开源70亿参数通用大模型XVERSE-7B底座与对话版，这是一款全开源、免费可商用的模型。相比之前的XVERSE-13B，7B版本更小巧，可以在单张消费级显卡上运行，并且推理量化后最低只需6GB显存，大大降低了开发门槛和推理成本。●XVERSE-7B-Chat是底座模型经SFT指令精调后的中英文对话模型，大幅提升了理解和生成内容的准确度，也更符合人类的认知偏好。

　　蚂蚁集团代码大模型CodeFuse-CodeLlama-34B4bits量化版本发布。CodeFuse-CodeLlama-34B-4bits是CodeFuse-CodeLlama-34B模型的4bits量化版本，后者是通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调得到的代码大模型，模型输入长度为4K。CodeFuse是蚂蚁自研的代码生成专属大模型，根据开发者的输入提供智能建议和实时支持，帮助开发者自动生成代码、自动增加注释，自动生成测试用例，修复和优化代码等，以提升研发效率。

　　数学通才「猛犸」模型给开源语言模型带来了「推理春天」，面对GPT-4都有一战之力!数学推理问题是语言模型绕不过的痛点，在各种黑科技的加持下，开源模型的推理性能依然不够看。滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct.论文链接:

　　昆仑万维表示，其自研的天工大模型在BenchmarkGSM8K测试中取得了80%的正确率，超过了GPT-3.5和LLaMA2-70B，达到了全球领先水平，接近于GPT-4。天工大模型还在MMLU、C-EVAL、HumanEval等多个数据集上表现出色，准确率均高于其他主流大模型。天工大模型目前仍处于内测阶段，将持续提升技术实力，为用户和企业提供强大的智能化助力。

　　BibiGPT · AI 音视频助理是一款智能插件，支持B站、油管、小红书、抖音、推特、小宇宙、苹果播客、谷歌播客、本地视频、本地音频、微信公众号等任意网页链接。通过输入链接，即可获得AI一键总结、思维导图、字幕列表、AI改写图文、AI对话追问、热门视频总结等功能。帮助用户快速获取音视频内容的核心信息。

　　Intelligence Crop是一款先进的工具，利用最先进的人工智能技术来革新社交媒体图片的裁剪方式。通过强大的AI算法，Intelligence Crop自动识别图像中的物体，并精确裁剪以适应流行社交媒体平台的特定要求。

　　OnlyNSFW.ai是顶级的NSFW图像AI，无需任何限制。我们提供真人和动漫形象。立即体验最佳服务。

　　WxAI Draw是一款专业的绘图软件，配备强大的AI引擎，提供用户一系列创新功能。利用先进的AI内容生成技术，WxAI Draw可以创建各种图像，包括基于文本的艺术和基于图像的艺术。无论您是想要墨风、丰富多彩的动漫、逼真的风格还是二维作品，WxAI Draw都能满足您多样化的需求。主要功能： - 文本转艺术：利用智能算法将文本转化为艺术风格的图像，快速创建。 - 图像转图像：使用先进的AI技术，重新组合和合并图像，创造全新的创意图像。 - 图像处理：使用AI技术对图像进行操作和转换，赋予您的作品独特的视觉效果。 - 无损图像放大：使用先进的放大算法，放大图像而不损失质量或细节。 - 图像局部重绘：利用AI技术对图像进行局部重绘，修复损坏的区域或添加细节。 - 对象去除：智能识别并自动移除图像中的不需要的元素，简化编辑过程。 - 内置提示生成器：生成创意提示，启发您的艺术创作之旅。 - 高级AI图像生成参数：提供丰富的参数集，精确控制图像生成过程。使用场景： - 创意艺术创作 - 广告设计 - 社交媒体图片制作 - 新媒体运营价格：免费定位：WxAI Draw旨在为用户提供一款先进、高质量的图像生成工具，满足各种创意和设计需求。

　　这个插件可以将ChatGPT聊天导出为PDF文件，支持离线查看，还可以创建文件夹以便分类存储相关聊天记录。适用于经常使用ChatGPT的学生，帮助他们跟踪聊天记录，例如，可以将所有与数学相关的聊天存储在数学文件夹中。导出的PDF文件支持表格和代码片段。

　　AI 专业头像是一款通过上传照片生成高清头像的服务。用户可以上传自己的照片，然后获取适合用于商业档案、简历、社交媒体等用途的精美头像。AI 专业头像提供个人、月度订阅和团队三种定价选项，让用户以较低的价格获得专业的头像服务。

　　AI 音乐生成器是一款通过人工智能技术创作个性化音乐的工具。它可以根据用户的输入生成多种风格的音乐作品，帮助音乐创作者快速产出创作灵感。AI 音乐生成器的优势在于创作速度快、音乐风格多样，并且能够根据用户的反馈不断优化生成的音乐作品。该产品的定价为每月 29 美元，适用于音乐创作者、制作人和音乐爱好者。

　　人工智能动图是一款通过使用 AI 技术生成 GIF 动图的产品。它可以根据用户提供的源文本语言参数，自动生成相应的 GIF 动图。产品具有简单易用、高效快速的特点，用户只需提供文本即可生成想要的动图。人工智能动图广泛适用于社交媒体、博客、营销推广等领域。

　　SiteExplainer 是一个旨在简化和概述复杂的落地页和公司用语的网站。它使用 AI 技术快速而准确地解释网站的内容，并以可读和简单的格式呈现。

　　ChartAI是一款智能图表生成工具，可以快速生成多种类型的图表，包括状态图、实体关系图、用户旅程图、需求图、时间线、甘特图、思维导图、提交流程图、序列图、流程图和饼图等。用户只需输入数据，即可自动生成图表，大大提高了工作效率。ChartAI还提供多种样式和颜色选择，用户可以根据自己的需求进行定制。定价方面，ChartAI提供免费试用和付费套餐，付费套餐根据使用次数收费。

　　Neiro.ai是一个无需编程就可以利用生成式AI制作视频的SaaS平台。它支持140多种语言和10多种语音,提供无限的可能性。用户可以快速制作定制化的视频,与客户建立更深层次的联系。该平台集成了最先进的AI技术,如语音合成、语音转换、面部替换等,可以大幅降低视频制作成本和时间,提高营销转化率。通过Neiro AI Studio和Canva，您可以轻松地创作独特的AI视频内容。从文本转语音到视频生成，再到个性化头像和自定义背景，这些步骤将帮助您创作引人入胜的内容，为您的创意增添更多可能性。

　　NeuralCam是一个基于人工智能的智能相机应用。它使用神经网络对摄像头拍摄的照片和视频进行实时图像增强,实现低光照拍摄、去除图像噪点、美颜保留纹理等功能。产品采用免费试用模式,提供高级版订阅服务。定位日常拍照工具,为用户提供简单、智能的拍照体验。

　　DeepReview是一款AI驱动的灵感助手，可以帮助用户在几分钟内撰写出引人注目的简历、求职信、绩效评估等。用户可以上传现有的PDF或DOCX文件，DeepReview会对其进行分析并提出改进建议。此外，DeepReview还提供了从头开始创建简历、求职信、推荐信、辞职信等的功能。用户可以使用DeepReview自动生成有意义的绩效评估，也可以使用其帮助自己、同事或经理撰写推荐信。DeepReview还提供了其他功能，例如帮助用户处理薪酬和晋升问题。用户可以订阅DeepReview以获取更新。

　　Solan AI是一个人工智能写作和创意助手产品。它可以为用户自动生成各种创意文案,包括标题、简介、文章、广告语等,大大提升写作效率。它具有自定义语言模型、支持多种创作场景、实时交互式写作等功能。Solan AI通过人工智能算法学习用户风格,输出个性化高质量内容。它可以让任何人快速进行高效的创意写作。

　　Outboundly是一款基于人工智能的Chrome扩展，可以根据潜在客户的网站、博客文章、社交媒体资料等信息，快速生成高度个性化的电子邮件和LinkedIn信息，帮助用户提高6倍的回复率。Outboundly还提供多种定价方案，包括免费试用、起步版、单人版和商业版，用户可以根据自己的需求选择合适的方案。

　　Signway为您的OpenAI应用提供预签名URL功能,无需服务器即可实现数据流。Signway通过预签名请求,用户可以直接从终端设备接收流式响应,无需服务器处理数据流,仅需创建预签名URL。免费版提供每秒10请求、每个请求1Mb数据传输、1个应用。付费按使用计费。

　　Kl?m-ai是一个基于人工智能及计算机视觉技术的数字智能衣橱助手。它可以自动识别和归类您的衣物,提供衣橱管理、搭配推荐、购买建议等功能,助您打造完美高效的数智慧型衣橱。相比传统纸质衣橱,它更智能、便捷、有效地帮助您节省时间、发掘潜力。无论您是追求时尚的都市男女,还是需要整理衣橱的家庭主妇,Kl?m-ai都将成为您的好帮手。

　　Essai是一款基于AI技术的无代码网站建设平台，用户只需提供网站描述，即可在几分钟内生成整个网站，支持AI辅助内容和设计，秒速生成整个网站模块，支持对元素进行对话式UI编辑。Essai的定价灵活，适用于任何技能水平的用户，是创建网站的最简单入门点。

　　Short Circuit是一款在iPhone、iPad和Mac上使用ChatGPT的首选应用。该应用可以让你在任何时间任何地点获得 ChatGPT和GPT-4的高级体验。Short Circuit拥有丰富的个性,可以与法国导游、数学家教师等不同人格进行对话。你可以通过Siri或快捷指令使用Short Circuit。该应用还内置了事实核查功能,确保ChatGPT的回答准确可靠。此外,Short Circuit非常注重隐私,不会将你的问题和回答用于训练OpenAI模型。

　　InstaWaifu.ai是一款AI生成个性化二次元女孩的网站，用户可以轻松生成定制的无码女孩，探索新的艺术视野，满足创意渴望。无限的AI女孩只需一键即可生成，我们的人工智能生成器可以将您的幻想变为现实！AI生成的数字艺术在幻想艺术方面没有任何限制：角色插图、创意图像、魔法角色、定制超级英雄、美丽的幻想女孩和独特的虚构肖像。用户可以选择不同的会员等级，享受不同的服务，从12.99美元/月起。用户可以随时取消订阅，享受无限存储空间。用户可以选择8种不同的基础风格，包括原始风格、逼真风格、逼真强烈风格、动漫风格、卡通风格、霓虹风格、彩虹风格和迷幻风格。用户可以使用创意助手，创建自己的完美女孩。

【责任编辑：管理员】

上一篇：第十三个国际反腐败日：联手反腐败中国在行动下一篇：晚点独家｜B站再提用户增长目标：移动端日活翻倍

随机推荐更多>>