PP动态

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法

发布时间：2023-10-08 00:42人气：

　　PP电子游戏麻省理工学院和香港中文大学联合发布了LongLoRA，这是一种全新的微调方法，可以增强大语言模型的上下文能力，而无需消耗大量算力资源。

　　通常，想增加大语言模型的上下文处理能力，需要更多的算力支持。例如，将上下文长度从2048扩展至8192，需要多消耗16倍算力。

　　LongLoRA在开源模型LLaMA27B/13B/70B上进行了试验，将上下文原始长度扩展至32K、64K、100K，所需要的算力资源却很少。

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法(图1)

　　根据LongLoRA的论文介绍，采用了两大步骤完成了高效微调。第一，在训练期间使用一种更简单的注意力形式（聚焦于特定信息），开发者称之为转变短注意力(S2-Attn)。

　　这种新的注意力方法有助于节省大量的计算能力，而且几乎与常规的注意力方法一样有效，在训练过程中发挥了重要作用。

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法(图2)

　　第二，重新挖掘了一种有效扩大上下文（用于训练的信息量）的方法。开发人员发现，一种名为LoRA的方法对此非常有效，尤其是当与可训练的嵌入和规范化一起使用时。

　　LongLoRA在各种任务上都显示出了优异的结果，可以与不同大小的LLMs一起使用。它可以将用于训练的数据量从4k增加到100k，对于另一个模型，可以增加到32k，所有这些都在一台强大的计算机机器上完成。此外，它与其他现有技术兼容性很强，并不会改变原始模型设计架构。

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法(图3)

　　此外，为了让 LongLoRA 更加实用、高效，开发者还整理了一个名为 LongQA 的数据集，其中包含3000多对用于训练的问题和答案。这使得 LongLoRA 还能有效改进大语言模型的输出能力。

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法(图4)

　　该研究评估了Proof-pile 和 PG19数据集上的不同模型。研究发现，在训练过程中，随着上下文大小的增加，模型的表现更好，显示了其微调方法的有效性。

　　简单来说，使用更多信息进行训练，将会带来更好的结果。例如，当上下文窗口大小从8192增加到32768时，一个模型的困惑度性能从2.72提高到2.50。

　　该研究还探讨了这些模型可以在一台机器上处理多少上下文。开发人员扩展了模型以处理极长的上下文，并发现模型仍然表现良好，尽管上下文尺寸较小时性能有所下降。

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法(图5)

　　除了语言建模之外，该研究还测试了其他任务，包括在很长的对话中找到特定的主题。开发人员的模型在这项任务中的表现与最先进的模型类似，甚至在某些情况下表现得更好。值得一提的是，与竞争对手相比，开发人员的模型能够更有效地适应开源数据。

　　LongLoRA表明，大模型能够处理的信息越多，理解语言的能力就越强。并且它不仅擅长处理长文本，而且LongLoRA也非常擅长在长对话中找到特定的主题。这表明它可以处理现实世界中复杂而混乱的任务。

　　但因为加大了上下文窗口，所以LongLoRA在处理较短的文本片段时会有一些问题，这个问题作者还没有找到原因。

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法(图6)

　　总体来说，LongLoRA 在大型语言模型领域提出了创新方法，在处理大量信息时，也可以更轻松、更高效地微调这些模型，而必须消耗更多的算力资源。

　　腾讯云618狂欢节特惠来袭！现在购买3年轻量云服务器，配置2核2G4M，只需396元！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　LongLoRA是一种全新的微调方法，旨在提高大语言模型的上下文处理能力无需过多的算力资源。增加LLM的上下文处理能力需要大量的算力支持，但LongLoRA采用了创新的方法，使LLM能够处理更长的文本和更多的信息。它在处理长文本和复杂任务方面表现出色，为语言模型领域带来了新的可能性。

　　麻省理工学院与香港中文大学联手开发了一项名为LongLoRA的新微调方法，为大型预训练语言模型的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力无需过多的计算资源，为经济型超大LLM的构建铺平了道路。LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径，通过优化上下文理解能力，降低了训练成本，有望推动自然语言处理领域的进一步发展。

　　大型语言模型在自然语言处理任务上的强大表现主要归功于模型所能捕捉的上下文信息。Rotarypositionembedding增强了模型处理顺序数据和捕获序列中位置信息的能力。基于变换器的模型可以结合外部记忆库来存储与上下文相关的信息，用于下游任务如问答或机器翻译。

　　9月5日，荣耀生态联合创新实验室正式启用，旨在与合作伙伴共同孵化和验证创新方案。在通过核心能力开放，协同、赋能合作伙伴的同时，荣耀还积极与合作伙伴探索面向未来的行业解决方案。荣耀构建大模型能力也将面向场景化落地，在不同场景与生态伙伴一起利用大模型的能力，给用户带来更加智慧化与创新的服务体验。

　　备受关注的大语言模型，核心是自然语言的理解与文本内容PP电子 app的生成，对于此，你是否好奇过它们究竟是如何理解自然语言并生成内容的，其工作原理又是什么呢?要想了解这个，我们就不得不先跳出大语言模型的领域，来到机器翻译这里。传统的机器翻译方式是采用RNN循环神经网络。以上就是大语言模型的工作原理了，强大Transformer的实用性还不止于在自然语言处理领域，包括

　　大语言模型在改变人们的生活和职业方面影响越来越大，因为它们实现了编程助手和通用聊天机器人等新应用。这些应用的运行需要大量硬件加速器如GPU，操作成本非常高。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

　　OnPrem.LLM是一个Python包，它可以帮助用户在本地机器上使用非公开数据运行大型语言模型。它受privateGPT仓库和SimonWillison的LLM命令行实用程序的启发，旨在帮助将本地LLM集成到实际应用中。OnPrem.LLM是一个非常有价值的工具，可以推动本地环境的LLM应用落地。

　　研究人员发现了一种改进语言模型性能的方法——Headless语言模型，即将输入嵌入与模型的其他嵌入捆绑在一起，并使用对比损失。通常情况下，语言模型的输入和输出嵌入层是分开的，但这种新方法通过捆绑它们，提高了模型的训练速度和准确性。这项工作为以对比学习取代交叉熵作为自监督预训练目标开辟了道路，为语言表示学习提供了一种高效可行的替代方案。

　　目前，人工智能芯片技术仍处于发展的初期阶段，技术迭代速度加快，技术发展路径尚在探索中，尚未形成具有绝对优势的架构和系统生态。随着越来越多的厂商推出人工智能芯片产品，该领域市场竞争日趋激烈。寒武纪自成立以来一直专注于人工智能芯片设计领域，积累了较强的技术和研发优势，已获得一批核心技术与关键专利，技术创新能力得到业界广泛认可，并较早实

　　传统方法中，提高LLMs性能需要通过人工注释来收集更多多样化和高质量的训练数据，但这是一项资源密集型的任务，尤其是对于专业领域言。为了解决这个问题，来自伊利诺伊大学厄巴纳-香槟分校和Google的研究人员提出了“ImplicitSelf-Improvementframework”。通过从人类偏好数据中学习改进目标，PIT解决了传统提示方法的限制，并展示了在各种数据集和条件下提高LLMs响应质量的有效性。

　　核心频率不同，CPU型号不同天玑9200+和天玑 9000 都是联发科的5G旗舰级芯片，天玑9200+和天玑9000都是采用台积电4nm工艺制程。天玑9200+的CPU最高主频为3.3GHz，而天玑 9000 的CPU最高主频为3.2GHz。两款芯片都支持双模5G、WiFi 6E和蓝牙5. 2 等技术。

　　天玑9200+主频是3.0GHz，与骁龙 8Gen 2 相同，跑分要比骁龙 8Gen 2高一点点天玑 9200+ 处理器与天玑 9200 同架构，但所有核心频率增加，主频来到了 3.0GHz，与骁龙 8Gen 2 相同。跑分数据，天玑 9200+ 在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分。作为对比，骁龙 8Gen 2 的单核跑分成绩在大约 2000，多核成绩大约 5400。天玑9200+的安兔兔跑分大约为 136 万分，骁龙8Gen2 安兔兔跑分大约是128万分。

　　在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分联发科已经正式官宣，天玑9200+将于 5 月 10 日发布，这款处理器的 Geekbench v6 跑分已经出现。天玑 9200+ 处理器与天玑 9200 同架构，但所有核心频率增加，主频来到了 3.0GHz，与骁龙 8Gen 2 相同。根据爆料的跑分数据，天玑9200+在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分。作为对比，骁龙 8Gen 2 的单核跑分成绩在大约 2000，多核成绩大约 5400。

　　7天以上小米手环 8 搭载蓝牙 5.1，内置直流 3.87V 聚合物锂离子电池，型号为 M2239B1。上一代的小米手环 7 续航大约有9-15天左右。小米手环 7 内置180mAh 电池。预计小米手环8的续航会比小米手环7续航略微提升一点。

　　2K+ 分辨率魅族 20 Pro 采用6.81英寸直屏，2K+ 分辨率、100% P3 广色域、120Hz LTPO 高刷、最高 1200 nit 全屏亮度、最低 2 nit 全屏亮度，同时支持防蓝光、DC 调光等功能一应俱全；魅族 20 Pro采用旗舰级性能配置，包括顶级处理器第二代骁龙 8、12GB 起步的 LPPDR5X 大内存、至高 512GB UFS4.0 极速闪存以及 36424 平方毫米的立体散热堆叠。

　　第二代骁龙 8，LPPDR5X+UFS4.0，2K三星E6 材质Super AMOLED屏幕魅族 20 Pro，内置第二代骁龙 8，LPPDR5X+UFS4.0，搭载了2K三星E6 材质Super AMOLED屏幕，屏幕尺寸6. 81 英寸，支持120Hz自适应屏幕刷新率和1500Hz瞬时触控采样率，峰值亮度可达1800nit，屏幕还通过了SGS抗蓝光、抗频闪护眼认证；破晓灰、曙光银、朝阳金三种配色，整机厚7. 8 毫米，重 209 克；镜头模组由 5000 万像素人像镜头、 5000 万像素广角镜头、 5000 万像素超广角镜头组成，支持全像素对焦技术搭配dTOF辅助对焦，官方称将使对焦速度提升33%。魅族20 系列的主摄均支持SMA防抖，最高8K视频录制和夜景录像功能；5000mAh电池配80W快充，支持50W无线GB三种存储组合，售价 3999 起。

　　后置三摄，主摄 5000万像素，屏幕分辨率2496*2224华为Mate X3有「羽砂玻璃版:羽砂白、羽砂黑、羽砂紫」、「素皮版:晨曦金、青山黛」五款配色可选;覆盖昆仑玻璃;超轻薄折叠四曲设计，机身重量仅239g，厚度仅5.3mm， IPX8级抗水。屏幕拥有2496*2224超高分辨率和426ppi 超高像素密度。同样支持最高120Hz 自适应刷新率以及1440Hz PWM 调光。影像方面:搭载5000万像素超感知主摄，1300万像素超广角镜头，1200万像素潜望式长焦镜头。并配备10通道多谱传感器和激光对焦传感器，支持100倍变焦和5倍光学变焦。续航方面:配备4800mAh 大电池，支持50W 无线W 有线W 无线反向快充。性能方面:与华为 P60系列一样搭载了骁龙8+ 处理器，配备了超冷跨轴石墨烯散热系统，导热面积提升了20%。价格:华为Mate X3:256GB:12999、512GB:13999;华为 Mate X3典藏版:1TB:15999

　　6. 67 英寸的OLED屏幕， 4800 万像素长焦镜头华为P60 系列在背部采用了矩阵型模组，官方称之为“凝光设计”，引入了“凝光贝母”工艺；华为P60 全系搭载了6. 67 英寸的OLED屏幕，拥有2700* 1220 刷新率，显示效果十分细腻，支持10. 7 亿色、1440Hz PWM调光。同时支持全局色彩管理，支持莱茵专业色准双重认证；屏幕还支持LTPO动态高刷新率，支持1~120Hz自适应刷新率，还配备了昆仑玻璃面板，IP68 防尘抗水；相机方面，华为P60 Pro则进一步升级长焦镜头，配备了 4800 万像素RYYB的超聚光夜视长焦镜头，支持3. 5 倍光学变焦、OIS，拥有F2. 1 超大光圈；支持双向北斗卫星通信；5100 毫安时大电池+88W快充；首发搭载了全新的鸿蒙3.1，新增了AOD息屏显示功能。

　　6.67英寸的OLED屏幕，支持1~120Hz的LTPO刷新率华为P60 系列的屏幕搭载了骁龙8+ 4G处理器，6. 67 英寸的OLED屏幕，支持1~120Hz的LTPO刷新率，支持1440Hz PWM调光，拥有10. 7 亿色、全局P3 色域、HDR-P3HDR Vivid显示效果；覆盖四曲昆仑玻璃，支持IP68 防水，是全球首款德国莱茵专业色准双重认证的手机；相机方面，华为P60 支持F1.4-4. 0 十档可变光圈，搭载大光圈高透光镜群和RYYB超感光传感器，支持了华为XD Fusion Pro质感引擎；支持双向北斗卫星消息；首发搭载鸿蒙3.1，支持AOD息屏显示；价格，华为P60 的128GB版 4488 元，256GB版本是 4988 元，512GB版本是 5988 元。

　　天玑9000芯片，LPDDR5+UFS3.1，11.61英寸LCD屏幕，支持144Hz刷新率OPPO Pad2主要配置包括:11.61英寸7:5比例LCD显示屏，拥有2800×2200分辨率和500尼特亮度，支持144Hz五档刷新率智能调节，2048级亮度自适应智能调光并支持手写笔。OPPO Pad2基于联发科技天玑9000，辅以LPDDR5内存和UFS3.1存储，内置9510毫安时电池、67W有线万像素前置摄像头和蓝牙5.3。软件方面，ColorOS13.1支持5G通信共享。可以自动共享手机的5G通信，从而直接上网、接打电话、同步手机验证码、拍照流转和应用接力。

　　5G双待双通（DSDS）、WiFi 6/6E、蓝牙5.3等骁龙7+ Gen2 采用了骁龙X62 5G调制解调器，在全球范围内支持多种频段和模式的5G网络连接。它还是首款在骁龙 7 系中实现了5G双待双通（DSDS）功能，在两张SIM卡都插入时可以同时使用两个不同运营商或不同网络制式（例如SA和NSA）的5G网络服务。除此之外，它还支持WiFi 6/6E和蓝牙5. 3 等无线技术。

分享到：

上一篇：PP电子游戏分解大模型的神经元！Claude团队最新研究火了网友：打开黑盒

下一篇：PP电子游戏模型之战：当金融业与生成式AI相遇

PP电子「中国」平台网站

咨询热线：

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法

PP电子「中国」平台网站

咨询热线：

LongLoRA：超长上下文大PP电子 app语言模型高效微调方法

微信号：WX39936微信二维码