细粒度数据设计对于微调的重要性

原文地址:the-importance-of-granular-data-design-for-fine-tuning

利用数据设计来训练LLM,以充分利用上下文,同时解决“Lost-In-The-Middle”的挑战。

2024 年 5 月 2 日

介绍

对话设计师难道不是杰出的数据设计师吗?

请允许我详细阐述,我一直强调数据策略应当涵盖以下几个关键环节:数据的探索与发现、数据的设计与规划、数据的开发与处理,以及数据的最终交付与应用。

考虑到 RAG 和其他交付策略,数据交付已被广泛讨论。数据发现也得到了一定程度的解决,例如 XO 平台的意图发现。

来到数据设计……在本文中,我讨论了最近的三项研究,重点是教授语言模型(无论大小)的某些行为。虽然不一定要向模型灌输特定的世界知识,但可以改善模型的行为和能力。

这些能力可以包括自我纠正、推理能力、提高短期和长期的情境理解等等。

Taking A Step Back

大型语言模型研究发生了转变,重点转向以这种方式设计训练数据,以极大地提高特别是小型语言模型(SLM)的推理能力。

这种新方法不仅可以被描述为人工智能的数据优先方法,而且可以被描述为数据设计方法。

最近,人们非常重视语言模型(LLM 和 SLM 等)的数据交付方面。具体来说,焦点集中在如何在推理过程中将专有数据合并到语言模型中。

数据传输的过程可以分为两种主要方法:梯度和非梯度。与梯度和微调技术的不透明性质相比,非梯度方法因其透明性而引起了广泛关注。

在非梯度方法中,RAG是最广泛采用的数据交付方法,体现在各种迭代中。

有趣的是,某些微调和梯度技术的主要目的并不是将特定领域的数据注入语言模型。

相反,他们的主要目标是改变模型的行为,并通过微调数据的设计和结构来指导其执行特定任务。这些任务包含推理、自我纠正和更好地处理大上下文等功能。

用于微调数据的数据设计

最近有两项数据设计研究引人注目,第一项是微软研究院在训练名为 Orca-2 的小语言模型 (SLM) 时遵循的方法。

提示词擦除

Orca-2 是一种擅长推理的开源小语言模型 (SLM) 。这是通过分解问题并逐步解决它来实现的,这增加了可观察性和可解释性。

这种推理技能是在 SLM 的微调过程中通过精细细致的微调而发展起来的。

创建了细致入微的培训数据向LLMs提出了复杂的提示,其设计目的是引出策略推理模式,从而产生更准确的结果。

在训练数据的训练阶段,较小的模型将接受任务以及LLMs的后续输出。LLMs的输出数据定义了LLM如何解决问题。

然而,训练数据的设计(更改)是为了隐藏或删除原始提示。因此,原始提示不会显示给 SLM。

这被称为提示词擦除的方法。它训练 Orca-2 成为一个谨慎的推理者,因为该模型不仅必须学习如何执行特定的推理步骤,还要在更高层次上制定如何完成特定任务的策略。

LLMs不是天真地模仿强大的LLM,而是被用作行为的储存库,从中为当前任务的方法做出明智的选择。

部分答案屏蔽 (PAM)

最近的一项研究通过提出一种称为部分答案屏蔽(PAM)的方法引入了设计和生成自校正训练数据的管道,目的是使模型能够通过微调进行内部自校正。

部分答案屏蔽的目的是引导语言模型进行自我纠正。

在微调过程中,我们提出部分答案屏蔽(PAM),使模型具有自我验证的能力。 ~来源

该研究使用参数大小从 60 亿到 130 亿不等的语言模型在两项任务中进行了实验。

为了增强小语言模型的自我纠正能力,研究引入了内在自我纠正(ISC),它依赖于两个核心能力:自我验证和自我修改。

在微调过程中,引入部分答案屏蔽(PAM)以在模型中注入自我验证功能。

这标志着首次证明,即使是参数只有 60 亿个的小型语言模型,在响应生成过程中也具有固有的自我校正能力,无需依赖地面实况数据。

所提出的内在自我纠正旨在将自我纠正作为一种自然模式嵌入到语言模型中,涉及自主和自发的自我纠正机制,与现有的即时工程方法不同。

为了使小语言模型具有自校正功能,设计了一个管道来生成自校正数据并建立适用于自校正任务的通用数据格式。

针对大型上下文训练的训练数据设

简而言之

微软的研究人员和合作者设计了一种方法来克服lost-in-the-middle的问题。

当代大型语言模型(LLM)可以处理冗长的输入,但常常难以在长上下文中充分利用信息,这被称为“lost-in-the-middle”挑战。

Microsoft 研究人员和合作者提出了一种称为信息密集型 (IN2)训练的方法来解决此问题。

IN2训练使用合成的长上下文问答数据集,重点关注:

  1. 细粒度的信息感知
  2. 在短片段内
  3. 长上下文
  4. 并整合来自多个细分市场的信息。

该训练应用于 Mistral-7B,创建了 FILM-7B(FIL1-in-the-Middle)。

根据该研究,FILM-7B 在其 32K 上下文窗口中的不同位置、跨各种上下文样式和检索模式显示出强大的信息检索能力。

它还提高了现实世界长上下文任务(例如 NarrativeQA)的性能,同时保持短上下文任务的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/597969.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习之基于Jupyter中国环境治理投资数据分析及可视化

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 机器学习之基于Jupyter中国环境治理投资数据分析及可视化项目是一个结合了机器学习和数据可视化技术的项目&#xf…

【算法练级js+java】重复给定字符n次

题目 Repeats the given string n times.(复制指定的字符串n次) 期望结果 /** * Repeats the given string n times. * * repeat(‘, 3) * // > **’ * * repeat(‘abc’, 2) * // > ‘abcabc’ * * repeat(‘abc’, 0) * // > “” **/ 代码…

一步教你网站怎么免费实现https,看这里!!

要想网站实现https访问最简单有效的方法就是安装SSL证书。只要证书安装上,浏览器就不会再有提示网站不安全或者访问被拦截的情况。现在我来教大家怎么去获取免费的SSL证书,又怎么安装来证书实现https访问。 一、选择免费SSL证书提供商 有多家机构提供免…

excel公式后面加的““是什么意思呢?

这个大体上有两种用意。 1.将数值转换成文本 VLOOKUP(F2,A:C,3,0) 举个使用VLOOKUP函数的场景,如下图所示,员工信息表A:C区域中,A列员工号是文本型数字,使用VLOOKUP函数查询找的时候,F列的员工号数值型、文本型都有…

SinoDB数据库的RAW TABLE

RAW表是不记录日志的永久表,类似于无日志模式数据库中的表。对于RAW表,支持对其进行更新、插入和删除操作,但日志是不会记录这些操作。可以在RAW表上定义索引,但不能在RAW表上定义唯一约束、主键约束或引用约束(refere…

java SPI思想机制

目录 如何解释简单概括SPI 和 APISPI 实现原理(重要-线程上下文类加载器) 如何使用一个Demo功能介绍使用效果(直接在本地模拟服务商提供服务)使用效果(通过 jar 的方式引入) 应用分析参考文章 如何解释 简…

【Altium】AD-在原理图中如何绘制贝塞尔曲线

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 在原理图中绘制贝塞尔曲线的方法 2、 问题场景 贝塞尔曲线主要用来描述各种波形曲线,如正弦、余弦曲线等。贝塞尔曲线的绘制和直线类似,需要固定多个顶点(最少4个)后即…

深度学习之基于Matlab特征匹配的手写电话号码、数字识别系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 在信息化日益发展的今天,手写电话号码和数字的识别技术显得尤为重要。这种技术不仅能够提…

包管理工具npm的安装和使用

包管理工具 管理 包 的应用软件,可以对 包 进行下载 安装,更新,删除,上传 等操作。 借助包管理工具,可以快速开发项目,提升开发效率。 包管理工具是一个通用的概念,很多编程语言都有包管理工…

【统计推断】-01 抽样原理之(六):三个示例

目录 一、说明二、处理有限的、大尺度的母体抽样三、非参数的估计四、连续母体抽样技巧--分箱 一、说明 对于抽样问题,前几期文章都是理论探讨。本篇给出若干示例,展现具体的情况下,面对数据,如何给出处理策略。 二、处理有限的…

73. 矩阵置零/54. 螺旋矩阵

73. 矩阵置零 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出:[[1,0,1],[0,0,0],[1,0,1]] 思路&#x…

微信/支付宝支付服务搭建,一次性搞定!

微信支付 付款码支付 付款码支付是指用户展示微信钱包内的“付款码”给商户系统扫描后直接完成支付,适用于线下场所面对面收银的场景,例如商超、便利店、餐饮、医院、学校、电影院和旅游景区等具有明确经营地址的实体场所JSAPI支付 JSAPI支付是指商户通过…

OpenCV 库来捕获和处理视频输入和相似度测量(73)

返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV的周期性噪声去除滤波器(70) 下一篇 :使用 OpenCV 创建视频(74) ​ 目标 如今,拥有数字视频录制系统供您使用是很常见的。因此,您最终会遇到不再处理一批图像&#xf…

连锁收银系统总仓到门店库存调拨操作教程

1、进入系统后台,系统后台登录网址: 2、点击商品>门店调拨 3、选择调出仓库和调入门店 4、可选择添加商品逐个进行调拨,也可以批量导入需要调拨的商品 然后点击确定。 5、新增调拨后,系统会显示“待出库”状态 6、仓库已经准备…

Python 中使用私有成员的子类化

1、问题背景 Python 语言中,变量名与访问器同名是一个非常好的特性: self.__value 1def value():return self.__value但是,当我们想要子类化一个类,并访问其私有成员时,却没有一种简单的方法。通常,我们…

高速、简单、安全的以太彩光,锐捷网络发布极简以太全光 3.X 方案

从 2021 年 3 月正式推出到现在,锐捷网络极简以太全光方案已经走进第四个年头。IT 仍在不断向前发展,数字化进程深入,数字化业务增多,更广泛的终端设备接入企业级园区网络,对园区网络提出了更高的要求,例如…

Flutter开发Dart中的队列(Queue)

文章目录 Dart中的队列(Queue)基本操作示例队列的类型队列的应用总结 Dart中的队列(Queue) 队列是一种抽象的数据结构,遵循“先进先出”(FIFO)的原则。这意味着最早添加的元素将首先被移除。队…

PS路径文字怎么变换的?

如果网友们没有用过钢笔工具,画好后的样子是什么,建议你看看这个方法! 建立的路径之后,在编辑菜单栏里单击。 选择变换路径,可以改变路径文字的方向,点击垂直翻转即可完成方向的改变!

vue3+vite+axios+ElementPlus+ElLoading简易封装

1.安装按需加载element-plus需要的依赖包 pnpm install element-pluspnpm install axios# 按需自动导入 pnpm install -D unplugin-vue-components unplugin-auto-import# 自动导入element-plus样式 pnpm install -D vite-plugin-style-import2.修改jsconfig.json {"com…

【iOS】方法交换(Method Swizzling)

文章目录 前言一、原理与注意用法注意要点Method Swizzing涉及的相关API 二、应用场景与实践1.统计VC加载次数并打印2.防止UI控件短时间多次激活事件3.防崩溃处理:数组越界问题4.防KVO崩溃 总结 前言 上文讲到了iOS的消息发送机制,在消息机制中我们了解…
最新文章