大模型上下文长度 - 程序员宅基地

手把手教你高效训练256K超长上下文窗口大模型（附代码）

教程来自元象XVERSE公众号元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K，支持输入25万汉字，让大模型应用进入“长文本时代”。参数量和高质量数据量决定了大模型的计算复杂度，而长文本技术...

从LongLoRA到LongQLoRA(含源码剖析)：超长上下文大模型的高效微调方法

本文一开始是《七月论文审稿GPT第2版：从Meta Nougat、GPT4审稿到Mistral、LongLora Llama》中4.3节的内容，但一方面考虑到LongLora的实用性，二方面为了把LongLora和LongQLora更好的写清楚，故把这部分的内容抽取...

Transformer-XL：超越固定长度上下文的专注语言模型.zip

标签： transformer 机器学习深度学习

复现transformer的算法，可以直接运行。内含预训练模型

大模型长上下文运行的关键问题

标签：上下文 llama LLM

上下文长度的增加是 LLM 的一个显著发展趋势。过去一年，几种长上下文语言模型陆续问世，包括 GPT-4（32k上下文）、MosaicML 的 MPT（65k上下文）、Anthropic 的 Claude（100k上下文）等。然而，扩大 Transformer 的...

如何扩展大模型的上下文长度

标签：算法

本文将基于比较火的 Llama 2 大模型的结构介绍上下文长度的方法与挑战，然后探讨一些业界流行的上下文长度扩展的技术，最后给大家推荐下 KubeAI 大模型训练推理平台可以上手实验。

【大模型上下文长度扩展】位置内插 PI：基于Positional Interpolation扩大模型的上下文窗口

标签：人工智能

旨在扩展基于 RoPE 的预训练大型语言模型的上下文窗口大小，解决的核心问题是如何有效且高效地扩展模型的上下文理解能力，以便处理需要长上下文的任务。蓝色点表示预训练范围内的位置索引，而红色点表示在4096范围内...

百川大模型微调，lora模型，训练微调自己的大预言模型

标签：语言模型

百川大模型微调，lora模型...基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。在标准的中文和英文 benchmark（C-Eval/MMLU）上均取得同尺寸最好的效果。

【大模型上下文长度扩展】MedGPT：解决遗忘 + 永久记忆 + 无限上下文

标签：人工智能

MemGPT随后用一条更新后的信息回应用户，不仅纠正了之前的错误，还询问用户是否有喜欢的浪漫喜剧电影，这表明MemGPT能够根据新的输入动态调整它的对话策略。在用户的对话框旁边，有一段描述，解释说用户正在回忆过去...

大模型上下文长度扩展综述：从直接外推ALiBi、插值PI、NTK-aware插值、YaRN到S2-Attention

标签：大模型上下文扩展 RoPE ALiBi

下半年以来，我全力推动我司大模型项目团队的组建，我虽兼管整个项目团队，但为了并行多个项目，最终分成了三个项目组，每个项目都有一个项目负责人，分别为霍哥、阿荀、朝阳，有何问题欢迎随时留言评论，thanks...

如何扩展大模型的上下文长度?

标签：自然语言处理人工智能大模型

要实现 Llama 模型上下文长度的扩展，需要对应扩展 RoPE 位置编码层。但是直接扩展会导致模型困惑度上升，针对这个问题，我们介绍了业界常见的几种上下文扩展方法，包括位置查找法、动态插值法和 Yarn 方法等。长...

【大模型上下文长度扩展】YaRN：以文匹意，精细化衔接长篇

标签：人工智能

在YaRN中，还引入了一种在注意力计算中使用的温度调节，以及一种长度缩放技巧，这些都是在不修改模型代码的情况下，对模型的注意力机制进行微调。: YaRN就像是一个聪明的阅读助手，它结合了以上所有的技术，确保即使...

【大模型上下文长度扩展】LongQLoRA：单GPU（V100）环境下的语言模型优化方案

标签：人工智能

背景: LLaMA系列模型（例如LLaMA和LLaMA2）在训练时设置了预定义的...子解法: Position Interpolation和Shift Short Attention结合，通过位置插值技术和短注意力偏移来扩展模型处理的上下文长度，无需大规模重新训练。

【大模型上下文长度扩展】LongLoRA：长序列大模型微调新方式

标签：人工智能

LoRA通过低秩更新减少了模型微调的计算成本，而S2-Attn通过改进的注意力机制有效处理长序列，这两种技术的结合使得在资源受限的情况下也能实现对长上下文的支持。此外，当前的研究主要集中在模型架构和训练方法的...

语言大模型100K上下文窗口的秘诀

标签：深度学习人工智能机器学习

较大的上下文窗口可以提供更丰富的语义信息、消除歧义、处理上下文依赖性，并帮助模型生成连贯、准确的文本，还能更好地捕捉语言的上下文相关性，使得模型能够根据前文来做出更准确的预测或生成。最新发布的语言大.....

Transformer-XL语言模型：超长上下文依赖

论文链接：https://arxiv.org/pdf/1901.02860.pdf ...导读今天学习的是谷歌大脑的同学和 CMU 的同学于 2019 年联合出品的论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Cont.

科普初步了解大模型

标签：语言模型

科普初步了解大模型

LLM之长度外推（二）| Self-Extend：无需微调的自扩展大模型上下文窗口

标签： chatgpt

目前大模型基本都采用transformer结构，而transformer中attention机制的计算复杂度与序列长度呈平方关系，因此大模型在训练时候通常会设置固定的上下文窗口，而且也不会太大，比如GPT-4支持32K上下文，但这会限制大...

【大模型系列】大模型的上下文长度解释与拓展

标签： pytorch 深度学习人工智能

大模型的上下文长度（Context Length）是指在自然语言处理（NLP）的大型语言模型（Large Language Models，LLM）中，模型在处理输入信息时能够考虑的最大文本量(一次处理的最大tokens数量)。可以处理更复杂的查询和...

LLM 大模型为什么会有上下文 tokens 的限制？

人是以字数来计算文本长度，大语言模型（LLM）是以 token 数来计算长度的。LLM 使用 token 把一个句子分解成若干部分。token 可以是一个单词、一个单词中的一个部分、甚至是一个字符，具体取决于它使用的标记化方法...

问题背景：大模型的外推性问题

标签：人工智能自然语言处理

将LLM上下文context扩充4k、8k、甚至32k的长度。以LLaMA为例，详细原理及代码实现

语义滑动窗口-大模型场景下解决输入上下文过长的方案

标签：自然语言处理语言模型 langchain

，比如我关心的实际上是《话题A》，但是因为扩展机制把另一个话题下的《话题B》、《话题C》都给扩展进来了，如果这A、B、C三个话题完全不一样还好，但是实际上来说因为语义连贯性的问题，上下文的话题相关度还是很高...

【高效利用大语言模型】上下文学习？微调？提示学习？指示学习？

标签：语言模型 ai 深度学习

在LMM领域，上下文学习（In context learning）即提示学习，也叫语境学习、任务相关的类比样本中学习等，它可以看做模型语义理解能力的一种，即对于一个大规模预训练模型，对于不同的下游任务，不需要调整模型参数，...

太酷啦，Transformer 的有效上下文长度可扩展至百万级

标签： transformer 深度学习人工智能

原创作者 | 智商掉了一地、iven用 Recurrent Memory Transformer 架构：可输入长度取决于内存大小Transformer 因其在自然语言处理领域的成功应用而备受瞩目，同时在计算机视觉领域的研究中，诸多的多模态大模型如 ...

【LLM】大模型之扩展Context长度（RoPE等方法）

标签：大模型扩展上下文 RoPE

由于不是直接处理长Context，因此通常无法做精细的阅读理解，而且这些方案往往需要在训练阶段就考虑进去，而不是事后即插即用到已有的LLM模型中。 2. PCW方法以前能够不微调地扩展Context长度的方案是Parallel ...

AI自然语言中默认上下文长度4K 几K是什么意思？

标签：人工智能

4K。

LLMs：大模型核心技术—上下文窗口长度技术的简介(核心技术拆解)、发展历史、案例应用之详细攻略

标签：大语言模型 NLP

上下文窗口长度参数是大语言模型的一部分，它在模型的训练时起作用，决定了模型能够理解的上下文文本长度。而输入文本的最大长度是在实际使用模型进行推理或生成文本时的一个实际限制，决定了可以传递给模型的文本的...

如何提高大模型在超长上下文的表现？Claude实验表明加一句prompt立即提升效果~

标签： prompt

Claude 2.1版本的模型上下文长度最高拓展到200K，也是目前商用领域上下文长度支持最长的模型之一。但是，在模型发布不久之后，有人测试发现。而今天，Anthropic官方发布了一个博客解释，这个不是因为Claude模型能力...

大模型的无限上下文与数据集组合艺术

标签：大模型语言模型 LLM

上下文长度曾是GPT-3的最大限制之一。GPT-3最多只能接收4000个词元（3000词，6页），否则就会报错。因此，为处理长文档和提示（prompt），就需要引入 LangChain 等其他检索技术。不过，MosaicML（已被Databricks以约...

如何使上下文信息更有用？关于上下文感知的神经对话模型的实证研究

标签：多轮对话上下文模型

论文标题：How to Make Context More Useful?An Empirical Study on Context-Aware Neural Conversational Models 论文地址：... 摘要生成式会话系统在自然语言处理（NLP）领域中日益受到关注。...

港中文联合MIT提出超长上下文LongLoRA大模型微调算法

标签：自然语言处理机器学习大模型

本文针对LLM微调训练提出了一种名为LongLoRA的方法，它可以有效地将LLM的上下文窗口长度扩展到更长的范围。LongLoRA与标准完全微调方法相比，所使用的GPU显存成本和训练时间更少，并且精度损失也很小。在架构层面，...

”大模型上下文长度“ 的搜索结果

手把手教你高效训练256K超长上下文窗口大模型（附代码）

从LongLoRA到LongQLoRA(含源码剖析)：超长上下文大模型的高效微调方法

Transformer-XL：超越固定长度上下文的专注语言模型.zip

大模型长上下文运行的关键问题

如何扩展大模型的上下文长度

【大模型上下文长度扩展】位置内插 PI：基于Positional Interpolation扩大模型的上下文窗口

百川大模型微调，lora模型，训练微调自己的大预言模型

【大模型上下文长度扩展】MedGPT：解决遗忘 + 永久记忆 + 无限上下文

大模型上下文长度扩展综述：从直接外推ALiBi、插值PI、NTK-aware插值、YaRN到S2-Attention

如何扩展大模型的上下文长度?

【大模型上下文长度扩展】YaRN：以文匹意，精细化衔接长篇

【大模型上下文长度扩展】LongQLoRA：单GPU（V100）环境下的语言模型优化方案

【大模型上下文长度扩展】LongLoRA：长序列大模型微调新方式

语言大模型100K上下文窗口的秘诀

Transformer-XL语言模型：超长上下文依赖

科普初步了解大模型

LLM之长度外推（二）| Self-Extend：无需微调的自扩展大模型上下文窗口

【大模型系列】大模型的上下文长度解释与拓展

LLM 大模型为什么会有上下文 tokens 的限制？

问题背景：大模型的外推性问题

语义滑动窗口-大模型场景下解决输入上下文过长的方案

【高效利用大语言模型】上下文学习？微调？提示学习？指示学习？

太酷啦，Transformer 的有效上下文长度可扩展至百万级

【LLM】大模型之扩展Context长度（RoPE等方法）

AI自然语言中默认上下文长度4K 几K是什么意思？

LLMs：大模型核心技术—上下文窗口长度技术的简介(核心技术拆解)、发展历史、案例应用之详细攻略

如何提高大模型在超长上下文的表现？Claude实验表明加一句prompt立即提升效果~

大模型的无限上下文与数据集组合艺术

如何使上下文信息更有用？关于上下文感知的神经对话模型的实证研究

港中文联合MIT提出超长上下文LongLoRA大模型微调算法

推荐文章