大模型上下文扩展 - 程序员宅基地

如何扩展大模型的上下文长度?

标签：自然语言处理人工智能大模型

要实现 Llama 模型上下文长度的扩展，需要对应扩展 RoPE 位置编码层。但是直接扩展会导致模型困惑度上升，针对这个问题，我们介绍了业界常见的几种上下文扩展方法，包括位置查找法、动态插值法和 Yarn 方法等。长...

【大模型上下文长度扩展】MedGPT：解决遗忘 + 永久记忆 + 无限上下文

标签：人工智能

MemGPT随后用一条更新后的信息回应用户，不仅纠正了之前的错误，还询问用户是否有喜欢的浪漫喜剧电影，这表明MemGPT能够根据新的输入动态调整它的对话策略。在用户的对话框旁边，有一段描述，解释说用户正在回忆过去...

论文研究-基于中心词的上下文主题模型.pdf

标签：潜在狄利克雷分配主题模型上下文信息

同时针对现有的模型精度不高，提出了基于中心词的上下文主题模型。这种模型的思想是一篇文档中单词的主题与其附近若干单词的主题关系更为紧密。在计算每个单词的主题分布时，以这个词为中心，前后各扩展若干个单词...

大模型上下文长度扩展综述：从直接外推ALiBi、插值PI、NTK-aware插值、YaRN到S2-Attention

标签：大模型上下文扩展 RoPE ALiBi

下半年以来，我全力推动我司大模型项目团队的组建，我虽兼管整个项目团队，但为了并行多个项目，最终分成了三个项目组，每个项目都有一个项目负责人，分别为霍哥、阿荀、朝阳，有何问题欢迎随时留言评论，thanks...

从LongLoRA到LongQLoRA(含源码剖析)：超长上下文大模型的高效微调方法

标签：大模型上下文长度 LongLora LongQLora

本文一开始是《七月论文审稿GPT第2版：从Meta Nougat、GPT4审稿到Mistral、LongLora Llama》中4.3节的内容，但一方面考虑到LongLora的实用性，二方面为了把LongLora和LongQLora更好的写清楚，故把这部分的内容抽取...

论文研究-普适计算的上下文访问控制模型.pdf

标签：普适计算上下文访问控制

上下文访问控制是普适计算安全中极具挑战性的重要问题。...针对普适计算医疗保健环境中的三种典型的上下文访问控制应用，灵活扩展了组合子模型。通过实例分析，证明了模型的安全性、灵活性和有效性。

【大模型上下文长度扩展】位置内插 PI：基于Positional Interpolation扩大模型的上下文窗口

标签：人工智能

旨在扩展基于 RoPE 的预训练大型语言模型的上下文窗口大小，解决的核心问题是如何有效且高效地扩展模型的上下文理解能力，以便处理需要长上下文的任务。蓝色点表示预训练范围内的位置索引，而红色点表示在4096范围内...

如何扩展大模型的上下文长度

标签：算法

本文将基于比较火的 Llama 2 大模型的结构介绍上下文长度的方法与挑战，然后探讨一些业界流行的上下文长度扩展的技术，最后给大家推荐下 KubeAI 大模型训练推理平台可以上手实验。

大模型长上下文运行的关键问题

标签：上下文 llama LLM

过去一年，几种长上下文语言模型陆续问世，包括 GPT-4（32k上下文）、MosaicML 的 MPT（65k上下文）、Anthropic 的 Claude（100k上下文）等。然而，扩大 Transformer 的上下文长度是一个挑战，因为其核心的注意力层...

语言大模型100K上下文窗口的秘诀

标签：深度学习人工智能机器学习

较大的上下文窗口可以提供更丰富的语义信息、消除歧义、处理上下文依赖性，并帮助模型生成连贯、准确的文本，还能更好地捕捉语言的上下文相关性，使得模型能够根据前文来做出更准确的预测或生成。最新发布的语言大.....

【大模型上下文长度扩展】LongQLoRA：单GPU（V100）环境下的语言模型优化方案

标签：人工智能

背景: LLaMA系列模型（例如LLaMA和LLaMA2）在训练时设置了预定义的...子解法: Position Interpolation和Shift Short Attention结合，通过位置插值技术和短注意力偏移来扩展模型处理的上下文长度，无需大规模重新训练。

LLM之长度外推（二）| Self-Extend：无需微调的自扩展大模型上下文窗口

标签： chatgpt

而transformer中attention机制的计算复杂度与序列长度呈平方关系，因此大模型在训练时候通常会设置固定的上下文窗口，而且也不会太大，比如GPT-4支持32K上下文，但这会限制大模型在推理时处理长序列的能力。...

【LLM】大模型之扩展Context长度（RoPE等方法）

标签：大模型扩展上下文 RoPE

由于不是直接处理长Context，因此通常无法做精细的阅读理解，而且这些方案往往需要在训练阶段就考虑进去，而不是事后即插即用到已有的LLM模型中。 2. PCW方法以前能够不微调地扩展Context长度的方案是Parallel ...

语义滑动窗口-大模型场景下解决输入上下文过长的方案

标签：自然语言处理语言模型 langchain

，比如我关心的实际上是《话题A》，但是因为扩展机制把另一个话题下的《话题B》、《话题C》都给扩展进来了，如果这A、B、C三个话题完全不一样还好，但是实际上来说因为语义连贯性的问题，上下文的话题相关度还是很高...

CGMM:上下文图马尔可夫模型的官方存储库（ICML 2018-JMLR 2020）

标签： machine-learning deep-learning graphs unsupervised-learning probabilistic-graphical-models JupyterNotebook

上下文图马尔可夫模型（CGMM）概括CGMM是一种在图形中学习上下文的生成方法。通过使用深入的体系结构和平稳性假设，它将信息传播和本地计算结合在一起。在学习之前，该模型不会将图形预处理为固定的结构。相反，...

大模型上下文学习（ICL）训练和推理两个阶段31篇论文

标签：人工智能深度学习机器学习

大模型都火了这么久了，想必大家对LLM的上下文学习（In-Context Learning）能力都不陌生吧？以防有的同学不太了解，今天我就来简单讲讲。上下文学习（ICL）是一种依赖于大型语言模型的学习任务方式，近年来随着大...

大模型的无限上下文与数据集组合艺术

标签：大模型语言模型 LLM

上下文长度曾是GPT-3的最大限制之一。GPT-3最多只能接收4000个词元（3000词，6页），否则就会报错。因此，为处理长文档和提示（prompt），就需要引入 LangChain 等其他检索技术。不过，MosaicML（已被Databricks以约...

Query Rewrite —— 基于大模型的query扩展改写（基于思维链），召回提升3%

标签：召回率提升利用LLM提升召回率通过思维链提升召回率

与传统的查询扩展方法，如伪相关反馈（PRF），它依赖于检索一组好的伪相关文档来扩展查询不同，我们依赖于LLM的生成和创造性能力，并利用模型中固有的知识。我们研究了各种不同的提示，包括零射击、少射击和思维链...

港中文联合MIT提出超长上下文LongLoRA大模型微调算法

标签：自然语言处理机器学习大模型

本文针对LLM微调训练提出了一种名为LongLoRA的方法，它可以有效地将LLM的上下文窗口长度扩展到更长的范围。LongLoRA与标准完全微调方法相比，所使用的GPU显存成本和训练时间更少，并且精度损失也很小。在架构层面，...

论文研究-基于上下文三音素DBN模型的连续语音识别.pdf

标签：论文研究

考虑连续语音中的协同发音问题，提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络（SS-DBN-TRI）模型和词间扩展的单流上下文相关三音素DBN（SS-DBN-TRI-CON）模型。SS-DBN-TRI模型是Bilmes提出单流DBN（SS-DBN...

AI：大模型领域最新算法SOTA核心技术要点总结(一直持续更新)、大模型实战与理论经验总结(训练优化+代码实战...

标签：人工智能 LLMs 大语言模型

AI：大模型领域最新算法SOTA核心技术要点总结(一直持续更新)、大模型实战与理论经验总结(训练优化+代码实战+前沿技术探讨+最新案例应用)、带你精细解读多篇优秀的大模型论文、AI领域各种工具产品集合(文本/图片/编程...

大语言模型——扩展法则

标签：语言模型人工智能自然语言处理

建立定量的建模方法，即扩展法则（Scaling Law），来研究规模扩展所带来的模型性能提升具有重要的实践指导意义。

基于推理的上下文感知RBAC模型设计和实现 (2009年)

标签：工程技术论文

无法根据调整后的感知条件对用户权限实时进行调节的问题,在融合上下文感知RBAC模型和基于推理的RBAC模型基础上,提出了基于推理的上下文感知RBAC扩展模型。该扩展模型采用逻辑推理方法实现了上下文约束条件的动态调整...

【大模型上下文长度扩展】LongLoRA：长序列大模型微调新方式

标签：人工智能

结合使用LoRA和S2-Attn的优势在于，它们共同提供了一种高效且有效的方式来扩展大型语言模型的上下文处理能力。这种方法不仅提高了模型处理长文本的能力，还保持了计算上的可行性，提供了更多的灵活性和效率。

基于角色上下文的转授权模型 (2006年)

标签：自然科学论文

通过对基于角色转授权模型（RDM）的深入研究和对基于角色访问控制模型（RBAC）的扩展，提出基于角色上下文的转授权模型（RCBDM）。该模型引入角色上下文和转授权规则作为转授权的依据，通过对转授权极限值、转授权域...

科普初步了解大模型

标签：语言模型

科普初步了解大模型

论文研究-基于用户兴趣的局部上下文分析方法.pdf

标签：信息检索查询扩展局部上下文分析

针对根据目前网络信息检索...该方法通过设计一种客户端的用户兴趣挖掘模型，同时将用户兴趣模型与局部上下文分析方法相结合，克服了局部上下文分析的缺陷。实验结果显示该方法能有效提高Web信息检索的查全率与查准率。

Document-Transformer：使用文档级上下文改进Transformer转换模型

标签： neural-machine-translation document-level-translation Python

这是我们工作的实现，将Transformer扩展为集成文档级上下文[ ]。该实现在用法注意：用法不是用户友好的。以后可能会改善。训练标准的变压器模型，请参考的用户手册。假设model_baseline / model.ckpt-30000在...

LLMs：大模型核心技术—上下文窗口长度技术的简介(核心技术拆解)、发展历史、案例应用之详细攻略

标签：大语言模型 NLP

LLMs：大模型核心技术—上下文窗口长度技术的简介(核心技术拆解)、发展历史、案例应用之详细攻略目录上下文窗口长度技术的简介上下文窗口长度技术的简介背景上下文窗口长度参数是大语言模型...

一种融合本体和上下文的自适应层次分类模型 (2009年)

标签：自然科学论文

提出一种新的自适应层次分类(HAC)模型，通过本体对特征集进行语义扩展，并以增量形式在层次模型中构建特征上下文和类别相关上下文，以辅助实现一种高效、无阻滞的层次分类.实验结果证明，模型HAC具有相对更好的分类...

”大模型上下文扩展“ 的搜索结果

如何扩展大模型的上下文长度?

【大模型上下文长度扩展】MedGPT：解决遗忘 + 永久记忆 + 无限上下文

论文研究-基于中心词的上下文主题模型.pdf

大模型上下文长度扩展综述：从直接外推ALiBi、插值PI、NTK-aware插值、YaRN到S2-Attention

从LongLoRA到LongQLoRA(含源码剖析)：超长上下文大模型的高效微调方法

论文研究-普适计算的上下文访问控制模型.pdf

【大模型上下文长度扩展】位置内插 PI：基于Positional Interpolation扩大模型的上下文窗口

如何扩展大模型的上下文长度

大模型长上下文运行的关键问题

语言大模型100K上下文窗口的秘诀

【大模型上下文长度扩展】LongQLoRA：单GPU（V100）环境下的语言模型优化方案

LLM之长度外推（二）| Self-Extend：无需微调的自扩展大模型上下文窗口

【LLM】大模型之扩展Context长度（RoPE等方法）

语义滑动窗口-大模型场景下解决输入上下文过长的方案

CGMM:上下文图马尔可夫模型的官方存储库（ICML 2018-JMLR 2020）

大模型上下文学习（ICL）训练和推理两个阶段31篇论文

大模型的无限上下文与数据集组合艺术

Query Rewrite —— 基于大模型的query扩展改写（基于思维链），召回提升3%

港中文联合MIT提出超长上下文LongLoRA大模型微调算法

论文研究-基于上下文三音素DBN模型的连续语音识别.pdf

AI：大模型领域最新算法SOTA核心技术要点总结(一直持续更新)、大模型实战与理论经验总结(训练优化+代码实战...

大语言模型——扩展法则

基于推理的上下文感知RBAC模型设计和实现 (2009年)

【大模型上下文长度扩展】LongLoRA：长序列大模型微调新方式

基于角色上下文的转授权模型 (2006年)

科普初步了解大模型

论文研究-基于用户兴趣的局部上下文分析方法.pdf

Document-Transformer：使用文档级上下文改进Transformer转换模型

LLMs：大模型核心技术—上下文窗口长度技术的简介(核心技术拆解)、发展历史、案例应用之详细攻略

一种融合本体和上下文的自适应层次分类模型 (2009年)

推荐文章