1.nlp?论论文???Դ??
2.NLP 个性对话生成 EMNLP2023论文
3.NLP大模型论文:一文读懂大模型的prompt技术
4.NLP学习笔记(一):Vision Transformer (ViT)简单代码实现
5.NLP 论文阅读系列: P-Tuning
6.W2NER论文详解
nlp????Դ??
新整理的最新论文又又来了,今天继续分享十篇今年最新NLP顶级论文,文源其中主要包括模型水印添加、论论文状态空间模型在语言建模中的文源应用、指令元学习、论论文大型模型训练效率提升、文源studio小项目源码大模型到小模型推理能力转移、论论文大模型简化、文源对话模型合规检测等。论论文
模型添加水印:
大型语言模型 (LLM) 如 ChatGPT 可以编写文档、文源创建可执行代码和回答问题,论论文通常具有类似人类的文源能力。然而,论论文这些系统被用于恶意目的文源的风险也越来越大,因此检测和审核机器生成文本的论论文使用能力变得关键。本文提出了「一个为专有语言模型加水印的框架」,以减轻潜在的危害。该水印对于人类是不可见,但可以通过算法检测的方式嵌入到生成的文本中,对文本质量的影响可以忽略不计,并且可以在不访问模型 API 或参数的情况下使用开源算法进行检测。
状态空间模型:
本文研究了「状态空间模型(SSM)在语言建模中的应用」,并将其性能与基于Attention的模型进行比较。作者发现,SSM在回调序列较早的Token以及在整个序列中做Token对比的时候存在困难。为解决这两个问题,他们提出了一种新的SSM层,称为H3,其在语言合成上与Attention模型相匹配,并接近于Transformer在OpenWebText上的性能。他们还提出了一种名为FlashConv的方法,提高了SSM在当前硬件上的训练效率,同时也让它们可以扩展到更长的序列。
指令元学习:
本文提出了一个「应用于指令元学习(instruction meta-learning)的大型基准」,该基准将8个现有基准的任务类别合并,总计包含了个自然语言处理(NLP)任务。源码投资上海作者评估了不同决策对性能的影响,例如:指令调整基准的规模和多样性、不同任务采样策略、有无示范的微调、使用特定数据集对推理和对话进行训练以及微调目标等。他们使用该基准来训练两个经过指令调指OPT的版本(为OPT-IML B和OPT-IML B),结果显示,这两个版本在四个不同的评估基准上表现出更好的泛化能力,优于普通的OPT模型。
训练效率提升:
本文提出了「一种名为 Cuation in Training (CiT) 的方法,旨在提高大型视觉语言模型的训练效率」,以方便更多机构的进行使用。CiT 自动选择高质量的训练数据来加速对比图文训练,并且不需要离线数据过滤管道,从而允许更广泛的数据源。该算法由两个循环组成:一个管理训练数据的外循环和一个使用管理的训练数据的内循环,这两个循环由文本编码器进行连接。 CiT 将元数据用于感兴趣的任务,例如类名和大量图像文本对,通过测量文本嵌入和元数据嵌入的相似性来选择相关的训练数据。实验表明,「CiT 可以显着加快训练速度,尤其是当原始数据量很大时」。
从大模型到小模型:
本文探索了「一种通过知识蒸馏将推理能力从大型语言模型转移到小型模型的方法」。作者指出,利用较大的“教师”模型的输出微调较小的“学生”模型可以提高一系列推理任务的性能,例如算术、常识和符号推理。论文中的实验表明,这种方法可以显着提高任务性能,例如,当在 PaLM-B 生成的思维链上进行微调时,将名为 GSM8K 的数据集上的较小模型的准确性从 8.% 提高到 .%。本文探索了「一种通过微调将推理能力从大型语言模型转移到较小模型的方法」并提出了“Fine-tune-CoT”,这是挂机帮源码一种利用超大型语言模型(例如 GPT-3)的能力来生成推理样本并教授较小模型的方法。
大模型简化:
本文提出了「一种名为 SparseGPT 的新型模型简化方法」,它能够将大型生成预训练 Transformer (GPT) 模型中的权重数量至少减少%,并且无需进行任何再训练,并且精度损失最小。作者通过将 SparseGPT 应用于最大的开源模型 OPT-B 和 BLOOM-B ,在几乎没有增加复杂度的情况下,模型权重数量减少了 % 。该方法不仅还与权重量化方法兼容,并且可以推广到其他模式。
模型压缩对并行性的影响:
针对大规模Transformer 模型,本文「研究了不同模型压缩方法对模型并行性的有效性」。作者在当前主要流行的 Transformer 训练框架上使用三种类型的压缩算法进行了实证研究:基于修剪的、基于学习的和基于量化的。在 多个设置和 8 个流行数据集上评估这些方法,同时考虑了不同的超参数、硬件以及微调和预训练阶段。该论文提供了模型并行性和数据并行性之间差异的见解,并为模型并行性压缩算法的未来发展提供了建议。
对话模型合规发布判定:
本文工作「为从业者提供了一个框架,来判定end-to-end神经对话Agent的发布是否合规」。作者出发点是:对话式 AI 领域的最新进展以及从互联网上发布的基于大型数据集训练的模型可能产生的潜在危害。他们调查了最近的相关研究,强调了价值观、潜在的积极影响和潜在的危害之间的紧张关系。他们提出了一个基于价值敏感设计原则的框架,以帮助从业者权衡利弊,并就这些模型的发布做出符合规范的决策。
推荐阅读:
- [1] NLP自然语言处理:生成式人工智能(Generative AI)是 “未来” 还是 “现在” ?
- [2] 「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !
- [3] 年!自然语言处理 大预训练模型
- [4] NLP自然语言处理:分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...
- [5] 超详细!一文看懂从逻辑回归(Logistic)到神经网络(NN)
- [6] 北大 |一种细粒度的两阶段训练框架(FiTs)(开放源码)
- [7] NLP自然语言处理:NLP不断突破界限, 十篇必读的顶级NLP论文!
- [8] 颠覆传统神经网络!个神经元驾驶一辆车!vb源码绘图
NLP 个性对话生成 EMNLP论文
个性化对话生成是对话式人工智能领域中的热门议题,它通过利用角色配置文件和对话上下文,生成高度定制的响应。然而,当前个性化对话数据集中的角色配置文件通常仅由四到五个句子组成,可能无法提供全面的代理角色描述,这限制了生成真正个性化的对话的能力。为解决这一挑战,我们提出了一种创新方法——学习检索增强(LAPDOG),旨在融合外部知识生成个性化对话。 LAPDOG模型由两个核心组件构成:故事检索器和对话生成器。故事检索器通过使用给定的角色概要文件作为查询,从故事文档中检索相关信息,这些故事文档用作补充上下文,增强角色概要文件。对话生成器则利用对话历史记录和增强的角色配置文件来生成个性化响应。优化过程中,我们采用联合训练框架,协同学习故事检索器和对话生成器,以优化故事检索器,使其根据最终指标(如BLEU)检索内容,为对话生成器提供增强的上下文信息。 实验表明,LAPDOG方法在补充数据源ROCStory的CONVAI2数据集上,性能显著优于基线方法,证明了该方法的有效性。LAPDOG模型的代码是开源的,可供进一步研究和探索。 我们的贡献包括:提出LAPDOG模型,利用不可微目标检索外部知识中与角色相关的内容。
引入候选增强,在推理过程中提高性能并增加候选选择的多样性。
提出LAPDOG框架显著提高了性能,在个性化对话生成的可学习检索增强方面展现出潜力。
整体框架采用ROCStory作为外部知识源,凹音源码CONVAI2作为训练和测试集。训练分为两个阶段,第一阶段仅训练生成器,生成器基于原数据集的人物描述和上下文对话生成对应知识。第二阶段同时训练生成器和检索器,通过优化检索器,使其检索出对生成器最终生成的回答最有帮助的外部知识,同时增强生成器的丰富度。 实验使用T5作为基座模型,对比不同阶段模型的性能,证明了LAPDOG方法的有效性。尽管强化学习部分的效果在不可微分指标上表现出衰减,作者认为设置奖励函数为这一任务带来了挑战。通过消融实验,我们深入探讨了评价指标、检索器候选集选择、多样性增强和阶段训练对模型性能的影响。 本文亮点在于检索器的有效性和多样性,以及检索器与生成器的联合训练机制。我们展示了如何借助外部常识知识来提升个性化对话生成能力,为对话系统提供更丰富、更个性化的交互体验。NLP大模型论文:一文读懂大模型的prompt技术
NLP大模型论文:一文读懂大模型的prompt技术
在NLP领域,大语言模型的高效利用是关键。随着模型规模的扩大,研究高效的提示方法变得至关重要。本文探讨了如何通过简洁指令引导大模型完成任务,同时减轻计算负担和设计难题。论文简介
论文《Efficient Prompting Methods for Large Language Models: A Survey》深入调查了当前的高效提示策略,从硬提示与软提示的区分,到知识蒸馏、编码和过滤等方法,以提升计算效率和任务执行准确性。提示方法的演变与挑战
提示从手工设计到自动优化,减少了人力成本并提高了准确性。
硬提示和软提示各有优势,硬提示如GPT-3和ChatGPT展示了强大的灵活性。
硬提示挑战包括冗长和复杂性,影响了计算效率。
高效计算提示策略
知识蒸馏压缩提示内容,如Askel的上下文蒸馏技术。
编码如X-Prompt将文本转化为向量,解决长文本效率问题。
过滤简化提示,如Li的基于信息熵的过滤方法。
设计提示的未来方向
基于梯度和进化的方法自动优化提示,如AutoPrompt和GrIPS。
多目标优化,兼顾提示压缩和任务准确性。
结论
总结而言,高效提示技术的发展从繁琐的手动设计向自动化优化迈进,未来的研究将聚焦于优化提示结构、压缩计算成本,以及硬提示和软提示的协同优化。NLP学习笔记(一):Vision Transformer (ViT)简单代码实现
本文主要讲解了Vision Transformer (ViT)的核心概念与简单代码实现。ViT 的灵感源于“一图胜千言”这一观点,即图像可被理解为x单词的组合。论文详细阐述了这一想法,并提供了PyTorch代码实现的教程。
ViT的实现包括关键的图像转换为embedding步骤。以(1,3,6,6)的为例,假设patch_size为3,model_dim=8,那么每个patch包含的像素点数为9。实现时,可以采用naive方法,即提取每个patch的像素点,再通过与权重向量进行矩阵乘法得到特征向量。或者使用二维卷积方法,通过尺寸为(model_dim, batchsize, patch_size, patch_size)的kernel进行卷积运算,步长为patch_size以确保没有像素重叠。两种方法得出的特征向量相同,其原理等同于矩阵乘法中的行与列相乘并相加。
在代码实现中,最重要的一步是将转换为embedding,以简化模型处理图像任务。ViT通过将图像分割为多个patch,并将这些patch转换为向量,简化了模型的输入和处理过程。这使得模型能够从像素级别的信息中抽象出更高层次的特征,从而提高识别性能。
为了使模型能够有效地处理不同大小的图像,通常会使用固定尺寸的patch,这有助于模型学习更加通用的特征表示。在训练过程中,模型通过反向传播来优化参数,以最小化预测误差。
总结,ViT通过将图像转换为embedding并利用Transformer架构进行处理,为图像识别任务提供了一种高效且灵活的方法。其代码实现强调了关键步骤和原理,为初学者提供了实践和深入理解的基础。
NLP 论文阅读系列: P-Tuning
P-Tuning论文概述
P-Tuning是一种针对自然语言处理(NLP)任务的新型方法,该论文提出了一种创新的模型调整策略,通过结合预训练模型和特定任务的调整来提升模型性能。论文详细探讨了其方法细节,包括如何在保持预训练模型泛化能力的同时,针对特定任务进行微调,以增强模型的针对性。 研究方法部分,作者首先介绍了基础的预训练模型架构,然后详细阐述了P-Tuning的具体操作步骤,包括如何选择合适的调整点,以及如何设计有效的调整策略。此外,他们还通过实验展示了这种技术在多个NLP任务上的实际应用效果。 结论部分,作者总结了P-Tuning的优势,它能够在不大幅牺牲预训练模型性能的基础上,显著提升任务特定的性能。实验结果显示,相比于传统的调整策略,P-Tuning在多种NLP任务中都取得了令人瞩目的效果,证明了其在实际应用中的可行性与有效性。 这篇论文为NLP领域提供了一种新的思考方向,对于优化模型在特定任务上的表现具有重要参考价值,值得深入研究和实践。W2NER论文详解
论文: arxiv.org/pdf/....
代码: github.com/ljynlp/W2NER
W2NER模型将命名实体识别(NER)任务转化为预测word-word(字-字)的关系,能够统一处理扁平实体、重叠实体和非连续实体三种NER任务。
模型假定摄入的句子X由N个token或word组成,X = { x_1,x_2,...,x_N},对每个word pair(x_i,x_j)中的两个word关系类别R进行预测,其中R属于{ None,NNW,THW-^*}。
以一个具体例子为例(蓝色箭头表示NNW、红色箭头表示THW-*),分析句子中两个症状实体“aching in legs”和“aching in shoulders”之间的关系,构建二维矩阵表示句子按word维度。
模型架构主要是预测word pair中两个word之间的关系,如图所示。
数据流转过程中,对output的最后一个维度取softmax,得到word-word pair,再进行关系解码。
模型中存在四种情况:扁平实体(情况a)、重叠实体(情况b)、扁平实体+非连续实体(情况c和情况d)。
源码中,B表示batch_size,L表示当前句子的长度。以句子“常建良,男”为例,实体为“常建良(Name类型)”,数据输入格式包括pieces2word、pieces2word、grid_mask2d、grid_labels等。
模型代码包括主类Model、ConvolutionLayer类、CoPredictor类、MLP类和Biaffine类。
参考资料包括博客、知乎专栏和参照代码。
NLP中的范式转移和统一范式:Paradigm Shift in Natural Language Processing
原论文地址: arxiv.org/abs/....
github: github.com/txsun/nl...
1、Introduction
范式(paradigm)是一种用于构建任务的模型框架,例如,命名实体识别(NER)任务可以通过序列标注(sequence labeling)范式来解决。当前的NLP任务可以被归为7种范式:Class(分类), Matching(匹配), SeqLab(序列标注), MRC(阅读理解), Seq2Seq(序列到序列), Seq2ASeq, and (M)LM((掩码)语言模型)。
尽管许多任务通常有专门的范式来解决,但最近的研究表明,某些范式可以泛化到多种任务上。例如,MRC和seq2seq可以用于解决NER任务(以前是利用SeqLab范式来处理这个任务的)并取得SOTA效果。在预训练模型时代(GPT/BERT/T5)中,一些范式显示出巨大的潜力,可以统一所有NLP任务,例如Masked LM和LM,通过prompt的方式可以处理所有NLP任务。
在第2章,介绍了7种范式的正式定义和对应的代表性任务、模型;第3章,介绍了最近的一些范式转移的研究工作;第4章,介绍了一些可以统一建模所有NLP任务的范式的design和challenge。
2、Paradigms in NLP
范式定义:数据集[公式],范式就是一个适合特定数据格式(或者说任务)的建模框架,也就是说每个数据集(任务)的[公式]和[公式]有特定格式。所以,我们把某个任务转换为这个范式的数据格式,这个任务就可以利用这个范式来解决。
3、Paradigm Shift in NLP Tasks
本章介绍了7种NLP任务的范式转移:文本分类、自然语言推理、命名实体识别、基于aspect的情感分析、关系抽取、文本摘要和语法分析(parsing)。
范式转移的趋势:随着预训练语言模型的崛起,越来越多的范式转移正在发生,并且是转移到PTM们擅长的领域,比如(M)LM,MRC和Seq2Seq。
4、Potential Unified Paradigms in NLP
统一模型的优势有:data efficiency(少样本学习能力)、Generalization(通过建模成合适的数据格式可以泛化到没见过的任务)、conveninece(方便部署服务)。
5、Conclusion
(M)LM可以利用更少的样本取得不错的效果,其他统一范式Matching、MRC和Seq2Seq则需要更多的标注数据做pretraining。当然这些范式的优势是:
而且,通过 self-supervised pre-training(T5/BART)或有监督预训练(EFL),这些范式对比(M)LM也可以去的不错的效果。所以这些统一范式都是非常值得研究。