科研训练第十八周——关于Attention的盘复_ian模型-程序员宅基地

技术标签: lstm  深度学习  自然语言处理  科研训练  

1.相关论文阅读

传送门:《Interactive Attention Networks for Aspect-Level Sentiment Classification》

1.1. introduction

略(如果你不了解ABSC任务

1.2. motivation

虽说是前几年的工作,但是这个part现在读起来,昂有种穿越的赶脚,大概是NLP发展比较快叭

  1. 基于特征工程SVM之类的,人工设计特征代价过大
  2. 基于深度学习的,40%的ABSC分类错误是由于没有考虑target导致的,而大多现有的工作忽视了对于目标target的建模

1.3. model

在这里插入图片描述

原文(机翻)
Ian模型由两部分组成,它们可以交互式地建模目标和上下文。以单词嵌入为输入,我们利用LSTM网络分别获取目标和上下文在单词水平上的隐藏状态。我们利用目标的隐藏状态和上下文的隐藏状态的平均值来监督注意向量的生成,利用注意机制来捕获上下文和目标中的重要信息。通过这种设计,目标和上下文可以影响交互式地生成它们的表示。最后,将目标表示和上下文表示连接为最终表示,并输入一个softmax函数,用于方面级情绪分类

大概思路是LSTM分别输出target和context的隐层表示,Attention的监督体现在,针对特定taget去关注特定的上下文,针对特定文本关注target,最终左右表示向量拼接起来是为了提高维度来增加准确率,用softmax输出情感分类结果。

具体步骤
1、词嵌入

2、LSTM处理获取最终表示
LSTM的公式(会的可以略过,不理解的戳这里
在这里插入图片描述
利用平均池化的方式(也就是隐层结点计算结果分别取平均)获得target以及context的表示:
在这里插入图片描述
3、注意力机制分配权重
如何计算注意力向量,以模型图右侧为例子:
依靠LSTM计算得出的上下文隐层表示 h c h_c hc和左侧池化得到的target目标表示 t a v g t_{avg} tavg来生成注意力向量
在这里插入图片描述

在这里插入图片描述
同理可以得到左侧的注意力向量:
在这里插入图片描述
将每个词对应的注意力向量和它对应的LSTM生成的隐层向量结合,得到最终的表示如下 c r c_r cr是右侧生成的, t r t_r tr是左侧生成的
在这里插入图片描述
4、 将 c r c_r cr以及 t r t_r tr拼接起来,作为最后的表示,用softmax做分类~

1.4. conclusion

消融实验结果:
这部分还没有结束复现,下周填一下坑
在这里插入图片描述
与其他模型的对比实验结果:
在这里插入图片描述

原文(机翻):
在本文中,我们设计了一个交互式注意网络(Ian)模型。Ian的主要思想是使用两个注意网络来交互式地建模目标和内容。Ian模型可以密切关注目标和上下文中的重要部分,并能很好地生成目标和上下文的表示。然后,Ian从在其他方法中总是被忽略的目标表示中获益。在SemEval2014上的实验验证,Ian可以学习目标和内容的有效特征,并为判断目标情绪极性提供足够的信息。案例研究还表明,Ian可以合理地注意那些对判断目标的情绪极性很重要的词汇。

2. 复现工作

2.0 preparation

Data:SemEval 2014
Embedding:GloVe

2.1. code

github代码链接,如果你愿意给我一颗小星星,刚学写得比较菜啦,有些报错和连接问题所以git用得不是很好,另外模型部分还有很多问题,有幸得话欢迎大佬指正或者讨论
模型部分:

import torch
import torch.nn as nn
import math
import torch.nn.functional as F
from utils.layers import DynamicLSTM,Attention

class MYIAN(nn.Module):
    def __init__(self,embedding_matrix,opt):
        """
        初始化模型
        :param embedding_matrix:
        """
        super(MYIAN,self).__init__()
        self.opt=opt
        self.embed=nn.Embedding.from_pretrained(torch.tensor(embedding_matrix,dtype=torch.float))
        self.target_lstm=DynamicLSTM(opt.embed_dim,opt.hidden_dim,num_layers=1,batch_first=True)
        self.context_lstm=DynamicLSTM(opt.embed_dim,opt.hidden_dim,num_layers=1,batch_first=True)
        self.target_attention=Attention(opt.hidden_dim)
        self.context_attention=Attention(opt.hidden_dim)
        self.dense=nn.Linear(opt.hidden_dim*2,opt.polarities_dim)


    def forward(self,inputs):
        text,target=inputs[0],inputs[1]
        context_len=torch.sum(text!=0,dim=-1)
        target_len=torch.sum(target!=0,dim=-1)

        """lstm"""
        context=self.embed(text)
        target=self.embed(target)
        context_hidden_list,(_,_)=self.context_lstm(context,context_len)
        target_hidden_list,(_,_)=self.target_lstm(target,target_len)

        """pool"""
        target_len=torch.as_tensor(target_len,dtype=torch.float).to(self.opt.device)
        target_pool=torch.sum(target_hidden_list,dim=1)
        target_pool=torch.div(target_pool,target_len.view(target_len.size(0),1))

        context_len = torch.as_tensor(context_len, dtype=torch.float).to(self.opt.device)
        context_pool = torch.sum(context_hidden_list, dim=1)
        context_pool = torch.div(context_pool, target_len.view(context_len.size(0), 1))

        """attention"""
        target_final,_=self.target_attention(target_hidden_list,context_pool)# target是k context_pool是q
        target_final=target_final.squeeze(dim=1)
        context_final,_=self.context_attention(context_hidden_list,target_pool)# context是k target是q--->对于特定的
        context_final=context_final.squeeze(dim=1)

        """合并"""
        x=torch.cat((target_final,context_final),dim=-1)

        """分类"""
        out=self.dense(x)

        return out
        

关于保存实验参数(仅仅是超参数的设置以及实验正确率):
一直想做,但是一直懒癌……其实写个Demo也不难,毕竟比起每次手动记录实验结果的时间消耗,这个还是比较划算der~

import csv
def my_log(opt):
    file = './log/logging.csv'

    '''表头'''
    # namelist4 = ['model_name', 'dataset', 'optimizer', 'initializer', 'lr',
    #              'dropout','l2reg','num_epoch','batch_size','log_step',
    #              'embed_dim','hidden_dim','position_dim','max_length','device',
    #              'repeats','max_test_acc','max_f1'
    #              ]
    # df = pd.read_csv(file, header=None, names=namelist4)
    # df.to_csv(file, index=False)

    with open(file,'a+') as f:
        csv_write = csv.writer(f)
        data_row = [opt.model_name,opt.dataset,opt.optimizer,opt.initializer,opt.learning_rate,
                    opt.dropout,opt.l2reg,opt.num_epoch,opt.batch_size,opt.log_step,
                    opt.embed_dim,opt.hidden_dim,opt.position_dim,opt.max_length,opt.device,
                    opt.repeats,opt.max_test_acc,opt.max_test_f1]
        csv_write.writerow(data_row)

2.1.1 实验中遇到的编程以及环境问题记录

其实问题不大,但是循环起来的时候一直在输出warn就很难受

报错代码:

context_len = torch.tensor(context_len, dtype=torch.float).to(self.opt.device)

改成:

context_len = torch.as_tensor(context_len, dtype=torch.float).to(self.opt.device)

2.2. results

改一改参数的话,应该会更高一点
目前用的优化器都是Adam
SGD+动量可以收敛但是效果不佳(基本在50%+范围浮动)
Laptop:

模型 test_acc test_f1
LSTM 0.691 0.603
IAN 0.719 0.660

Restaurant:

模型 test_acc test_f1
LSTM 0.748 0.613
IAN 0.750 0.615

2.2.1. others

因为ML结课作业的扩展部分是自己实现了一下几种深度学习常见的优化器,所以额外试着跑了一下不同优化器对于模型收敛的影响:
不知道是不是自己代码实验做得不够多的原因,总觉得优化器的设置也属于一个比较大的研究方向
SGD和ASGD基本上没有办法收敛emm比较让人费解,不知道是不是Attention的那边的模型不适合SGD这种的收敛。

  • sgd-lr(不加动量1e-5会在开始的时候严重震荡,虽然大体方向是正确的,但是效果很糟糕(值得一提的是,不加动量的sgd对于LSTM单一模型的影响影响不大,LSTM在同样设置下可以正常且较为快速地收敛)[Laptop测试集acc:0.53 f1:0.23]
    在这里插入图片描述
    按照论文的说法,加入momentum动量之后可以有效收敛:acc 0.539 f1 0.268
    在这里插入图片描述

  • Adamax相同参数下的效果比较好[Laptop测试集acc:0.697 f1:0.622]
    在这里插入图片描述

2.3 analysis

总体来讲,IAN相对于LSTM的提升效果没有特别大幅度(emmmmmmm不应该吖,还得改代码看看哪里出问题了,上一篇博文里我自己实现的LSTM最好的效果在Restaurant也是70%+,平均结果是65%,这篇用的LSTM是torch自带的组件),但是Attention机制的引入确实比单独的LSTM要好很多

Attention机制的讲解

【复习Attention基础的话暂时戳这里叭】
这个坑emm应该得等下周补一下,主要是目前接触的attention计算公式不是很多

可以忽视的碎碎念:

然后捏,发现这一周零零总总居然开了五次会议(好叭有些可能不算会议性质,并且一次比一次长)……放假了又好像没有完全放……
Attention是暑假也做过的工作,当时浅薄地过了一下模型,个中原理推敲得不细致以至于回忆起来基本没啥印象(机器人考试还考了这个,忘记真是不应该 ),借这个机会正好好好过一下,反正寒假还是蛮长滴
本周结束了一个小game,赎身的感觉很好,但是也发现了自己学习上的诸多毛病。很感慨的是数据挖掘的任务和平时做实验还有课程有很大的区别,对于数据本身预处理部分可能有时候比模型更重要(前提是选模型的方向要对哈)。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_45751990/article/details/122484587

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk

随便推点

matlab(4):特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析 时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;amp;gt;Jni-&amp;amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法