橙色云资讯 - 工业互联网行业信息门户

赛道 | 深兰科技折桂 2021SemEval，双赛道比拼中获得“两冠一亚”

AI世界 2021-08-06

1992 字丨阅读本文需 7 分钟

导读

SemEval是由国际计算语言学协会(Association for Computational Linguistics,ACL)主办的国际语义评测大赛, SemEval是全球范围内影响力最强、规模最大、参赛人数最多的语义评测竞赛。自2001年起,SemEval已成功举办十五届,吸引了卡内基梅隆大学、哈工大、中科院、微软和百度等国内外一流高校、顶级科研机构和知名企业参与。

8 月 1 日- 6 日,SemEval2021与ACL-IJCNLP 2021 在泰国曼谷共同举办。深兰科技作为人工智能头部企业,参加了“词汇复杂度预测(任务一)”和“幽默性和冒犯性文本识别与评估(任务七)”两个大任务中的6个子任务,获得了2项第一、1项第二、1项第三,共计4项top3。团队在赛事中的运用的相关技术和模型已成功应用于公司的自动化机器学习平台中。

赛事介绍

任务一Lexical Complexity Prediction (LCP)

任务一为上下文中词汇的复杂度预测任务,任务分为两个子任务,子任务1为预测单个单词的复杂度,子任务2为预测词组(多词表达)的复杂度。其中数据样例如下:

Table 1 数据样例

结合数据可以看出当前任务为一个回归任务,即基于上下文预测给定词汇的复杂度,深兰团队在两个子任务的排名如下,团队在子任务1获得了第二名,在子任务2中获得了第一名。

子任务1 成绩排名

子任务2 成绩排名

任务七HaHackathon: Detecting and Rating Humor and Offense

任务七为幽默性和冒犯性文本识别与评估任务,也是首次将幽默性和冒犯性识别结合起来的任务,因为文本对一些用户来说是幽默的,但是对其他用户来说可能是冒犯的,举办方共将任务划分为幽默性识别和冒犯性识别,其中幽默性识别又被划分为三个子任务,共计4个子任务,分别为:

子任务1a:预测文本是否会被视为幽默,为二分类任务;

子任务1b:如果文本被归类为幽默,预测它的幽默程度,为回归任务;

子任务1c:如果文本被归类为幽默,预测当前幽默评级是否有争议,二分类任务;

子任务2a:预测文本的冒犯程度,为回归任务

团队同时参加了4个任务,其中在任务1a、1c、2a取得了较好的成绩,在子任务2a中获得了第一名,在子任务1a中获得了第三名,在子任务1c中获得了第五名。

Task 1a

Task 2a

方案

上述几个任务都是标准的分类任务或者回归任务,深兰团队采取了统一的模型和训练方案,半自动化的完成模型的训练和融合。模型采用当前主流的预训练模型,如BERT,基于预训练模型构建分类和回归模型,模型图如下:

模型图

模型主要分为以下几个部分,文本输入、CLS向量加权平均、全连接、Multi-sample dropout:

文本输入针对句子级别分类或者回归模型,一般为单个句子输入或者两个句子。例如对于上述Task7为单个句子输入,而对于Task1则需要变成两个句子输入,句子一为待识别的词,句子二为上下文文本。

BERT有两个特殊的标示符,分别是[CLS]、[SEP],其中[CLS]在训练的时候,用在Next Sentence Prediction任务上,[CLS]可以代表整个句子的语义表示,[CLS]通常用在句子级别的分类任务上。当前任务也是句子级别的分类任务,深兰团队的模型也是采取[CLS]位置的向量进行分类。为了提取更深层次的语义特征,深兰团队不仅仅用BERT最后一层的输出,而是选取多层[CLS]位置向量进行加权平均,来代表整个句子的语义表示。

Multi-sample dropout 是dropout的一种变种,传统 dropout 在每轮训练时会从输入中随机选择一组样本(称之为 dropout 样本),而 multi-sample dropout 会创建多个 dropout 样本,然后平均所有样本的损失,从而得到最终的损失,multi-sample dropout 共享中间的全连接层权重。通过综合 M个dropout 样本的损失来更新网络参数,使得最终损失比任何一个 dropout 样本的损失都低。这样做的效果类似于对一个minibatch中的每个输入重复训练 M 次。因此,它大大减少训练迭代次数,从而大幅加快训练速度。由于大部分运算发生在 dropout 层之前的BERT层中,Multi-sample dropout 并不会重复这些计算,对每次迭代的计算成本影响不大。实验表明,multi-sample dropout 还可以降低训练集和验证集的错误率和损失。

损失函数,当前模型可以适用于分类和回归任务,只需改变损失函数即可,对于分类任务主要采用的损失函数为Cross Entropy 、Binary Cross Entropy、focal loss等,对于回归任务主要采用的损失函数为均方误差(Mean Square Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)等。

方案流程解读

基于上述模型我们的方案流程为:

1、选择合适的预训练模型,首先基于构建好的baseline选取多种预训练模型进行测试,如BERT、RoBERTa、ALBERT、ERNIE等,之后选取最好的或者几个比较好的预训练模型。

2、领域自适应预训练(DAPT),利用在所属的领域数据上继续预训练,例如针对Task1,数据主要来源为医疗、圣经、欧洲议会记录,则选择这几个领域的数据继续进行掩码语言模型任务(MLM),提升预训练模型在当前领域上的性能。

3、任务自适应预训练(TAPT),在当前和任务相关的数据集上进行掩码语言模型(MLM)训练提升预训练模型在当前数据集上的性能。

4、对抗训练,对抗训练是一种引入噪声的训练方式,可以对参数进行正则化,从而提升模型的鲁棒性和泛化能力。我们采用FGM(Fast Gradient Method),通过在嵌入层加入扰动,从而获得更稳定的单词表示形式和更通用的模型,以此提升模型效果。

5、伪标签,将测试集打上标签,并加入到训练集中,增大训练集的数量,提升最后的效果。

6、知识蒸馏,知识蒸馏由Hinton在2015年提出,主要应用在模型压缩上,通过知识蒸馏将大模型所学习到的有用信息来训练小模型,在保证性能差不多的情况下进行模型压缩。我们将利用模型压缩的思想,采用模型融合的方案,融合多个不同的模型作为teacher模型,将要训练的作为student模型。

7、模型融合,为了更好地利用数据我们采用7折交叉验证,针对每个会使用了多种预训练模型,又通过改变不同的参数随机数种子以及不同的训练策略训练了多个模型。最后采用线性回归、逻辑回归等机器学习模型进行融合。

总结

利用上述构建的框架,团队参加了任务一和任务7共计6个子任务,获得了4项奖项,充分证明了方案的可行性,并且当前方案相关技术以及模型成功应用于公司的自动化机器学习平台中,深兰自动化机器学习平台以低门槛、广覆盖、高精度、少成本的优势,为各个行业领域提供核心算法。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：AI世界

0 0

参与评论

登录后参与讨论 0/1000

下一篇欠拟合与过拟合技术总结

前言:机器学习的模式是通过大量的数据喂给一...

2021-06-21

赛道 | 深兰科技折桂 2021SemEval，双赛道比拼中获得“两冠一亚”

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

赛道 | 深兰科技折桂 2021SemEval，双赛道比拼中获得“两冠一亚”

参与评论

为你推荐

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

每个细分方向都是万亿级市场，超6000家公司携资本入局建筑业数字化 | 年度行业

CES 2022汽车科技最全总结：展会很冷、汽车很热

万里牛B轮融资过亿，电商SaaS究竟有多吸金？

210618|1398家:内蒙古公布可再生能源消纳责任主体清单

拟上市公司早知道|衡源智能启动A股IPO辅导 优必选、必贝特等150家更新进展

看三大巨头如何逐鹿智能安防？精细化场景需求提升AI应用范围

“赢在南京·创业金陵”科技创新创业大赛圆满举行|北京·活动

再次创业的李一男官宣造车，已获5亿美元投资，首款车2022年上市｜ 镁客网每周硬科技领域投融资

虚拟股权？科创板定位在哪里？华勤技术IPO三答问询

中国芯片设计公司有哪些？北京上海广州等地芯片设计企业名单汇总

亚马逊、微软、苹果、谷歌：一文读懂科技巨头的2022医疗图谱（二）

Facebook改名换运？扎克伯格画出元宇宙10年大饼，连甩13个XR眼镜黑科技

收购欧菲光一年后，闻泰科技迅速打入果链，靠的是什么?

声迅股份参股成立交通科技公司，持股68%

智能家居“起风”，家电、科技企业纷纷跨界，低端需求“养活”了这些低门槛芯片企业

金心异解开“深圳创新密码”42：Tencent这棵树

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总

拟上市公司早知道|衡源智能启动A股IPO辅导优必选、必贝特等150家更新进展

再次创业的李一男官宣造车，已获5亿美元投资，首款车2022年上市｜镁客网每周硬科技领域投融资