AliExpress:在检索式问答系统中应用迁移学习 | PaperDaily #24

  • 时间:
  • 浏览:1

工业界问答系统存在着特定领域标签数据的严重缺陷的什么的什么的问题,却说 对响应效率有着比较严格的要求。

2. 迁移学习框架比较

针对第另一一八个什么的什么的问题,作者使用了迁移学习框架,并在传统迁移学习框架上引入了另一一八个半正定协方差矩阵来对领域内及领域间信息权重进行建模;针对第八个什么的什么的问题,作者放弃了精度更高但耗时很长的 LSTM-based 模型,采用了精度稍低但效率快一点 的 CNN 模型

本文模型除了在准确率、精度等方面稍逊于 state-of-art LSTM-based 模型外,均好于某些的对比模型,却说 响应时间快,能满足工业用需求。

图中显示了有一种现行的迁移学习框架。左图为全共享模型,作者认为它忽略了域内的行态信息;右图为 specifc-shared 模型,尽管考虑了域内以及域间的信息,但这样考虑它们之间的权重关系,即 Ws 与 Wsc 之间、Wt 与 Wtc 之间应该有关联。由此,引入了协方差矩阵 Ω 对你你你这名 关系进行建模。

■ 作者 | Zsank

数字化:

左上角每项即为权重以及半正定协方差矩阵的关系定义为 Wi 和 Wj 的关系,Wi、Wj 即为后面 提到的 Ws、Wsc、Wt 与 Wtc。

表格第二栏表示 CNN-based 模型,第三栏表示 LSTM-based 模型。 可见文中所采用的 hCNN 模型表现次好,但响应时间比第一好的 ESIM 快却说 ,却说 综合表现最好。

1. 基础模型比较

关于作者:麦振生,中山大学数据科学与计算机学院硕士生,研究方向为自然语言处理和问答系统。

文章亮点

本文作者:麦振生

3. 什么的什么的问题定义

实验结果如下:(只用 ACC 进行评估)

对协方差矩阵每个值取平方,作热图如下:

在 PI 任务上: 使用 Quora 数据集作为 source 数据集,爬取阿里线上的对话作为 target 数据集。数据统计如下表:

3. 在线评测

如图所示,用户提出 Query Question,进行预处理后,从 QA Pair 数据库中使用 Lucene 工具检索出 k 个最相关的 QA 对,却说 对相关什么的什么的问题进行排序,返回最相关什么的什么的问题的回答。 使用到的技术有语义识别(Paraphrase Identification)和自然语言推理(Natural Language Inference)。

1. 问答系统工作流程

GBDT 为 AliExpress 现用的最好的方式,文中模型精度相对 GBDT 提高较多,实在损耗了某些时间,但每个什么的什么的问题响应 50 毫秒对于工业用 chatbot 来说,还是在可接受范围内。

还可以 看一遍,Wsc 和 Wtc 正相关;Ws 和 Wsc 之间、Wt 和 Wtc 之间相关度很小。使用能较好地对域间小相关度进行缓解。

原文发布时间为:2017-12-11

2. 传统迁移学习的缺陷

给定另一一八个语录:

后面 为了提高 sharedNN 层的抗噪能力,增加了另一一八个分类器,由此引入对抗损失函数。

实验结果

预测标签 y。

实验结果:(DRSS为本文采用的框架)

■ 论文 | Modelling Domain Relationships for Transfer Learning on Retrieval-based Question Answering Systems in E-commerce

4. 模型图

可能你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

文章的损失函数看起来很长,但实在假使 另一一八个交叉熵的和,添加某些所有参数的正则项。训练时作者使用了另一一八个数学上的 trick:固定 Ω 后的损失函数是平滑函数,还可以 很方便地对所有参数求偏导。却说 再固定某些参数更新 Ω。

本人之后这样接触过迁移学习,但这篇文章对迁移学习的介绍很清晰,能给我个迁移学习大体的框架和思路。另外,引入协方差矩阵你你你这名 想法很有创意,实验证明也很有用,对域内域间信息有了直观的解释。却说 本文的模型也基本达到了工业界对精度和效率之间平衡的要求。难得的一篇对学术和对工业都有贡献的文章。

■ 链接 | https://www.paperweekly.site/papers/1312

文章评价

作者除了在线下对语义识别(Paraphrase Identification)任务和自然语言推断(Natural Language Inference)任务进行实验外,还发布到 AliExpress 上进行在线评测。

NLI 任务上: 使用 SNLI 数据集作为 source 数据集,某些八个数据集作为 target 数据集。

本文来自云栖社区协作伙伴“PaperWeekly”,了解相关信息还可以 关注“PaperWeekly”微信公众号

由后面 每项即为 specific-shared 框架,在 sourceNN、sharedNN 以及 targetNN 中添加右边方框内所示的混合 CNN 模型(基于语录编码的、基于语录交互的)。