当前位置：首页 > 娱乐 > 正文

suwei(weitiger)

admin
娱乐
2022-09-17
89

嗨，欢迎来到纸院每日精选专栏。paper Institute(paper.yanxishe.com)每天精选人工智能前沿学术论文，供您参考。以下是今天的精选-

基于音频的大熊猫 *** 成功自动预测

垃圾进，垃圾出？《社会计算》中的机器学习应用论文是否报告了人类标注的训练数据从何而来？

深度学习与传统计算机视觉

DDPG的问题:理解回报稀少的确定性环境中的失败

预训练百科全书:弱监督知识-预训练语言模型

用于神经文本生成的区分分布恢复

文本内容的整体标签推荐模型

句子边界内和跨句子边界的神经关系提取

测量组合概括:一个综合的方法& gt《星际争霸》全长游戏的强化学习研究

关于大熊猫的论文：用声音预测 *** 成功与否

基于音频的大熊猫 *** 成功自动预测

作者:闫/唐茂林/赵/齐/侯蓉/张

发布时间:2019年12月24日

论文链接:https://paper.yanxishe.com/review/7884

推荐理由:使用GRU和注意力的论文很多，但本文是唯一一篇使用卷积+双向GRU+注意力来研究大熊猫声音的论文，并且来自四川省濒危野生动物保护国家重点实验室——成都大熊猫研究基地。

这篇论文的研究课题有助于我们更多地了解大熊猫。一方面，大熊猫一般是安静的动物，不会发出太多的声音，但是在繁殖季节会发出更多的声音，这说明声音对求偶和 *** 有一定的作用。之前的生物学研究也证明了这种相关性。另一方面，很难确定熊猫 *** 后是否成功受孕，这不仅是因为熊猫胎儿非常小，只能通过其他因素观察，还因为人工繁殖的熊猫“为了享受更好的待遇而假装怀孕”。因此，本文的目标是通过录制的熊猫语音来预测成功怀孕。整个工作流程包括分割、体积和长度标准化、特征提取，以及用包含卷积+GRU+注意力的深度神经网络预测成功怀孕。作者在过去9年收集的声音数据集上进行了实验，得到了潜在的结果。准确的预测可以帮助大熊猫的繁殖。

垃圾进垃圾出？社交计算中的机器学习应用论文是否报告了人为训练数据的来源？

Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From?垃圾进，垃圾出？《社会计算》中的机器学习应用论文是否报告了人类标注的训练数据从何而来？

作者:Geiger r . Stuart/Yu Kevin/杨燕来/戴敏迪/邱洁/唐Rebekah/黄Jenny

发布时间:2019年12月17日

论文链接:https://paper.yanxishe.com/review/7889

亮点:许多新应用领域的机器学习项目都涉及到为特定目的标记数据的团队，从雇佣人群工作者到作者自己标记数据。这种任务非常类似于结构化内容分析(或结构化内容分析的形式)，这是社会科学和人文科学中的一种长期方法，有许多既定的最佳实践。

在这篇论文中，作者调查了社会计算中机器学习应用论文的样本大小——特别是ArXiv和传统出版物在Twitter数据上执行ML分类任务的论文——并提供了关于此类最佳实践是否得到遵循的具体细节。

作者的团队对每篇论文进行了多轮结构化内容分析，以确定以下内容:论文是否报告了标记者是谁，他们的资质如何，他们是否独立标记了相同的项目，评分者之间的可靠性指标是否公开，是否向标记者提供了培训水平和/或说明，是否公开了人群工作者的薪酬，以及是否公开了培训数据。我们之间有很大的差异，我们是否遵循和记录这样的做法。许多关于机器学习的研究和教育都专注于一旦“黄金标准”训练数据可用时该做什么，但我们首先围绕这些数据是否可靠这一同样重要的方面来讨论这个问题。

深度学习和传统的计算机视觉比较

Deep Learning vs. Traditional Computer Vision深度学习与传统计算机视觉

作者:尼尔·奥马奥尼/肖恩·坎贝尔/安德森·卡瓦略/苏曼·哈拉帕纳哈里

发布时间:2019年4月18日

论文链接:https://paper.yanxishe.com/review/7885

亮点:核心问题:在深度学习快速发展的背景下，传统的计算机视觉技术在计算机视觉领域是否还有意义？

这是一篇评论文章。本文介绍了传统的计算机视觉技术和当前的深度学习视觉技术之间的关系，它们之间的关系应该是互补的，并利用彼此的优势。深度学习推动了数字图像处理的极限。但是，这并不意味着DL兴起前几年一直在逐步发展的传统计算机视觉技术已经过时。本文将分析每种方法的优缺点。本文旨在推动关于经典计算机视觉技术知识是否应该保留的讨论。本文还将讨论如何将计算机视觉的这两个方面结合起来。本文回顾了最近的几种混合方法，这些方法证明了提高计算机视觉性能和解决永远不适合深度学习的问题的能力。例如，将传统的计算机视觉技术与深度学习相结合，在新兴领域(如全景视觉和3D视觉)非常流行，但对于这些领域，深度学习模型并没有得到充分的优化。

DDPG的问题：通过稀疏的奖励了解确定性环境中的失败

The problem with DDPG: understanding failures in deterministic environments with sparse rewardsDDPG的问题:理解回报稀少的确定性环境中的失败

作者:马瑟论纪尧姆/佩兰·尼古拉斯/西高德·奥利维尔

发布时间:2019年11月26日

论文链接:https://paper.yanxishe.com/review/7872

推荐理由:在状态和动作连续的环境空中，最先进的演员关键强化学习算法可以解决非常复杂的问题，但在看似无关紧要的环境中可能会失败，但这种失败的原因仍然知之甚少。在稀疏报酬和确定性环境的特殊情况下，我们给出了这些失败的形式化解释。首先，用一个非常基本的控制问题，说明学习过程可能会陷入一个不良解对应的固定点。然后，通过总结所研究的实例，详细分析了潜在的机制，使人们对这些算法的收敛方式有了新的认识。由此产生的观点为我们所强调的问题的现有解决方案提供了新的思路，并提出了其他可能的方法。

预培训的百科全书：弱监督的知识预培训的语言模型

Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model预训练百科全书:弱监督知识-预训练语言模型

作者:熊；杜；王；杨

发布时间:2019年12月20日

论文链接:https://paper.yanxishe.com/review/7870

推荐理由:预训练语言模型的最新突破表明，自监督学习对于各种NLP任务都是有效的。除了语法和语义的标准NLP任务之外，预训练模型对涉及真实世界知识的任务进行了显著改进，这表明大规模语言建模可能是一种捕获知识的隐式方法。在这项工作中，我们将进一步研究BERT等预训练模型在多大程度上可以通过使用事实来完成任务，从而捕获知识。此外，我们还提出了一个简单有效的弱监督预训练目标，该目标明确地强制模型加入关于真实世界实体的知识。用我们的新目标训练的模型在完成任务的事实上有了显著的提高。应用于下游任务时，我们的模型在四个实体相关问答数据集(即WebQuestions、TriviaQA、SearchQA和Quasar-T)上始终优于BERT，平均提升2.7 F1，并提供了标准的细粒度实体类型数据集(例如FIGER)，准确率提升5.7。

用于神经文本生成的差异化分布恢复

Differentiated Distribution Recovery for Neural Text Generation用于神经文本生成的区分分布恢复

作者:李佳宁/燕艳兰/贾凤国/徐俊和程学启

发布时间:2018年12月19日

论文链接:https://paper.yanxishe.com/review/7864

亮点:基于递归神经网络(RNNLM)的神经语言模型显著提高了文本生成的性能，但以图灵测试通过率表示的生成文本的质量仍然差强人意。一些研究者建议使用对抗训练或强化学习来提高质量，但这种方法通常会在训练和参数调整的过程中带来很大的挑战。通过对组织的分析，发现RNNLM的问题来源于使用最大似然估计(MLE)作为目标函数，要求生成的分布准确还原真实分布。这一要求有利于高世代多样性，从而限制了世代质量。当整体质量较低时，这是不合适的，因为高世代多样性通常表明许多错误，而不是多样性的良好样本。本文提出实现区分分布式恢复，简称DDR。关键思想是使最佳生成概率与真实概率的β次方成比例，

文本内容的整体推荐模型

An Integral Tag Recommendation Model for Textual Content文本内容的整体标签推荐模型

作者:唐世杰1/袁瑶1/苏伟章1/冯旭1

发布时间:2018年12月20日

论文链接:https://paper.yanxishe.com/review/7867

推荐理由:为在线文本内容推荐合适的标签是更好地组织和使用内容的关键组成部分。在本文中，我们确定了影响标签推荐准确性的三个支柱:(1)序列文本建模，这意味着文本的内在序列排序和不同区域可能对相应的标签具有重要意义；(2)标签相关性，指某一文本内容的标签通常在语义上相互关联；(3)内容-标签重叠，即内容和标签的词汇重叠。然而，现有的方法没有考虑这三个方面，导致标签推荐不尽人意。在本文中，我们提出了一个完整的模型，在一个连贯的编码器-解码器框架中编码所有这三个方面。具体来说，(1)编码器利用注意机制，通过递归神经网络对文本内容的语义进行建模；(2)解码器通过预测路径来处理标签相关性；(3)共享嵌入层和指示器功能在编码器-解码器地址的内容标签上重叠。在三个真实数据集上的实验结果表明，该方法在推荐精度上明显优于现有方法。

句子边界内和跨句子边界的神经关系提取

Neural Relation Extraction Within and Across Sentence Boundaries句子边界内和跨句子边界的神经关系提取

作者:Pankaj Gupta/Subburam Rajaram/Hinrich schütze/Bernt和Rassy/Thomas Runkler

发布时间:2018年12月20日

论文链接:https://paper.yanxishe.com/review/7866

推荐理由:过去的关系抽取工作主要集中在单句中实体对之间的二元关系上。最近，NLP社区对跨多个句子的实体对中的关系抽取感兴趣。在本文中，我们提出了一种新的架构:基于句子依赖的神经网络(iDepNN)。PNN通过递归和递归神经网络对最短和增强的依赖路径进行建模，以提取句子内和跨(内部)边界的关系。与SVM和神经网络基线相比，iDepNN对于跨句子关系中的假阳性更可靠。我们在新闻链(MUC6)和医学(BioNLP共享任务)领域的四个数据集上评估了我们的模型。这些数据集实现了最先进的性能，并显示了句子到句子关系的准确性和召回率之间更好的平衡。我们的表现比参加BioNLP分享任务2016的11支队伍都要好。F1与获胜车队相比，增长率为5.2% (0.587比0.558)。作者还发表了MUC6的跨句笔记。

测量成分泛化：真实数据的综合方法

Measuring Compositional Generalization: A Comprehensive Method>作者：Keysers Daniel /Schärli Nathanael /Scales Nathan /Bui *** an Hylke /Furrer Daniel /Kashubin Sergii /Momchev Nikola /Sinopalnikov Danila /Stafiniak Lukasz /Tihon Tibor /Tsarkov Dmitry /Wang Xiao /van Zee Marc /Bousquet Olivier测量组合概括:一个综合的方法& gt作者:Keysers Daniel/sch rli Nathan Ael/Scales Nathan/buis man hyl ke/fur rer Daniel/kash ubin Sergii/mom chev Nikola/Sinopalnikov Danila/stafi niak Lukasz/Tihon Tibor/Tsarkov Dmitry/王晓/van Zee Marc /Bousquet Olivier

发布时间:2019年12月20日

论文链接:https://paper.yanxishe.com/review/7865

亮点:最先进的机器学习方法在组合泛化方面显示出局限性。同时，缺乏全面衡量该功能的实际基准，这使得难以发现和评估改进。我们引入一种新的方法，通过最大化组件的散度，保证训练集和测试集之间的原子散度较小，来系统地构造这类基准，并将这种方法与其他方法进行定量比较，创建一个组件泛化基准。我们提出了一个基于该方法的大型真实自然语言问答数据库，并用它分析了三种机器学习架构的泛化能力。我们发现他们不能概括成分，成分的散度和准确度之间存在着惊人的强负相关。我们还将演示如何使用我们的方法在现有的扫描数据集上创建新的合成基准，从而证实这些发现。

关于星际争霸游戏的强化学习

On Reinforcement Learning for Full-‐length Game of StarCraft《星际争霸》全长游戏的强化学习研究

作者:甄家胖/若/周玉萌/宜章/杨御/桐庐

发布时间:2018年12月20日

论文链接:https://paper.yanxishe.com/review/7860

推荐理由:《星际争霸2》对强化学习提出了巨大的挑战。其主要困难包括状态与行动之间的巨大时间空和长期愿景。本文研究了星际争霸2的分层强化学习方法。层次包括两个抽象层次。一种是从专家轨迹中自动提取的宏动作，可以将动作空减少一个数量级，但仍然有效。另一种是两层的分层架构，这种架构是模块化的，易于扩展，从而可以将课程从简单的任务变成更复杂的任务。研究了该体系结构的强化训练算法。在一张64x64的地图上，使用限制单位，与难度1级的内置AI相比，我们的胜率在99%以上。通过课程转移学习算法和混合战斗模型，可以对付最难对付的内置不作弊AI(7级)的人族，两天训练一次就能获得93%以上的神族胜率。机器只有48个CPU核心和8个K40 GPU。在与一个从未见过的对手进行测试时，它也表现出了强大的泛化性能，包括作弊级别的内置AI和所有级别的虫族和神族内置AI。我们希望本研究能为今后的大规模强化学习研究提供一些启示。