这是一个澳门萄京8522娱乐网址有趣的用例

当前位置:澳门萄京8522娱乐网址 > 澳门萄京8522娱乐网址 > 这是一个澳门萄京8522娱乐网址有趣的用例
作者: 澳门萄京8522娱乐网址|来源: http://www.diabolinks.com|栏目:澳门萄京8522娱乐网址

文章关键词:澳门萄京8522娱乐网址,数据集

  还在发愁找不到数据集训练你的模型?快来收藏一下史上最全的深度学习数据集汇总吧,有它在,一切都ok~

  深度学习的关键是训练。无论是从图像处理到语音识别,每个问题都有其独特的细微差别和方法。

  但是,你可以从哪里获得这些数据?现在你看到的很多研究论文都使用专有数据集,而这些数据集通常不会向公众发布。如果你想学习并应用你新掌握的技能,数据就成为一个问题。

  在本文中,我们列出了一些高质量的数据集,每个深度学习爱好者都可以使用并改善改进他们模型的性能。拥有这些数据集将使你成为一名更好的数据科学家,并且你将从中获得无可估量的价值。我们还收录了具有最新技术(SOTA)结果的论文,供你浏览并改进你的模型。

  首先要做的事——下载这些数据集,这些数据集的规模很大!所以请确保你有一个快速的互联网连接。

  MNIST是最受欢迎的深度学习数据集之一,这是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库,用于在实际数据中尝试学习技术和深度识别模式,同时可以在数据预处理中花费最少的时间和精力。

  记录数量:330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。

  ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个单词,ImageNet平均提供了大约1000个图像来说明每个单词。

  记录数量:总图像是大约是1,500,000,每个都有多个边界框和相应的类标签。

  该数据集是一个包含近900万个图像URL的数据集,这些图像跨越了数千个类的图​​像级标签边框并且进行了注释。该数据集包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。

  SOTA:Resnet 101图像分类模型(在V2数据上训练):模型检查点,检查点自述文件,推理代码。

  VQA是一个包含相关图像的开放式问题的数据集,这些问题需要理解视野和语言。这个数据集的一些有趣的特点是:

  记录数量:265,016张图片,每张图片至少3个问题,每个问题10个基本事实答案。

  这是用于开发对象检测算法的真实世界的图像数据集,它需要最少的数据预处理。它与本列表中提到的MNIST数据集类似,但具有更多标签数据(超过600,000个图像),这些数据是从谷歌街景中查看的房屋号码中收集的。

  该数据集是图像分类的另一个数据集,它由10个类的60,000个图像组成(每个类在上面的图像中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分:5个训练批次和1个测试批次,每批有10,000个图像。

  Fashion-MNIST包含60,000个训练图像和10,000个测试图像,它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

  这是电影爱好者的梦幻数据集,它意味着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据供你使用。原始文本和预处理的单词格式包也包括在内。

  顾名思义,该数据集包含有关新闻组的信息。为了管理这个数据集,从20个不同的新闻组中获取了1000篇Usenet文章。这些文章具有典型特征,如主题行,签名和引号。

  Sentiment140是一个可用于情感分析的数据集。它是一个流行的数据集,它能让你的NLP旅程更加完美。情绪已经从数据中预先删除,最终的数据集具有以下6个特征:

  在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。Synsets是同义词组,每个描述不同的概念。WordNet的结构使其成为NLP非常有用的工具。

  记录数量:通过少量“概念关系”将117,000个同义词集与其他同义词集相关联。

  这是Yelp为了学习目的而发布的一个开放数据集。它由数百万用户评论,商业属性和来自多个大都市地区的超过20万张照片组成。这是一个非常常用的全球NLP挑战数据集。

  记录数:5,200,000条评论,174,000条商业属性,20万张照片。

  该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。这个强大的NLP数据集你可以通过单词,短语或段落本身的一部分进行搜索。

  此数据集包含从数千名博主收集的博客帖子,并且已从集。每个博客都作为一个单独的文件提供,每个博客至少包含200次常用英语单词。

  该数据集包含四种欧洲语言的训练数据,它存在的任务是改进当前的翻译方法。你训练以下任何语言对:

  此列表中的另一项是由MNIST数据集启发!这是为了解决识别音频样本中的口头数字的任务而创建的。这是一个开放的数据集,所以希望随着人们继续贡献更多样本,它会不断增长。目前,它包含以下特点:

  FMA是音乐分析的数据集,该数据集由full-length和HQ音频、预先计算的特征以及音轨和用户级元数据组成。它是一个开放数据集,用于评估MIR中的几个任务。以下是数据集连同其包含的csv文件列表:

  · tracks.csv:106,574首曲目的每首曲目元数据,如ID,标题,艺术家,流派,标签和播放次数。

  · genres.csv:163种风格的ID与他们的名字和父母(用于推断流派层次和顶级流派)。

  该数据集包含舞厅跳舞音频文件,以真实音频格式提供了许多舞蹈风格的一些特征摘录。 以下是数据集的一些特征:

  在百万歌曲数据集是音频功能和元数据的一百万当代流行音乐曲目可自由可用的集合。澳门萄京8522娱乐网址 其目的是:

  · 作为使用API​​创建大型数据集的捷径(例如Echo Nest的);

  数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的功能。示例音频可以通过使用哥伦比亚大学提供的代码从7digital等服务中获取。

  该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在语言模型上进行了训练,适合评估,网址为:。

  VoxCeleb是一个大型的说话人识别数据集。它包含约1,200名来自YouTube视频的约10万个话语,数据大部分是性别平衡的(男性占55%)。名人跨越不同的口音,职业和年龄,开发和测试集之间没有重叠。对于隔离和识别哪个超级巨星来说,这是一个有趣的用例。

  仇恨以种族主义和性别歧视为形式的言论已成为麻烦,重要的是将这类推文与其他人分开。在这个实践问题中,我们提供既有正常又有仇恨推文的Twitter数据。你作为数据科学家的任务是确定推文是仇恨推文,哪些不是。

  对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。所有图像都是手动选择的,并从视频帧中剪切,导致尺度,姿势,表情,照度,年龄,分辨率,遮挡和化妆的高度可变性。

  这个数据集包含超过8000个来自10个不同城市声音摘录。这个实践问题旨在向你介绍常见分类方案中的音频处理。

  记录数: 来自10个城市的8732个声音标注的声音片段(= 4s)

  以上就是我们今天介绍的25个深度学习的开放数据集,如果你觉得有用,请及时转发给你身边的人!

  一维卷积 一维卷积主要用作降维或者升维。以下所有例子都以语音/NLP的场景讲述,输入的矩阵为batch x T x...

  前言 在这篇文章中,我们想展示一些不同于流行的东西。这些都是深夜浏览GitHub的感悟,以及同事们分享的压箱底东西...

  神经网络计算标准四大标准步骤: 第一步,构建网络,设计网络拓扑结构,澳门萄京8522娱乐网址定义前向计算函数、损失函数,梯度计算函数和参数...

  前言 最近在网上找到一本亚马逊的技术大佬写的机器学习入门书籍,总共100多页,刚好最近在学习机器学习相关的知识,就...

  深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案

  摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Del...

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!