Young Blog

You still have lots more to work on.

EDA数据探索性分析

天池比赛二手车交易价格预测

EDA数据探索性分析 EDA目标 EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。 on...

天池比赛赛题理解

天池比赛赛题理解

二手车交易价格预测 一、赛题与数据 1.赛题数据 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。 ...

PyTorch系列之文本分类|数据增强|模型微调

文本分类|数据增强|模型微调

Task08:文本分类|数据增强|模型微调 文本情感分类 Text classification is a common task in natural language processing, which transforms a sequence of text of indefinite length into a category of text. This section w...

PyTorch系列之优化算法进阶|word2vec|词嵌入进阶

优化算法进阶|word2vec|词嵌入进阶

Task07:优化算法进阶|word2vec|词嵌入进阶 优化算法进阶 Momentum 目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。...

PyTorch系列之批量归一化和残差网络|凸优化|梯度下降

批量归一化和残差网络|凸优化|梯度下降

Task06:批量归一化和残差网络|凸优化|梯度下降 批量归一化(Batch Normalization) Training deep neural nets is difficult. And getting them to converge in a reasonable amount of time can be tricky. In this section, we descri...

PyTorch系列之卷积神经网络|LeNet

卷积神经网络|LeNet

Task05:卷积神经网络基础|leNet|卷积神经网络进阶 卷积神经网络基础 二维互相关(cross-correlation)运算 二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在...

PyTorch系列之机器翻译|注意力机制|Transformer

机器翻译|注意力机制|Transformer

Task04:机器翻译及相关技术|注意力机制与Seq2seq模型|Transformer 机器翻译 困难之处:输出序列的长度可能与源序列的长度不同 padding:每个batch的句子长度不一样,所以需要padding,padding后句子长度保持一致 def pad(line, max_len, padding_token): if...

PyTorch系列之循环神经网络进阶

循环神经网络进阶

Task03:循环神经网络进阶 模型选择、过拟合和欠拟合 验证数据集 从严格意义上讲,测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型,如调参。由于无法从训练误差估计泛化误差,因此也不应只依赖训练数据选择模型。鉴于此,我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集,简称验证集...

PyTorch系列之循环神经网络基础

循环神经网络基础

Task02:循环神经网络基础 Torch 复杂函数理解 scatter_(input, dim, index, src) 将src中数据根据index中的索引按照dim的方向填进input中 scatter_(input, dim, index, src) 等价于 input.scatter_(dim, in...

PyTorch系列之线性回归|Softmax与分类模型|多层感知机

线性回归|Softmax与分类模型|多层感知机

Task01:线性回归|Softmax与分类模型|多层感知机 Torch 操作 torch 乘法 torch.mm(a, b) mm只能进行矩阵乘法,不可以是tensor,也就是输入的两个tensor维度只能是 $(n\times m)$ 和 $(m\times p)$ ...