练一练
以下问题有助于您巩固对核心机器学习概念的理解。
预测能力
监督式机器学习模型使用包含有标签示例的数据集进行训练。模型会学习如何根据特征预测标签。不过,数据集中并非每个特征都有预测能力。在某些情况下,只有少数特征可用作标签的预测因子。在下面的数据集中,将价格用作标签,其余列用作特征。
练一练:
您认为哪三项特征最有可能预测汽车的价格?
A. 英里数(miles)、变速箱(gearbox)、品牌型号(make_model)
B. 颜色、高度、品牌型号。
C. 品牌型号、年份、英里数。
D. 轮胎尺寸(tire_size)、轴距(wheel_base)、年份。
答案:C。变速箱不是价格的主要预测因素。汽车的高度和颜色不能很好地预测汽车的价格。轮胎尺寸和轴距并不能很好地预测汽车的价格。而汽车的品牌/型号、年份和行驶里程可能是影响其价格的最有力预测因素。
监督学习和无监督学习
根据具体问题,您可以使用监督学习或无监督学习方法。例如,如果您事先知道要预测的值或类别,则可以选择监督学习。但是,如果您想了解数据集中是否包含相关示例的细分或分组,则可以选择无监督学习。
假设您有一个在线购物网站的用户数据集,其中包含以下列:
练一练:
如果您想了解访问该网站的用户类型,您会使用监督学习还是无监督学习?
A. 监督学习,因为我试图预测用户属于哪个类别。
B. 无监督学习。
答案:B。在监督学习中,数据集必须包含你试图预测的标签。数据集中不存在指向用户类别的标签。因为我们希望模型能够对相关客户进行聚类,所以我们会使用无监督学习。模型对用户进行聚类后,我们会为每个聚类创建自己的名称,例如“折扣搜索者”、“特价猎手”、“冲浪者”、“忠诚用户”和“漫游者”。
假设您有一个家庭能源使用数据集,其中包含以下列:
练一练:
您会使用哪种类型的机器学习来预测新建房屋每年使用的千瓦时数?
A. 无监督学习。
B. 监督学习。
答案:B。无监督学习使用未标记的样本。在本例中,“每年使用的千瓦时”将是标签,因为这是您希望模型预测的值。监督学习基于带标签的样本进行训练。在这个数据集中,“每年使用的千瓦时”将是标签,因为这是您希望模型预测的值。特征将是“平方英尺”、“位置”和“建造年份”。
假设您有一个包含以下列的航班数据集:
练一练:
如果您想预测机票价格,您会使用回归还是分类?
A. 分类
B. 回归
答案:B。分类模型的输出是一个离散值,通常是一个单词。在本例中,机票价格就是一个数值。回归模型的输出是一个数值。
练一练:
根据数据集,您能否训练分类模型将机票价格分类为“高”、“平均”或“低”?
A. 不可以。无法创建分类模型。这些 airplane_ticket_cost值是数值型的,而不是分类型的。
B. 是的,但我们首先需要将列中的数值转换 airplane_ticket_cost为分类值。
C. 不可以。分类模型只能预测两个类别,例如 spam或not_spam。该模型需要预测三个类别。
答案:B。A只要稍加努力,您就可以创建一个分类模型。C分类模型可以预测多个类别。它们被称为多类分类模型。可以从数据集创建分类模型。您可以执行以下操作:
1. 查找从出发机场到目的地机场的机票平均费用。
2. 确定构成“高”、“平均”和“低”的阈值。
3. 将预测成本与阈值进行比较,并输出该值所属的类别。
训练和评估
训练模型后,我们使用带有标记示例的数据集对其进行评估,并将模型的预测值与标签的实际值进行比较。
练一练:
如果模型的预测偏差很大,您可以做些什么来改善预测结果?
A. 使用更大、更多样化的数据集重新训练模型。
B. 重新训练模型,但只使用您认为对标签具有最强预测能力的特征。
C. 尝试不同的训练方法。例如,如果你使用了监督学习方法,可以尝试无监督学习方法。
D. 你无法修复预测结果相差甚远的模型。
答案:A和B。C不同的训练方法不会产生更好的预测。D预测不准确的模型是可以修复的。大多数模型需要经过多轮训练才能做出有用的预测。A在具有更多示例和更广泛值范围的数据集上训练的模型可以产生更好的预测,因为该模型对特征和标签之间的关系具有更好的泛化解决方案。B使用较少但具有更强预测能力的特征重新训练模型,可以生成能够做出更好预测的模型。