假设我有以下数据
import pandas as pd
data = {
'Reference': [1, 2, 3, 4, 5],
'Brand': ['Volkswagen', 'Volvo', 'Volvo', 'Audi', 'Volkswagen'],
'Town': ['Berlin', 'Berlin', 'Stockholm', 'Munich', 'Berlin'],
'Mileage': [35000, 45000, 121000, 35000, 181000],
'Year': [2015, 2014, 2012, 2016, 2013]
}
df = pd.DataFrame(data)
我想在“品牌”和“城镇”两个专栏上做一个热编码,以便训练分类器(比如用Scikit Learn)并预测年份。在
一旦分类器被训练好,我就要预测新的输入数据的年份(不是在训练中使用),在那里我需要重新应用相同的热编码。例如:
^{pr2}$在这种情况下,如果知道需要对几个列进行编码,并且需要能够在以后对新数据应用相同的编码,那么对Pandas数据帧上的2列进行一次热编码的最佳方法是什么。在
这是How to re-use LabelBinarizer for input prediction in SkLearn的后续问题
考虑the following approach。在
演示:
您可以使用pandas提供的get_dummies函数来转换分类值。在
像这样。。在
对于测试数据,您可以:
^{pr2}$相关问题 更多 >
编程相关推荐