在scikitlearn中使用pandas时间戳

2024-04-25 14:06:34 发布

您现在位置：Python中文网/ 问答频道 /正文

8748

网友

男 | 程序猿一只，喜欢编程写python代码。

sklearn分类器接受pandas的TimeStamp（datetime64[ns]）作为X中的列，只要X列的所有都是该类型。但是当有TimeStamp和{}列时，sklearn拒绝使用时间戳。在

除了使用astype（int）将时间戳转换为int之外，还有其他解决方法吗？（我仍然需要原始列来访问dt.year等，因此理想情况下，我不希望创建一个重复的列，只是为了向sklearn提供一个特性）

import pandas as pd
from sklearn.linear_model import LinearRegression
test = pd.date_range('20000101', periods = 100)
test_df = pd.DataFrame({'date': test})
test_df['a'] = 1
test_df['y'] = 1
lr = LinearRegression()
lr.fit(test_df[['date']], test_df['y']) # works fine
lr.fit(test_df[['date', 'date']], test_df['y']) # works fine
lr.fit(test_df[['date', 'a']], test_df['y']) # complains

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-90-0605fa5bcdfa> in <module>()
----> 1 lr.fit(test_df[['date', 'a']], test_df['y'])

/home/shoya/.pyenv/versions/3.5.0/envs/study-env/lib/python3.5/site-packages/sklearn/linear_model/base.py in fit(self, X, y, sample_weight)
    434         n_jobs_ = self.n_jobs
    435         X, y = check_X_y(X, y, accept_sparse=['csr', 'csc', 'coo'],
--> 436                          y_numeric=True, multi_output=True)
    437 
    438         if ((sample_weight is not None) and np.atleast_1d(

/home/shoya/.pyenv/versions/3.5.0/envs/study-env/lib/python3.5/site-packages/sklearn/utils/validation.py in check_X_y(X, y, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, multi_output, ensure_min_samples, ensure_min_features, y_numeric, warn_on_dtype, estimator)
    521     X = check_array(X, accept_sparse, dtype, order, copy, force_all_finite,
    522                     ensure_2d, allow_nd, ensure_min_samples,
--> 523                     ensure_min_features, warn_on_dtype, estimator)
    524     if multi_output:
    525         y = check_array(y, 'csr', force_all_finite=True, ensure_2d=False,

/home/shoya/.pyenv/versions/3.5.0/envs/study-env/lib/python3.5/site-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
    402         # make sure we acually converted to numeric:
    403         if dtype_numeric and array.dtype.kind == "O":
--> 404             array = array.astype(np.float64)
    405         if not allow_nd and array.ndim >= 3:
    406             raise ValueError("Found array with dim %d. %s expected <= 2."

TypeError: float() argument must be a string or a number, not 'Timestamp'

显然，当数据类型是混合的，因此ndarray具有object类型时，sklearn尝试将它们转换为float，但以{}失败。但是当数据类型都是datetime64[ns]时，sklearn只是保持不变。在

Tags： in test df date check sklearn min array

1条回答

网友

1楼 · 发布于 2024-04-25 14:06:34

您可以将其转换为适当的整数或浮点

test_df['date'] = test_df['date'].astype(int)

在scikitlearn中使用pandas时间戳

相关问题更多 >

编程相关推荐

热门问题

热门文章

在scikitlearn中使用pandas时间戳

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >