rpy2对象未找到错误

0 投票
3 回答
2516 浏览
提问于 2025-04-17 18:01

我正在尝试使用rpy2这个工具,让我可以在Python中使用一些R语言的功能。这里有一个简单的回归分析我想做。我创建了一个数据框,然后把它转换成R语言的数据框,接着想用R的lm函数。但是我发现找不到这个R的数据框(见下文)。我应该从哪里开始排查问题呢?

顺便说一下,我使用的是Python 2.7.3,rpy2-2.3.2,pandas版本是'0.10.1',R的版本是2.15.3。

>>> import rpy2
>>> import pandas as pd
>>> import pandas.rpy.common as com
>>> datframe = pd.DataFrame({'a' : [1, 2, 3], 'b' : [3, 4, 5]})
>>> r_df = com.convert_to_r_dataframe(datframe)
>>> r_df     
(DataFrame - Python:0x32547e8 / R:0x345d640)
[IntVector, IntVector]
  a: (class 'rpy2.robjects.vectors.IntVector')
  (IntVector - Python:0x3254e18 / R:0x345d608)
[       1,        2,        3]
  b: (class 'rpy2.robjects.vectors.IntVector')
  (IntVector - Python:0x3254e60 / R:0x345d5d0)
[       3,        4,        5]
>>> print type(r_df)
(class 'rpy2.robjects.vectors.DataFrame')
>>> from rpy2.robjects import r
>>> r('lmout <- lm(r_df$a ~ r_df$b)')

Error in eval(expr, envir, enclos) : object 'r_df' not found
Traceback (most recent call last):
  File "<pyshell#8>", line 1, in <module>
    r('lmout <- lm(r_df$a ~ r_df$b)')
  File "/usr/local/lib/python2.7/dist-packages/rpy2/robjects/__init__.py", line 236, in __call__
    res = self.eval(p)
  File "/usr/local/lib/python2.7/dist-packages/rpy2/robjects/functions.py", line 86, in __call__
    return super(SignatureTranslatedFunction, self).__call__(*args, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/rpy2/robjects/functions.py", line 35, in __call__
    res = super(Function, self).__call__(*new_args, **new_kwargs)
RRuntimeError: Error in eval(expr, envir, enclos) : object 'r_df' not found

3 个回答

0

试试这个,不过我不太确定是哪个头文件起作用……

import rpy2.robjects as robjects
from rpy2.robjects import DataFrame, Formula
import rpy2.robjects.numpy2ri as npr
import numpy as np
from rpy2.robjects.packages import importr


def my_linear_fit_using_r(X,Y,verbose=True):
   # ## FITTINGS:   RPy implementation ###
   r_correlation = robjects.r('function(x,y) cor.test(x,y)')
   # r_quadfit = robjects.r('function(x,y) lm(y~I(x)+I(x^2))')
   r_linfit = robjects.r('function(x,y) lm(y~x)')
   r_get_r2=robjects.r('function(x) summary(x)$r.squared')
   lin=r_linfit(robjects.FloatVector(X),robjects.FloatVector(Y))
   coef_lin=robjects.r.coef(lin)
   a=coef_lin[0]
   b=coef_lin[1]
   r2=r_get_r2(lin)
   ci=robjects.r.confint(lin) # confidence intervals
   lwr_a=ci[0]
   lwr_b=ci[1]
   upr_a=ci[2]
   upr_b=ci[3]
   if verbose:
      print robjects.r.summary(lin)
      # print robjects.r.summary(quad)
   return (a,b,r2[0],lwr_a,upr_a,lwr_b,upr_b)
0

只是想提一句,对于简单的回归分析,你可以完全在Python中完成,使用statsmodels里的ols函数:

from statsmodels.formula.api import ols

lmout = ols('a ~ b', datframe).fit()
lmout.summary()
2

当你调用

r('lmout <- lm(r_df$a ~ r_df$b)')

时,嵌入的R会寻找一个叫做 r_df 的变量,但在你的代码示例中并没有这样的变量对R可见。

而当你执行

r_df = com.convert_to_r_dataframe(datframe)

时,你在Python这边创建了一个 r_df 变量,但实际上数据现在在R里面,R并不知道这个数据的名字(符号)。所以这个数据结构是匿名的。

顺便提一下,你可能想使用rpy2-2.3.3自带的自动转换功能,把pandas数据框转换成R的数据框。

要在R的“全局环境”中创建一个变量名,可以加上这个:

from rpy2.robjects import globalenv
globalenv['r_df'] = r_df

现在你的 lm() 调用应该可以正常工作了。

撰写回答