rpy2对象未找到错误
我正在尝试使用rpy2这个工具,让我可以在Python中使用一些R语言的功能。这里有一个简单的回归分析我想做。我创建了一个数据框,然后把它转换成R语言的数据框,接着想用R的lm函数。但是我发现找不到这个R的数据框(见下文)。我应该从哪里开始排查问题呢?
顺便说一下,我使用的是Python 2.7.3,rpy2-2.3.2,pandas版本是'0.10.1',R的版本是2.15.3。
>>> import rpy2
>>> import pandas as pd
>>> import pandas.rpy.common as com
>>> datframe = pd.DataFrame({'a' : [1, 2, 3], 'b' : [3, 4, 5]})
>>> r_df = com.convert_to_r_dataframe(datframe)
>>> r_df
(DataFrame - Python:0x32547e8 / R:0x345d640)
[IntVector, IntVector]
a: (class 'rpy2.robjects.vectors.IntVector')
(IntVector - Python:0x3254e18 / R:0x345d608)
[ 1, 2, 3]
b: (class 'rpy2.robjects.vectors.IntVector')
(IntVector - Python:0x3254e60 / R:0x345d5d0)
[ 3, 4, 5]
>>> print type(r_df)
(class 'rpy2.robjects.vectors.DataFrame')
>>> from rpy2.robjects import r
>>> r('lmout <- lm(r_df$a ~ r_df$b)')
Error in eval(expr, envir, enclos) : object 'r_df' not found
Traceback (most recent call last):
File "<pyshell#8>", line 1, in <module>
r('lmout <- lm(r_df$a ~ r_df$b)')
File "/usr/local/lib/python2.7/dist-packages/rpy2/robjects/__init__.py", line 236, in __call__
res = self.eval(p)
File "/usr/local/lib/python2.7/dist-packages/rpy2/robjects/functions.py", line 86, in __call__
return super(SignatureTranslatedFunction, self).__call__(*args, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/rpy2/robjects/functions.py", line 35, in __call__
res = super(Function, self).__call__(*new_args, **new_kwargs)
RRuntimeError: Error in eval(expr, envir, enclos) : object 'r_df' not found
3 个回答
0
试试这个,不过我不太确定是哪个头文件起作用……
import rpy2.robjects as robjects
from rpy2.robjects import DataFrame, Formula
import rpy2.robjects.numpy2ri as npr
import numpy as np
from rpy2.robjects.packages import importr
def my_linear_fit_using_r(X,Y,verbose=True):
# ## FITTINGS: RPy implementation ###
r_correlation = robjects.r('function(x,y) cor.test(x,y)')
# r_quadfit = robjects.r('function(x,y) lm(y~I(x)+I(x^2))')
r_linfit = robjects.r('function(x,y) lm(y~x)')
r_get_r2=robjects.r('function(x) summary(x)$r.squared')
lin=r_linfit(robjects.FloatVector(X),robjects.FloatVector(Y))
coef_lin=robjects.r.coef(lin)
a=coef_lin[0]
b=coef_lin[1]
r2=r_get_r2(lin)
ci=robjects.r.confint(lin) # confidence intervals
lwr_a=ci[0]
lwr_b=ci[1]
upr_a=ci[2]
upr_b=ci[3]
if verbose:
print robjects.r.summary(lin)
# print robjects.r.summary(quad)
return (a,b,r2[0],lwr_a,upr_a,lwr_b,upr_b)
0
只是想提一句,对于简单的回归分析,你可以完全在Python中完成,使用statsmodels
里的ols
函数:
from statsmodels.formula.api import ols
lmout = ols('a ~ b', datframe).fit()
lmout.summary()
2
当你调用
r('lmout <- lm(r_df$a ~ r_df$b)')
时,嵌入的R会寻找一个叫做 r_df
的变量,但在你的代码示例中并没有这样的变量对R可见。
而当你执行
r_df = com.convert_to_r_dataframe(datframe)
时,你在Python这边创建了一个 r_df
变量,但实际上数据现在在R里面,R并不知道这个数据的名字(符号)。所以这个数据结构是匿名的。
顺便提一下,你可能想使用rpy2-2.3.3自带的自动转换功能,把pandas数据框转换成R的数据框。
要在R的“全局环境”中创建一个变量名,可以加上这个:
from rpy2.robjects import globalenv
globalenv['r_df'] = r_df
现在你的 lm()
调用应该可以正常工作了。