将数据从sqlalchemy移动到pandas DataFram

app = Flask(__name__) db = SQLAlchemy(app) class LPRRank(db.Model): id = db.Column(db.Integer, primary_key=True) candid = db.Column(db.String(40), index=True, unique=False) rank = db.Column(db.Integer, index=True, unique=False) user_id = db.Column(db.Integer, db.ForeignKey('lprvote.id')) def __repr__(self): return '<{} || {} || {}>'.format(self.candid, self.rank, self.user_id)

2条回答

网友

1楼 · 编辑于 2024-04-25 04:06:30

冻糕的答案是好的，但也有一些问题：

效率每个对象的创建都意味着将数据复制到一个数据帧中，因此创建一个数据帧列表可能需要时间
不镜像具有行集合的数据帧

因此，下面的例子提供了一个parent类，它被同化为一个数据帧表示，一个child类被同化到给定数据帧的行。在

下面的代码提供了两种获取dataframe的方法，dataframe对象只在需要时创建，不会浪费cpu和内存。在

如果在创建时需要dataframe，则只需添加构造函数（def __init__(self, rows:List[MyDataFrameRow] = None)...）并创建一个新属性并分配self.data_frame的结果。在

from pandas import DataFrame, read_sql
from sqlalchemy import Column, Integer, String, Float, ForeignKey
from sqlalchemy.orm import relationship, Session

Base = declarative_base()

class MyDataFrame(Base):
    __tablename__ = 'my_data_frame'
    id = Column(Integer, primary_key=True)
    rows = relationship('MyDataFrameRow', cascade='all,delete')

    @property
    def data_frame(self) -> DataFrame:
        columns = GenomeCoverageRow.data_frame_columns()
        return DataFrame([[getattr(row, column) for column in columns] for row in self.rows],
                         columns=columns)

    @staticmethod
    def to_data_frame(identifier: int, session: Session) -> DataFrame:
        query = session.query(MyDataFrameRow).join(MyDataFrame).filter(MyDataFrame.id == identifier)
        return read_sql(query.statement, session.get_bind())


class MyDataFrameRow(Base):

    __tablename__ = 'my_data_row'
    id = Column(Integer, primary_key=True)
    name= Column(String)
    age= Column(Integer)
    number_of_children = Column(Integer)
    height= Column(Integer)
    parent_id = Column(Integer, ForeignKey('my_data_frame.id'))

    @staticmethod
    def data_frame_columns() -> Tuple[Any]:
        return tuple(column.name for column in GenomeCoverageRow.__table__.columns if len(column.foreign_keys) == 0
                     and column.primary_key is False)
...
session = Session(...)
df1 = MyDataFrame.to_data_frame(1,session)
my_table_obj = session.query(MyDataFrame).filter(MyDataFrame.id == 1).one()
df2 = my_table_obj.data_frame

网友

2楼 · 编辑于 2024-04-25 04:06:30

只需在模型中添加一个__init__方法，并在构建dataframe之前调用Class对象。下面特别创建了一个元组的iterable，这些元组用pandas.DataFrame()绑定到列中。在

class LPRRank(db.Model):
    id = db.Column(db.Integer, primary_key=True)
    candid = db.Column(db.String(40), index=True, unique=False)
    rank = db.Column(db.Integer, index=True, unique=False) 
    user_id = db.Column(db.Integer, db.ForeignKey('lprvote.id'))

    def __init__(self, candid=None, rank=None, user_id=None):
        self.data = (candid, rank, user_id)

    def __repr__(self):
        return (self.candid, self.rank, self.user_id) 

data = db.session.query(LPRRank).all()
df = pd.DataFrame([(d.candid, d.rank, d.user_id) for d in data], 
                  columns=['candid', 'rank', 'user_id'])

或者，使用基于您定义的模型类的SQLAlchemy ORM运行read_sql：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章