用python预测房产的平均价格

2024-05-14 23:21:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要预测建筑面积在200到300平方米之间的房产的平均价格。以及2018年1月、2月、3月、4月和5月的海景**。使用python或R。问题是,我有一个用逗号分隔的视图的变体,海景的变体是这样的(变体:'海景','海景','海景','海景','水景','海滩景观','临海','湖景','整个海湾','海景','海湾','海湾景观','海上',)

另一点是,一个楼盘的价格在一年内就改变了3倍。我试着用时间序列来建模。但我必须重新考虑一下。有谁能给我一些建议来解决这个问题吗


Tags: 视图时间序列价格变体建模景观逗号
1条回答
网友
1楼 · 发布于 2024-05-14 23:21:17

我建议使用以下特性

  • 面积
  • 月份作为分类特征(一月=1,二月=2,等等)
  • 将“海景”栏矢量化的一种语言技巧

我建议这样做是因为海景显然比湖景更令人向往。与海景相比,海滩景色也可能不太好,因为它会吸引人群。因此,不能假定这些都是相同的。我猜人们对他们的属性的描述会略有不同,尽管他们的意思是一样的

n-grams是一种基于语言的数据特征提取技术。它将字符串分段,这样就可以找到词根,而忽略了动词结尾、复数等

分段工作如下:

字符串:你好世界

2克:“He”,“el”,“ll”,“lo”,“o”,“W”,“Wo”,“or”,“rl”,“ld”
3克:“Hel”,“ell”,“llo”,“lo”,“o W”,“Wo”,“Wor”,“orl”,“rld”
4克:“地狱”,“埃洛”,“洛”,“洛W”,“奥Wo”,“Wor”,“Worl”,“世界”

字里行间

例如,如果您的训练数据只包含以下单词{beach、sea、view、lake、park、garbage、dump},则会创建一个单词字典。然后你将创建包含每个单词出现频率的向量。然后你将训练这个模型,模型将学习哪些词最能描述你的输出分布

然后在将来,你以同样的方式将单词矢量化并通过模型传递它们,你将得到你想要的输出

相关问题 更多 >

    热门问题