如何在azureml执行Python脚本步骤中从文本列中剥离HTML

2024-03-28 21:35:32 发布

您现在位置:Python中文网/ 问答频道 /正文

如果我在一个传入的azureml数据集中有一列string类型的数据,其中包含HTML标记,我如何删除这些标记?在


Tags: 数据标记类型stringhtmlazureml
1条回答
网友
1楼 · 发布于 2024-03-28 21:35:32

像这样:

def azureml_main(dataframe1 = None, dataframe2 = None):
  dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
  return dataframe1,

记住在Execute Python Script步骤之前加上Clean Missing Data步骤,并更改操作以删除整个行(如果合适)。这很重要,因为Execute Python Script步骤不能返回空的dataframe。在这种情况下,只有你知道你的数据。在

我还要指出,Preprocessing Text步骤允许您应用正则表达式。这是另一个可能适合你情况的选择。在

相关问题 更多 >