regexp模式的java问题。删除HTML<link>标记
我需要使用regexp从巨大的文本墙中删除标记<link>
之间的所有内容。我使用了这样的东西:<link\s[\w*\W*]*css"\s\/>
,但它也可以在这些标记之间选择所有标记。例如:
<link link crossorigin="crossorigin" href="some random href" more random text /css" /> some content that should not be delated <link link crossorigin="crossorigin" href="some random href" more random text /css" />
我需要像这样的东西也与标签。我应该把我的regexp放入()
组吗?我需要从庞大的产品描述中删除这些部分,以在Java中创建XML(从MySQL数据库获取所有数据)。有什么指导或提示吗
# 1 楼答案
可以使用
<link[^>]*>
删除从<link
到结束>
的所有内容。但是,最好使用专用的xml解析器来完成这项任务