有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

regexp模式的java问题。删除HTML<link>标记

我需要使用regexp从巨大的文本墙中删除标记<link>之间的所有内容。我使用了这样的东西:<link\s[\w*\W*]*css"\s\/>,但它也可以在这些标记之间选择所有标记。例如:

<link link crossorigin="crossorigin" href="some random href" more random text /css" /> some content that should not be delated <link link crossorigin="crossorigin" href="some random href" more random text /css" />

我需要像这样的东西也与标签。我应该把我的regexp放入()组吗?我需要从庞大的产品描述中删除这些部分,以在Java中创建XML(从MySQL数据库获取所有数据)。有什么指导或提示吗


共 (1) 个答案

  1. # 1 楼答案

    可以使用<link[^>]*>删除从<link到结束>的所有内容。但是,最好使用专用的xml解析器来完成这项任务