把自由文本中的 http(s):// 链接全部提取出来,生成一个文件 根域名_sitemap_index.xml(urlset),自动去重、清洗尾部标点;若未包含首页,会自动把根域名首页放在第1行。
http(s)://
根域名_sitemap_index.xml
urlset
http/https