您好!欢迎来到一线生活-深圳论坛
关注我们
扫码关注官方微信
手机版
手机扫描直接访问

分享:怎么用火车头采集指定特征的网址、图片 src

0
回复
146
查看
[复制链接]

8903

主题

1万

帖子

3万

积分

论坛元老

Rank: 8Rank: 8

积分
30167
发表于 2022-10-21 16:04:35 | 显示全部楼层 |阅读模式


        前些天用火车头从一个列表页采集一些网址,源码简化如下:

        [xhtml] view plain copy

        <div>

        <ahref="1"mce_href="1">111</a>

        </div>

        <div>

        <ahref="2"mce_href="2">222</a>

        <imgsrc=""/>

        </div>

        <div>

        <ahref="3"mce_href="3">333</a>

        </div>

        我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则:

        [xhtml] view plain copy

        <ahref="[参数]"mce_href="[参数]">(*)</a>

        <imgsrc=""/>

        却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有<a href=”[参数]“>这个特征,所以就匹配到了第一个链接上面,怎么解决呢?花了10块钱,一个兄弟帮我写了个规则:

        [xhtml] view plain copy

        <ahref="[参数]"mce_href="[参数]">[参数]</a>

        <imgsrc=""/>

        就是把模糊匹配(*)给换成了[参数],就这样简单,分享给大家。

大数据观察
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

联系我们

免费联系电话

400-8855-271

客服QQ:2524604571

服务时间:周一到周日8:00-23:30

关注我们
  • 关注官方微信

  • 手机APP