爬虫思路:获取网页然后根据dom分析xPath获取相应的元素
我们使用httpClient,获取网页
通过HtmlAgilityPack工具解析Dom
通过xPath提取Dom元素,不需要复杂的正则
HtmlAgilityPack网友总结的方法:https://www.cnblogs.com/mq0036/p/11705424.html
HtmlAgilityPack官网文档:https://html-agility-pack.net/parser
接下来用颜色表做案例
url:http://color.jmtianlu168.com/
支持.net 4.0:HtmlAgilityPack.zip
把dll拷贝到狐表的程序根目录后,添加引用,并添加命名空间
命名空间:HtmlAgilityPack
别名:Hap
重启后检查引用和命名空间是否还存在,存在的话新dll就开始生效了
有可能没添加成功的,认真检查!!
Dim hc As New HttpClient("http://color.jmtianlu168.com/") hc.SkipError=True hc.Resp '如果中文乱码,请改为 gbk Dim hd As new Hap.HtmlDocument hd.LoadHtml(hc.GetData())
Dim s As String = FileSys.ReadAllText("S:\FoxDev\爬虫监控\网页.html",Encoding.UTF8) Dim hd As new Hap.HtmlDocument hd.LoadHtml(s)
xPath就是根据dom结构,一层层解析路径,提取元素的方法,基础用法如下:(具体可以去w3cSchool看)
我们在谷歌浏览器按F12,打开控制台
得到有偏差的xPath
/html/body/table/tbody/tr[4]/td[4]
用F12获取的的xPath多数会有偏差,你可以右键看下源代码,dom结构是否真的如此
其实这里源代码界面能发现,并没有html和body,真实的xPath是
/table/tbody/tr[4]/td[4]
差异的原因:因为chrome会对页面进行一定的修正处理,加上现在很多是ajax异步获取,你用代码请求的dom和当前浏览器展示的dom不一定完全一致,所以这个xPath仅供调试参考,实际上都要进行修正的
最常见的例子,就是tbody是要去掉的
调试方法:
可能你会问,我怎么分析啊?
第一步,必须右键查看页面源码,自己分析结构,判断问题出在哪里,最好配合HbuilderX之类的代码整理,更清晰的查看结构
第二步:你可以先到xPath在线小工具http://www.ab173.com/other/xpath.php
把网页源代码粘贴进去,测试下你的xPath,然后利用步进逼近
注意的坑:xPath的路径,是从1开始,而不是从0开始,例如div[1]
/html /html/body /html/body/form /html/body/form/div[2] //等等逼近你想要的...
Dim xPath As String = "/table/tbody/tr[4]/td[4]" Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath) If hn IsNot Nothing Then Output.Show("InnerHtml:" & hn.InnerHtml) End If
输出结果:
InnerHtml:脸红的淡紫色
注意的坑:由于xPath不一定正确,所以获取回来的可能是Nothing,记得做判断
Dim xPath As String = "/table/tbody/tr[4]/td[4]" '获取该节点的父节点 Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath) If hn IsNot Nothing Then hn = hn.ParentNode Output.Show("Parent的OuterHtml:" & hn.OuterHtml) End If
类似的用法,还有
方法名 | 作用 |
FirstChild | 获取首个子节点 |
LastChild | 获取最后一个子节点 |
OuterHtml | 获取整个节点的html代码 |
InnerHtml | 获取<>夹住的内部Html代码 |
InnerText | 获取<>夹住的内部无html的纯文本 |
Name | 获取Html元素名 |
Attributes | 获取节点的属性集合 |
扩展获取class:
获取class之类的属性值
Dim xPath As String = "/table/tbody/tr[4]/td[4]" Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath) If hn IsNot Nothing Then Dim hars As Hap.HtmlAttributeCollection = hn.Attributes Output.Show(hars.Count) For Each har As Hap.HtmlAttribute In hars Output.Show(har.Name & ":" & har.Value) Next End If
输出结果:
1 style:text-align: center;
Dim xPath As String = "/table/tbody/tr[4]/td[4]" Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath) Dim CNodes As Hap.HtmlNodeCollection = hn.ChildNodes Output.Show(CNodes.Count) For Each hn2 As Hap.HtmlNode In CNodes Output.Show("InnerHtml:" & hn2.InnerHtml) Next
Dim xPath As String = "/table/tbody/tr[4]/td[4]" Dim CNodes As Hap.HtmlNodeCollection = hd.DocumentNode.SelectNodes(xPath) Output.Show(CNodes.Count) For Each hn As Hap.HtmlNode In CNodes Output.Show("InnerHtml:" & hn.InnerHtml) Next
爬虫有一定法律风险,请合理利用
狐表不是专业的爬虫工具,建议只用在简单的网页,更复杂的交互网站,建议学习专业的python爬虫工具
很多网站有反爬和ip监控,如果你想去爬淘宝、京东,尤其是美团,做梦!
网站变动,xPath很大可能会变动,就会需要重新编写路径