HtmlAgilityPack是一个开源的解析HTML元素的类库,支持中文的HtmlAgilityPack.dll,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手。HtmlAgilityPack 测试分析小软件,直观 明了 对于编写XPath非常有用.
Html Agility Pack最常用的基础类其实不多,对解析DOM来说,就只有HtmlDocument和HtmlNode这两个常用的类,还有一个 HtmlNodeCollection集合类。
asp.net使用HtmlAgilityPack的方法:
下面以一个简单的例子来介绍下HtmlAgilityPack的使用,对于Asp.Net程序开发的网站要做模拟登录的时候,除了要知道用户名文本框和密码文本框的name属性值外,还需要知道页面的__VIEWSTATE、__EVENTVALIDATION这两个隐藏控件的值,以及提交按钮的name属性,下面看看怎样使用HtmlAgilityPack来获得这个额外的值。
1、在项目中添加对HtmlAgilityPack.dll的引用

2、在Aspx页面中放几个文本框控件和一个按钮控件

C#中使用HtmlAgilityPack对html进行解析
HtmlAgilityPack基本支持.Net2-.Net4.5 也支持Sliverlight和Windows Phone,大家可以根据自己的需求来使用。
引用对应的DLL本文采用.Net4开发所以选择Net40文件夹中的库


打开谷歌浏览器吧鼠标放在你想要获取的元素上,点击鼠标右键->审查元素->Copy Xpath

编写代码:
/第一步声明HtmlAgilityPack.HtmlDocument实例
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
//获取Html页面代码
string html = HTMLHelper.Get_Http("http://www.studycsharp.com/");
//第二步加载html文档
doc.LoadHtml(html);
//第三步通过Xpath选中html的指定元素 这样子就获取到了[url=http://www.studycsharp.com]www.studycsharp.com[/url]的"常用工具类"的板块链接了
HtmlAgilityPack.HtmlNode htmlnode = doc.DocumentNode.SelectSingleNode("//*[@id=\"category_63\"]/table/tr[2]/td[2]/dl/dt/a");
//获取所有板块的a标签
HtmlAgilityPack.HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//*[starts-with(@id,'category_')]/table/tr/td/dl/dt/a");
StringBuilder sb = new StringBuilder();
foreach (HtmlAgilityPack.HtmlNode item in collection)
{
sb.Append(string.Format("{0}:{1}\r\n", item.InnerText, item.Attributes["href"].Value));
}
this.textBox1.Text = sb.ToString();
代码运行效果























大小: 7.8M

大小: 63.8M
UltraEdit-32中文版v25.10.0.62 中文特别增强版
IDM UltraEdit注册机v25.10.0.16最新版
notepad++中文版v7.6.2 中文增强版
最好用的数学公式编辑器(MathType)v6.9a 绿色中文特别版
plist文件编辑(plist Editor)1.0.2 中文版
EditPlusv4.0.0.631 烈火汉化注册版
EmEditor Pro(文本编辑器)V19.9.3 绿色中文版
ABBYY FineReader(最好的OCR识别软件)v14.0.101.665 中文绿色专业版
16进制编辑器(HxD Hex Editor)v2.0 绿色中文版
pdf文件编辑器绿色免费版
EmEditor编辑器(EmEditor Pro 64位版)v21.0.1汉化版
AkelPad(文本编辑器)V4.9.7 中文安装版(x86+x64)
RJ TextEd文本编辑器v15.80 多语官方版
小黑记事本v2.0.3.2官方版