西西软件园多重安全检测下载网站、值得信赖的软件下载站!
软件
软件
文章
搜索

首页编程开发C#.NET → C# html抽取所有文本内容的正则表达式

C# html抽取所有文本内容的正则表达式

相关软件相关文章发表评论 来源:本站整理时间:2010/11/25 15:16:08字体大小:A-A+

作者:佚名点击:620次评论:0次标签: 文本内容 正则表达

  • 类型:电子资料大小:3.9M语言:中文 评分:10.0
  • 标签:
立即下载
只抽取HTML中 所有<P></p>之间的文本的正则表达式:(?is)<p[^>]*>(?><p[^>]*>(?<o>)|</p>(?<-o>)|(?:(?!</?p\b).)*)*(?(o)(?!))</p>

测试代码:
public static void Main(string[] args)
{
           
string text="<p>sdfasdfsa</p>sxcvxc<Img src=><p>23424</p>";
           
string regex=@"(?is)<p[^>]*>(?><p[^>]*>(?<o>)|</p>(?<-o>)|(?:(?!</?p\b).)*)*(?(o)(?!))</p>";
            GetListByHtml(text, regex);
            Console.ReadKey();
        }

public static void GetListByHtml(string text,string pat)
        {
            System.Text.RegularExpressions.Regex r
= new System.Text.RegularExpressions.Regex(pat, System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            System.Text.RegularExpressions.Match m
= r.Match(text);
           
//int matchCount = 0;
            while (m.Success)
            {
                Console.WriteLine(m.Value);
                m
= m.NextMatch();
            }
        }

这是抽取herf的例子 string regexs = "href=[\\\"\\\'](http:\\/\\/|\\.\\/|\\/)?\\w+(\\.\\w+)*(\\/\\w+(\\.\\w+)?)*(\\/|\\?\\w*=\\w*(&\\w*=\\w*)*)?[\\\"\\\']";

    相关评论

    阅读本文后您有什么感想? 已有人给出评价!

    • 8 喜欢喜欢
    • 3 顶
    • 1 难过难过
    • 5 囧
    • 3 围观围观
    • 2 无聊无聊

    热门评论

    最新评论

    发表评论 查看所有评论(0)

    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    字数: 0/500 (您的评论需要经过审核才能显示)