C#制作多线程处理强化版网络爬虫

上次做了一个帮公司妹子做了爬虫，不是很精致，这次公司项目里要用到，于是有做了一番修改，功能添加了网址图片采集，下载，线程处理界面网址图片下载等。

说说思路：首相获取初始网址的所有内容在初始网址采集图片去初始网址采集链接把采集到的链接放入队列继续采集图片，然后继续采集链接，无限循环

还是上图片大家看一下，

c#,多线程爬虫,c#多线程网络爬虫

处理网页内容抓取跟网页网址爬取都做了改进，下面还是大家来看看代码，有不足之处，还请之处!

网页内容抓取HtmlCodeRequest,

网页网址爬取GetHttpLinks，用正则去筛选html中的Links

图片抓取GetHtmlImageUrlList，用正则去筛选html中的Img

都写进了一个封装类里面 HttpHelper


  /// <summary>  
    /// 取得HTML中所有图片的 URL。  
    /// </summary>  
    /// <param name="sHtmlText">HTML代码</param>  
    /// <returns>图片的URL列表</returns> 
public static string HtmlCodeRequest(string Url)
    {
      if (string.IsNullOrEmpty(Url))
      {
        return "";
      }
      try
      {
        //创建一个请求
        HttpWebRequest httprequst = (HttpWebRequest)WebRequest.Create(Url);
        //不建立持久性链接
        httprequst.KeepAlive = true;
        //设置请求的方法
        httprequst.Method = "GET";
        //设置标头值
        httprequst.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";
        httprequst.Accept = "*/*";
        httprequst.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5");
        httprequst.ServicePoint.Expect100Continue = false;
        httprequst.Timeout = 5000;
        httprequst.AllowAutoRedirect = true;//是否允许302
        ServicePointManager.DefaultConnectionLimit = 30;
        //获取响应
        HttpWebResponse webRes = (HttpWebResponse)httprequst.GetResponse();
        //获取响应的文本流
        string content = string.Empty;
        using (System.IO.Stream stream = webRes.GetResponseStream())
        {
          using (System.IO.StreamReader reader = new StreamReader(stream, System.Text.Encoding.GetEncoding("utf-8")))
          {
            content = reader.ReadToEnd();
          }
        }
        //取消请求
        httprequst.Abort();
        //返回数据内容
        return content;
      }
      catch (Exception)
      {

        return "";
      }
    }
/// <summary>
    /// 提取页面链接
    /// </summary>
    /// <param name="html"></param>
    /// <returns></returns>
public static List<string> GetHtmlImageUrlList(string url)
    {
      string html = HttpHelper.HtmlCodeRequest(url);
      if (string.IsNullOrEmpty(html))
      {
        return new List<string>();
      }
      // 定义								  1/3    1 2 3 下一页 尾页

C#制作多线程处理强化版网络爬虫

C#实现获取文件大小并进行比较

利用C#编写一个Windows服务程序的方法详解

C#实现日期时间的格式化输出的示例详解

C#递归应用之实现JS文件的自动引用

C#递归应用之实现JS文件的自动引用

C#异步编程之async/await详解

C#/VB.NET实现在Word中插入或删除脚注

WPF利用ValueConverter实现值转换器

C#/VB.NET实现在Word文档中添加页眉和页脚

c#中如何获取指定字符前的字符串

C#实现获取文件大小并进行比较

利用C#编写一个Windows服务程序的方法详解

C#实现日期时间的格式化输出的示例详解

C#递归应用之实现JS文件的自动引用

C#递归应用之实现JS文件的自动引用

C#异步编程之async/await详解

C#/VB.NET实现在Word中插入或删除脚注

WPF利用ValueConverter实现值转换器

C#/VB.NET实现在Word文档中添加页眉和页脚

c#中如何获取指定字符前的字符串