利用C#实现网络爬虫

易采站长站为您分析利用C#实现网络爬虫，完整的介绍了C#实现网络爬虫详细过程，感兴趣的小伙伴们可以参考一下

网络爬虫在信息检索与处理中有很大的作用，是收集网络信息的重要工具。

接下来就介绍一下爬虫的简单实现。

爬虫的工作流程如下

C#,网络爬虫

爬虫自指定的URL地址开始下载网络资源，直到该地址和所有子地址的指定资源都下载完毕为止。

下面开始逐步分析爬虫的实现。

1. 待下载集合与已下载集合

为了保存需要下载的URL，同时防止重复下载，我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。

因为在保存URL的同时需要保存与URL相关的一些其他信息，如深度，所以这里我采用了Dictionary来存放这些URL。

具体类型是Dictionary<string, int> 其中string是Url字符串，int是该Url相对于基URL的深度。

每次开始时都检查未下载的集合，如果已经为空，说明已经下载完毕；如果还有URL，那么就取出第一个URL加入到已下载的集合中，并且下载这个URL的资源。

2. HTTP请求和响应

C#已经有封装好的HTTP请求和响应的类HttpWebRequest和HttpWebResponse，所以实现起来方便不少。

为了提高下载的效率，我们可以用多个请求并发的方式同时下载多个URL的资源，一种简单的做法是采用异步请求的方法。

控制并发的数量可以用如下方法实现


private void DispatchWork()
{
 if (_stop) //判断是否中止下载
 {
  return;
 }
 for (int i = 0; i < _reqCount; i++)
 {
  if (!_reqsBusy[i]) //判断此编号的工作实例是否空闲
  {
   RequestResource(i); //让此工作实例请求资源
  }
 }
}


	
	
		 由于没有显式开新线程，所以用一个工作实例来表示一个逻辑工作线程
	
		
private bool[] _reqsBusy = null; //每个元素代表一个工作实例是否正在工作
private int _reqCount = 4; //工作实例的数量
								  1/6    1 2 3 4 5 6 下一页 尾页

利用C#实现网络爬虫

C#实现获取文件大小并进行比较

利用C#编写一个Windows服务程序的方法详解

C#实现日期时间的格式化输出的示例详解

C#递归应用之实现JS文件的自动引用

C#递归应用之实现JS文件的自动引用

C#异步编程之async/await详解

C#/VB.NET实现在Word中插入或删除脚注

WPF利用ValueConverter实现值转换器

C#/VB.NET实现在Word文档中添加页眉和页脚

c#中如何获取指定字符前的字符串

C#实现获取文件大小并进行比较

利用C#编写一个Windows服务程序的方法详解

C#实现日期时间的格式化输出的示例详解

C#递归应用之实现JS文件的自动引用

C#递归应用之实现JS文件的自动引用

C#异步编程之async/await详解

C#/VB.NET实现在Word中插入或删除脚注

WPF利用ValueConverter实现值转换器

C#/VB.NET实现在Word文档中添加页眉和页脚

c#中如何获取指定字符前的字符串