返回

首页

业界

电商

创业

访谈

手机

移动

报告

运营

建站

互联网+

系统

教程

易采站长站-移动端

C#网络爬虫代码分享 C#简单的爬取工具

2019-12-30 13:34:52刘景俊

这块的技术其实就是简单的使用了正则去匹配！接下来献上获取标题，以及存储到xml文件的方法


/// <summary> 
    /// // 把网址写入xml文件 
    /// </summary> 
    /// <param name="strURL"></param> 
    /// <param name="alHyperLinks"></param> 
    private static void WriteToXml(string strURL, List<string> alHyperLinks) 
    { 
      XmlTextWriter writer = new XmlTextWriter(@"D:HyperLinks.xml", Encoding.UTF8); 
      writer.Formatting = Formatting.Indented; 
      writer.WriteStartDocument(false); 
      writer.WriteDocType("HyperLinks", null, "urls.dtd", null); 
      writer.WriteComment("提取自" + strURL + "的超链接"); 
      writer.WriteStartElement("HyperLinks"); 
      writer.WriteStartElement("HyperLinks", null); 
      writer.WriteAttributeString("DateTime", DateTime.Now.ToString()); 
      foreach (string str in alHyperLinks) 
      { 
        string        string body = str; 
        writer.WriteElementString(title, null, body); 
      } 
      writer.WriteEndElement(); 
      writer.WriteEndElement(); 
      writer.Flush(); 
      writer.Close(); 
    } 
    /// <summary> 
    /// 获取网址的域名后缀 
    /// </summary> 
    /// <param name="strURL"></param> 
    /// <returns></returns> 
    private static string GetDomain(string strURL) 
    { 
      string retVal; 
      string strRegex = @"(.com/|.net/|.cn/|.org/|.gov/)"; 
      Regex r = new Regex(strRegex, RegexOptions.IgnoreCase); 
      Match m = r.Match(strURL); 
      retVal = m.ToString(); 
      strRegex = @".|/$"; 
      retVal = Regex.Replace(retVal, strRegex, "").ToString(); 
      if (retVal == "") 
        retVal = "other"; 
      return retVal; 
    } 
/// <summary> 
    /// 获取标题 
    /// </summary> 
    /// <param name="html"></param> 
    /// <returns></returns> 
    private static string GetTitle(string html) 
    { 
      string titleFilter = @"<title>[sS]*?</title>"; 
      string h1Filter = @"<h1.*?>.*?</h1>"; 
      string clearFilter = @"<.*?>"; 
 
      string      Match match = Regex.Match(html, titleFilter, RegexOptions.IgnoreCase); 
      if (match.Success) 
      {      } 
 
      // 正文的标题一般在h1中，比title中的标题更干净 
      match = Regex.Match(html, h1Filter, RegexOptions.IgnoreCase); 
      if (match.Success) 
      { 
        string h1 = Regex.Replace(match.Groups[0].Value, clearFilter, ""); 
        if (!String.IsNullOrEmpty(h1) && title.StartsWith(h1)) 
        {        } 
      } 
      return title; 
    }




	这就是所用的全部方法，还是有很多需要改进之处！大家如果有发现不足之处还请指出，谢谢！								 
 2/3   首页 上一页 1 2 3 下一页 尾页


		
				
    相关文章
    大家在看


    
			



C#实现获取文件大小并进行比较
2023-03-15
0万阅读





利用C#编写一个Windows服务程序的方法详解
2023-03-14
0万阅读





C#实现日期时间的格式化输出的示例详解
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-11
0万阅读





C#异步编程之async/await详解
2023-03-11
0万阅读





C#/VB.NET实现在Word中插入或删除脚注
2023-03-08
0万阅读





WPF利用ValueConverter实现值转换器
2023-03-08
0万阅读





C#/VB.NET实现在Word文档中添加页眉和页脚
2023-03-07
0万阅读





c#中如何获取指定字符前的字符串
2023-03-03
0万阅读


			
		
	  
    
	
	


C#实现获取文件大小并进行比较
2023-03-15
0万阅读





利用C#编写一个Windows服务程序的方法详解
2023-03-14
0万阅读





C#实现日期时间的格式化输出的示例详解
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-11
0万阅读





C#异步编程之async/await详解
2023-03-11
0万阅读





C#/VB.NET实现在Word中插入或删除脚注
2023-03-08
0万阅读





WPF利用ValueConverter实现值转换器
2023-03-08
0万阅读





C#/VB.NET实现在Word文档中添加页眉和页脚
2023-03-07
0万阅读





c#中如何获取指定字符前的字符串
2023-03-03
0万阅读


	
    

        
电脑版 - 移动首页