返回

首页

业界

电商

创业

访谈

手机

移动

报告

运营

建站

互联网+

系统

教程

易采站长站-移动端

利用C#实现最基本的小说爬虫示例代码

2019-12-30 18:13:50于丽

二、下面就是用正则处理内容了，由于正则表达式不熟悉所以重复动作太多。

1.先获取网页内容


 IWebHttpRepository webHttpRepository = new WebHttpRepository();
   string html = webHttpRepository.HttpGet(Url_Txt.Text, "");




	2.获取书名和文章列表

	书名

	

	文章列表

	

	
string Novel_Name = Regex.Match(html, @"(?<=<h1>)([Ss]*?)(?=</h1>)").Value; //获取书名

   Regex Regex_Menu = new Regex(@"(?is)(?<=<dl class=""book_list"">).+?(?=</dl>)");
   string Result_Menu = Regex_Menu.Match(html).Value; //获取列表内容


   Regex Regex_List = new Regex(@"(?is)(?<=<dd>).+?(?=</dd>)");
   var Result_List = Regex_List.Matches(Result_Menu); //获取列表集合



	3.因为章节列表前面有多余的<dd>,所以要剔除

	
int i = 0; //计数
   string Menu_Content = ""; //所有章节
   foreach (var x in Result_List)
   {
    if (i < 4)
    {
     //前面五个都不是章节列表，所以剔除
    }
    else
    {
     Menu_Content += x.ToString();
    }
    i++;
   }



	4.然后获取<a>的href和innerHTML，然后遍历访问获得内容和章节名称并处理，然后写入txt

	
Regex Regex_Href = new Regex(@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""s>]+)1[^>]*>(?<text>(?:(?!</?ab).)*)</a>");
   MatchCollection Result_Match_List = Regex_Href.Matches(Menu_Content); //获取href链接和a标签 innerHTML 

   string Novel_Path = Directory.GetCurrentDirectory() + "Novel" + Novel_Name + ".txt";  //小说地址
   File.Create(Novel_Path).Close();
   StreamWriter Write_Content = new StreamWriter(Novel_Path);


   foreach (Match Result_Single in Result_Match_List)
   {
    string Url_Text = Result_Single.Groups["url"].Value;
    string Content_Text = Result_Single.Groups["text"].Value;

    string Content_Html = webHttpRepository.HttpGet(Url_Txt.Text + Url_Text, "");//获取内容页

    Regex Rege_Content = new Regex(@"(?is)(?<=<p class=""Book_Text"">).+?(?=</p>)");
    string Result_Content = Rege_Content.Match(Content_Html).Value; //获取文章内容


    Regex Regex_Main = new Regex(@"(    )(.*)");
    string Rsult_Main = Regex_Main.Match(Result_Content).Value; //正文   
    string Screen_Content = Rsult_Main.Replace(" ", "").Replace("<br />", "rn");

    Write_Content.WriteLine(Content_Text + "rn");//写入标题
    Write_Content.WriteLine(Screen_Content);//写入内容
   }


   Write_Content.Dispose();
   Write_Content.Close();
   MessageBox.Show(Novel_Name+".txt 创建成功！");
   System.Diagnostics.Process.Start(Directory.GetCurrentDirectory() + Novel);								  2/3   首页 上一页 1 2 3 下一页 尾页


		
				
    相关文章
    大家在看


    
			



C#实现获取文件大小并进行比较
2023-03-15
0万阅读





利用C#编写一个Windows服务程序的方法详解
2023-03-14
0万阅读





C#实现日期时间的格式化输出的示例详解
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-11
0万阅读





C#异步编程之async/await详解
2023-03-11
0万阅读





C#/VB.NET实现在Word中插入或删除脚注
2023-03-08
0万阅读





WPF利用ValueConverter实现值转换器
2023-03-08
0万阅读





C#/VB.NET实现在Word文档中添加页眉和页脚
2023-03-07
0万阅读





c#中如何获取指定字符前的字符串
2023-03-03
0万阅读


			
		
	  
    
	
	


C#实现获取文件大小并进行比较
2023-03-15
0万阅读





利用C#编写一个Windows服务程序的方法详解
2023-03-14
0万阅读





C#实现日期时间的格式化输出的示例详解
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-13
0万阅读





C#递归应用之实现JS文件的自动引用
2023-03-11
0万阅读





C#异步编程之async/await详解
2023-03-11
0万阅读





C#/VB.NET实现在Word中插入或删除脚注
2023-03-08
0万阅读





WPF利用ValueConverter实现值转换器
2023-03-08
0万阅读





C#/VB.NET实现在Word文档中添加页眉和页脚
2023-03-07
0万阅读





c#中如何获取指定字符前的字符串
2023-03-03
0万阅读


	
    

        
电脑版 - 移动首页