C#提取PPT文本和图片的实现方法

2019-12-30 18:00:03于海丽

在图文混排的文档中,我们可以根据需要将文档中的文字信息或者图片提取出来,通过C#代码可以提取Word和PDF文件中的文本和图片,那么同样的,我们也可以提取PPT幻灯片当中的文本和图片。本篇文档将讲述如何使用C#来实现提取PPT文本和图片的操作。首先也是需要安装组件Spire.Presentation,然后添加引用dll文件到项目中。下面是主要的代码步骤。

原文档:

C#提取PPT文本,C#提取PPT图片,C#提取PPT文本和图片

1. 提取文本

步骤一:创建一个Presentation实例并加载文档


Presentation presentation = new Presentation(@"C:UsersAdministratorDesktopsample.pptx", FileFormat.Pptx2010);

步骤二:创建一个StringBuilder对象


StringBuilder sb = new StringBuilder(); 

步骤三:遍历幻灯片及幻灯片中的图形,提取文本内容


 foreach (ISlide slide in presentation.Slides)
  {
  foreach (IShape shape in slide.Shapes)
  {
   if (shape is IAutoShape)
   {
   foreach (TextParagraph tp in (shape as IAutoShape).TextFrame.Paragraphs)
   {
    sb.Append(tp.Text + Environment.NewLine);
   }
   }
  }
  }

步骤四:写入Txt文档


 File.WriteAllText("target.txt", sb.ToString());
 Process.Start("target.txt");

C#提取PPT文本,C#提取PPT图片,C#提取PPT文本和图片

2. 提取图片

 这里提取图片有两种情况,一种是提取整个文档中的所有图片,另外一种是只提取文档中某一特定幻灯片中的图片。

2.1提取所有图片

步骤一:初始化一个Presentation类实例,并加载文档


Presentation ppt = new Presentation();
 ppt.LoadFromFile(@"C:UsersAdministratorDesktopsample.pptx");

步骤二:遍历文档中图片,提取图片并保存


 for (int i = 0; i < ppt.Images.Count; i++)
 {
 Image image = ppt.Images[i].Image;
 image.Save(string.Format(@"....Images{0}.png", i));
 }

C#提取PPT文本,C#提取PPT图片,C#提取PPT文本和图片

提取的图片已保存到项目文件夹下

2.2.提取特定幻灯片中的图片

步骤一:创建一个Presentation类实例,并加载文档


Presentation PPT = new Presentation();
PPT.LoadFromFile(@"C:UsersAdministratorDesktopsample.pptx");