当前位置: 首页 > news >正文

海外网站推广方案短视频广告投放平台

海外网站推广方案,短视频广告投放平台,wordpress主题 大学,wordpress 主题 制作视频教程前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。 这些库的…

前言

本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。
可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。
这些库的更多使用方法,请到官方文档中查阅。

读取PDF文本:PyPDF2

import PyPDF2def read_pdf_to_text(file_path):with open(file_path, 'rb') as pdf_file:pdf_reader = PyPDF2.PdfReader(pdf_file)contents_list = []for page in pdf_reader.pages:content = page.extract_text()contents_list.append(content)return '\n'.join(contents_list)read_pdf_to_text('xxx.pdf')

读取Word文本:docx2txt

doc需先手动转换成docx

import docx2txtdef read_docx_to_text(file_path):text = docx2txt.process(file_path)return textread_docx_to_text('xxx.docx')

读取excel文本:pandas

当然,pandas能读取的文件不仅仅是excel,还包括csv、json等。

import pandas as pddef read_excel_to_text(file_path):excel_file = pd.ExcelFile(file_path)sheet_names = excel_file.sheet_namestext_list = []for sheet_name in sheet_names:df = excel_file.parse(sheet_name)text = df.to_string(index=False)text_list.append(text)return '\n'.join(text_list)read_excel_to_text('xxx.xlsx')

读取ppt文本:pptx

from pptx import Presentationdef read_pptx_to_text(file_path):prs = Presentation(file_path)text_list = []for slide in prs.slides:for shape in slide.shapes:if shape.has_text_frame:text_frame = shape.text_frametext = text_frame.textif text:text_list.append(text)return '\n'.join(text_list)read_pptx_to_text('xxx.pptx')

读取csv、txt其他文本:直接open,read()

def read_txt_to_text(file_path):with open(file_path, 'r') as f:text = f.read()return textread_txt_to_text('xxx.csv')
read_txt_to_text('xxx.txt')

读取任何文件格式

有了前面的所有函数,那我们可以写一个支持传任意格式文件的函数。

support = {'pdf': 'read_pdf_to_text','docx': 'read_docx_to_text','xlsx': 'read_excel_to_text','pptx': 'read_pptx_to_text','csv': 'read_txt_to_text','txt': 'read_txt_to_text',
}def read_any_file_to_text(file_path):file_suffix = file_path.split('.')[-1]func = support.get(file_suffix)if func is None:return '暂不支持该文件格式'text = eval(func)(file_path)return textread_any_file_to_text('xxx.pdf')
read_any_file_to_text('xxx.docx')
read_any_file_to_text('xxx.xlsx')
read_any_file_to_text('xxx.pptx')
read_any_file_to_text('xxx.csv')
read_any_file_to_text('xxx.txt')

结语

以上就是全部常见的文件格式的读取和提取所有文本的全部内容了。
更多其他的使用方法请查阅官方文档。

http://www.ds6.com.cn/news/121838.html

相关文章:

  • 建设网站的必要性网络推广人员是干什么的
  • 部委网站建设管理职责中国国家培训网官网查询
  • wordpress编辑html企业网站推广优化公司
  • 网站制作一条龙百度搜索推广的五大优势
  • 做网站公奇闻司郑州汉狮网络推广技术外包
  • 谁做的怀来吧网站seo优化软件
  • 咋把网站制作成软件seo网站推广案例
  • 为什么凡科网做的网站无法搜索营销策划有限公司经营范围
  • 网站开发解决方案抖音seo怎么做
  • 网站上传的图片怎么做的清晰线下推广方式
  • 西安东郊网站建设seo优化的技巧
  • 帝国cms怎么做音乐网站哪里注册域名最便宜
  • 怎样做服装厂的企业网站模版教你如何快速建站
  • 网站测评必须做广州疫情最新消息
  • 做网站设计的需要什么材料企业网络搭建方案
  • 大连金普新区城乡建设局网站nba最新交易信息
  • 深圳网站域名注册品牌营销经典案例
  • 微信做淘宝客 网站打不开了上海网络推广招聘
  • 网站建设公司怎么盈利抖音seo搜索引擎优化
  • dw个人网站建立教学百度seo网站优化
  • 网站建设优势企业网页设计公司
  • 哈尔滨建设工程有限公司大侠seo外链自动群发工具
  • 烟台企业网站怎么优化360摄像头海澳門地区限制解除
  • 做网站小图标it行业培训机构一般多少钱
  • 廊坊哪里有做网站的张文宏说上海可能是疫情爆发
  • lol做框网站在线查询网站收录
  • 广州天河网站开发公司网络营销课程主要讲什么内容
  • 宁波网络推广平台哪里有谷歌seo软件
  • 大学网站建设与管理职责免费的电脑优化软件
  • 网站建设的素材北京网络推广有哪些公司