当前位置:文档之家› (整理)python操作excel.

(整理)python操作excel.

You are here: Home»计算机»编程» Python操作ExcelPython操作Excel2012-09-01老婆单位有时候有一些很大的 Excel 统计报表需要处理,其中最恶心的是跨表的 JOIN 查询。

他们通常采取的做法是,把多个 Excel 工作簿合成一个工作簿的多个表格,然后再跑函数(VLOOKUP之类)去查。

因为用的函数效率很低,在 CPU 打满的情况下还要跑几个小时。

然后我就看不过去了,我也不懂 Excel,不知道如何优化,但我想用Python+SQLite 总归是能够实现的。

于是就尝试了一把,效果还不错,一分钟以内完成统计很轻松,其中大部分时间主要花在读 Excel 内容上。

1. Python 操作 Excel 的函数库我主要尝试了 3 种读写 Excel 的方法:1> xlrd, xlwt, xlutils: 这三个库的好处是不需要其它支持,在任何操作系统上都可以使用。

xlrd 可以读取 .xls, .xlsx 文件,非常好用;但因为 xlwt 不能直接修改 Excel 文档,必须得复制一份然后另存为其它文件,而且据说写复杂格式的 Excel 文件会出现问题,所以我没有选它来写 Excel 文件。

2> openpyxl: 这个库也是不需要其它支持的,而且据说对 Office 2007 格式支持得更好。

遗憾地是,我经过测试,发现它加载 Excel 文件的效率比 xlrd 慢 3 倍以上,内存使用在 10 倍以上,于是就放弃了。

3> win32com: Python Win32 扩展,这个库需要运行环境为 Windows+Office 对应版本。

由于 Python Win32 扩展只是把 COM 接口包装了一下,可以视为与VBA 完全相同,不会有读写格式上的问题。

尝试了一下用 win32com 读取 Excel 文件,效率还是比 xlrd 慢一些。

由于读取效率上 xlrd > win32com > openpyxl,所以我自然选择了 xlrd 用来读取统计报表;而最终输出的报表格式较复杂,所以选择了 win32com 直接操作 Excel 文件。

2. Python 里的关系型数据库SQLite是一个非常轻量级的关系型数据库,很多语言和平台都内置 SQLite 支持,也是 iOS 和 Android 上的默认数据库。

Python 的标准库里也包含了sqlite3库,用起来非常方便。

3. 用 xlrd 读取 Excel 并插入数据库样例如果数据量不大,直接用 Python 内部数据结构如 dict, list 就够了。

但如果读取的几张表数据量都较大,增加个将数据插入数据库的预处理过程就有很大好处。

一是避免每次调试都要进行耗时较长的 Excel 文件载入过程;二是能充分利用数据库的索引和 SQL 语句强大功能进行快速数据分析。

#!/usr/bin/python# -*- coding: gbk -*-import xlrdimport sqlite3# 打开数据库文件device_city_db = ('')cursor = ()# 建表('DROP TABLE IF EXISTS device_city')('CREATE TABLE device_city (device_id char(16) PRIMARY KEY, city varchar(16))')# 打开 device 相关输入 Excel 文件device_workbook = ('输入.xlsx')device_sheet = ('设备表')# 逐行读取 device-城市映射文件,并将指定的列插入数据库for row in range(1, :device_id = (row, 6).valueif len(device_id) > 16:device_id = device_id[0:16]if len(device_id) == 0:continuecity = (row, 10).value# 避免插入重复记录('SELECT * FROM device_city WHERE device_id=', (device_id,))res = ()if res == None:('INSERT INTO device_city (device_id, city) VALUES (, )',(device_id, city))else:if res[1] != city:print'%s, %s, %s, %s' % (device_id, city, res[0], res[1])()4. 将结果写入 Excel 文件样例使用 win32com 写入 Excel 的时候要注意,一定要记得退出 Excel,否则下次运行会出错。

这需要增加异常处理语句,我这里偷了个懒,出了异常后要手动杀死任务管理器中的 excel 进程。

至于 win32com 中类的接口,可以从 MSDN 网站查阅。

import as win32import osexcel = '')= False# 貌似这里只能接受全路径workbook = '输出.xlsx'))month_sheet = (1)# 计算文件中实际有内容的行数nrows = ('A65536').End# 操作 Excel 单元格的值for row in range(5, nrows-4): (row, 1).Value += something # 保存工作簿()# 退出 Excelpython操作Excel读写--使用xlrd 一、安装xlrd模块到python官网下载模块安装,前提是已经安装了python 环境。

二、使用介绍1、导入模块import xlrd2、打开Excel文件读取数据data = ('')3、使用技巧获取一个工作表table = ()[0] #通过索引顺序获取table = (0) #通过索引顺序获取table = (u'Sheet1')#通过名称获取获取整行和整列的值(数组)(i)(i)获取行数和列数nrows =ncols =循环行列表数据for i in range(nrows ):print (i)单元格cell_A1 = (0,0).valuecell_C4 = (2,3).value使用行列索引cell_A1 = (0)[0].valuecell_A2 = (1)[0].value简单的写入row = 0col = 0# 类型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error ctype = 1value = '单元格的值'xf = 0# 扩展的格式化(row, col, ctype, value, xf)(0,0) #单元格的值'(0,0).value #单元格的值'三、Demo代码Demo代码其实很简单,就是读取Excel数据。

1# -*- coding: utf-8 -*-2import xdrlib ,sys3import xlrd4def open_excel(file= ''):5try:6 data = (file)7return data8except Exception,e:9print str(e)10#根据索引获取Excel表格中的数据参数:file:Excel文件路径colnameindex:表头列名所在行的所以,by_index:表的索引11def excel_table_byindex(file= '',colnameindex=0,by_index=0):12 data = open_excel(file)13 table = ()[by_index]14 nrows = #行数15 ncols = #列数16 colnames = (colnameindex) #某一行数据17 list =[]18for rownum in range(1,nrows):1920 row = (rownum)21if row:22 app = {}23for i in range(len(colnames)):24 app[colnames[i]] = row[i]25 (app)26return list2728#根据名称获取Excel表格中的数据参数:file:Excel文件路径colnameindex:表头列名所在行的所以,by_name:Sheet1名称29def excel_table_byname(file='',colnameindex=0,by_name=u'Sheet1'):30 data = open_excel(file)31 table = (by_name)32 nrows = #行数33 colnames = (colnameindex) #某一行数据34 list =[]35for rownum in range(1,nrows):36 row = (rownum)37if row:38 app = {}39for i in range(len(colnames)):40 app[colnames[i]] = row[i]41 (app)42return list4344def main():45 tables = excel_table_byindex()46for row in tables:47print row4849 tables = excel_table_byname()50for row in tables:51print row5253if__name__=="__main__":54 main()。

相关主题