python读取行、分割、存储_Pytables / Pandas:组合(读取?)按行分割的多个HDF5存储...-程序员宅基地

技术标签: python读取行、分割、存储  

在“一次编写,多次读取”工作流程中,我经常使用FastExport实用程序解析从Teradata转储的大型文本文件(20GB-60GB),并使用Pandas将它们加载到Pytables中 . 我正在使用多处理来分块文本文件并将它们分发到不同的进程,以便根据每行大约5MM的行数来编写.H5文件,以支持并行写入 . 对于并行编写多个hdf5文件大约12分钟这相当快,相比之下,为25MM行x64列编写单个hdf5文件需要22分钟 .

%timeit -n 1 write_single_hdf_multiprocess()

1 loops, best of 3: 22min 42s per loop

%timeit -n 1 write_multiple_hdf_multiprocess()

1 loops, best of 3: 12min 12s per loop

对于按行分割多个h5文件的情况,我最终会有多个文件具有相同的结构,我希望在单个h5file根/ data / table中组合

要测试组合功能,以下是代码段:

import tables as tb

import pandas as pd

tb.setBloscMaxThreads(15)

store =pd.HDFStore('temp15.h5',complib='blosc')

filenames=['part_1.h5','part_2.h5','part_3.h5','part_4.h5','part_5.h5']

for f in filenames:

s=pd.HDFStore(f)

df=s.select('data')

store.append(key='data',value=df,format='t',chunksize=200000)

store.close()

这是%timeit结果:

1 loops, best of 3: 8min 22s per loop

这基本上占用了我通过并行编写多个h5文件获得的大部分时间 . 我有两个问题:

有没有办法更有效地组合(追加)具有相同表格格式的h5文件?(SQL联盟就像功能一样) . 我试过this SO但是无法让它附加表格 .

如果没有,在大多数查询从所有列的位置中选择时,在行上拆分是否合理?我正在考虑编写一个map / combine函数,它将查看表的所有部分,以便从查询中进行选择 . Pandas select_as_multiple()函数执行此操作以基于列进行拆分 .

Update Based on Jeff's Suggestions:

在合并前文件写入过程中删除索引和压缩的很棒的调用 . 删除索引,压缩并将每个预合并文件的最大行数设置为1MM行:

%timeit -n 1 write_multiple_hdf_multiprocess()

1 loops, best of 3: 9min 37s per loop

这比以前快2分多一点,速度和解析数据的速度差不多 . 将数据列设置为所需的字段后(在我的情况下为3):

for f in filenames:

s=pd.HDFStore(f)

df=s.select('data')

dc=df.columns[1:4]

store.append(key='data',value=df,format='t',data_columns=dc)

这比以前慢了大约2分钟: 1 loops, best of 3: 10min 23s per loop . 从上面的代码中删除压缩后,我得到 1 loops, best of 3: 8min 48s per loop (几乎与第一次尝试压缩而没有数据列索引相同) . 为了让您了解压缩的效果,未压缩存储大约为13.5GB,而使用 blosc 的压缩版本大约为3.7GB .

总之,我的进程需要 18 minutes 15 seconds 来创建一个合并的未压缩的hdf5文件 . 与单个文件写入(压缩)相比,这个速度大约为 4 minutes 7 seconds .

这让我想到了我的问题的第二部分,如果我不合并文件并使用合并前文件以 Map /组合方式处理,那么这可能是一种合理的方法吗?我应该如何考虑实施这个?

对于完整的披露,我在Pandas版本 0.12.0 ,Pytables版本 3.0.0 和我的数据处理工作流程如下(伪代码):

def generate_chunks_from_text_file(reader,chunksize=50000):

""" generator that yields processed text chunks """

for i, line in enumerate(reader.readlines()):

----process data and yield chunk -----

def data_reader(reader,queue):

""" read data from file and put it into a queue for multiprocessing """

for chunk in self.generate_chunks_from_text_file(reader):

queue.put(chunk) # put data in the queue for the writer

def data_processor(queue,filename,dtype,min_size):

"""" subprocess that reads the next value in the queue and writes hdf store. """

store=pd.HDFStore(filename)

while True:

results = queue.get()

array=np.array(results,dtype=dt) # convert to numpy array

df = pd.DataFrame(array) #covert to pandas array

store.append(key='data', value=df, format='t', min_itemsize=dict(min_size), data_columns=[],index=False)

store.close()

----when queue exhausts - break-----

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39863616/article/details/110898799

智能推荐

GDBus之dbus服务创建_gdbus g_dbus_server_new_sync-程序员宅基地

文章浏览阅读1.7k次。GDBus 创建dbus服务示例dbus服务响应Method、Property、Signal_gdbus g_dbus_server_new_sync

js跳转页面方法(转)_auto.js跳转抖音个人界面 site:blog.csdn.net-程序员宅基地

文章浏览阅读344次。3布丁足迹;秒后自动跳转……function countDown(secs){ tiao.innerText=secs; if(--secs>0) setTimeout("countDown("+secs+")",1000); } countDown(3);   按钮式:    链接式:  返回上一步_auto.js跳转抖音个人界面 site:blog.csdn.net

关于Centos7上python2.7的pip安装问题_python2.7最高支持pip什么版本-程序员宅基地

文章浏览阅读239次。今天在服务器上安装pip包,遇到很多问题,查阅资料大多说pip版本过低导致,直接更新pip后,问题更加严重再次查资料,最后发现是pip版本过高的问题,python2.7版本最高支持到20.3.4使用easy_install来安装指定版本的pip,问题解决参考来源:https://www.cnblogs.com/hxlasky/p/14504677.html..._python2.7最高支持pip什么版本

“前端智能为安防产生新的数据价值”-程序员宅基地

文章浏览阅读938次。笔者按:文章中很多图片无法观看,读者可前往下面的原文地址阅读。文中有一个视频,读者可以从下面地址下载获得:https://pan.baidu.com/s/1o8sXZGA文章转载自:智慧安防网,地址:链接地址 2017年12月14日,“第五届中国·深圳智慧城市建设高峰论坛”在深圳大中华喜来登酒店盛大开幕!来自全国各地的政企领袖、行业大咖、权威专家、企业代表、媒体_前端智能

数据结构:构造二叉树(前跟中跟,中跟后跟)_中根后根构造二叉树-程序员宅基地

文章浏览阅读4.4k次,点赞8次,收藏26次。先从前序的第一个结点开始,其为根节点,然后在中序中找到该元素,一分为二,中序左边为左子树,右边为右子树,然后从前序中找第二个元素为根结点左子树的根,然后重复上面这个过程,发现出现NULL,跳到右子树。但是,如果在先根遍历中加入反映兄弟结点间的左右次序的信息(如以“^”标明空子树),则可以唯一确定一颗二叉树。当一个结点的左右孩子链都已建立,则以当前结点为根的一棵子树就已建立,返回上一层结点。二叉树的广义表表示语法如下图,其中元素表示结点,“^”表示空子树。,则创建一个结点,该结点的左孩子结点元素是。_中根后根构造二叉树

NetSuite高级打印模板设置_netsuite 如何调整打印模版-程序员宅基地

文章浏览阅读648次。NetSuite有高级打印和普通打印模板两种设置本文通过html进行修改,普通打印模板支持的单据相比高级要多:例如请购单;纸张大小:在高级打印模板设置的时候,只有信纸、A4、A5三种纸张可以进行选择,但是我们可以通过原代码修改 将打印的大小进行修改,源代码的size 修改大小之后,关闭原代码,不能预览,因为没有合适的size;现在只是测试过,但是还没有在针式打印机正式测试,A4纸打印机可以打印出设置大小的单据;<body header="nlheader..._netsuite 如何调整打印模版

随便推点

计算100的阶乘末位0的个数_计算100阶乘中0尾数的个数-程序员宅基地

文章浏览阅读605次。 public static void main(String[] args) throws IOException { BigInteger Num = new BigInteger("1"); int i = 1,count = 0; for(;i&lt;=100;i++) { BigInteger I = new BigInteger(i+"");//将int数i转换..._计算100阶乘中0尾数的个数

关于Free版的EclipseUML-程序员宅基地

文章浏览阅读98次。Omondo EclipseUML分为Studio版和Free版两种,我只用过Free版,对于创建EMF类图来说感觉已经够用了。不过和Eclipse的版本比起来,EclipseUML的升级比较缓慢,目前为止最新的版本还是2005年9月27日放出的,这就造成在新版本Eclipse里EclipseUML可能无法正常运行。20050927版本是针对Eclipse 3.1开发的,现在Ec..._free eclipse

第13课 接续符和转义符-程序员宅基地

文章浏览阅读89次。C语言中的接续符(\)是指示编译器行为的利器示例程序如下: 1 #in\ 2 clud\ 3 e <st\ 4 dio.h> 5 6 in\ 7 t m\ 8 ain(\ 9 )10 {11 pri\12 ntf\13 (\14 "Hello D.T.\n"15 )\16 ..._连接he和灵骑bian的第7÷4的余数个字符和h1 tao的字符数

jquery插件之文字无缝向上滚动-程序员宅基地

文章浏览阅读266次。该插件乃本博客作者所写,目的在于提升作者的js能力,也给一些js菜鸟在使用插件时提供一些便利,老鸟就悠然地飞过吧。此插件旨在实现目前较为流行的无缝向上滚动特效,当鼠标移动到文字上时,向上滚动会停止,当鼠标离开时,向上滚动继续。整体代码如下:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://..._文字无缝向上滚动插件

EM算法通俗理解-程序员宅基地

文章浏览阅读54次。https://blog.csdn.net/v_JULY_v/article/details/81708386转载于:https://www.cnblogs.com/bingws/p/10607641.html

算法竞赛进阶指南 0x67 Tarjan 算法与有向图连通性_强连通分支的有向无环图-程序员宅基地

文章浏览阅读204次。有向图G=(V,E)中,如果存在一个点r,使得从r出发,那么就可以到达所有的节点,那么称G为一个流图,记作(G,r)_强连通分支的有向无环图

推荐文章

热门文章

相关标签