十个Pandas的另类数据处理技巧

本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候当你遇到一些非常棘手的问题时,这些技巧可以帮你快速解决一些不常见的问题。

创新互联公司专业为企业提供青秀网站建设、青秀做网站、青秀网站设计、青秀网站制作等企业网站建设、网页设计与制作、青秀企业网站模板建站服务,十多年青秀做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。

1、Categorical类型

默认情况下,具有有限数量选项的列都会被分配object 类型。 但是就内存来说并不是一个有效的选择。 我们可以这些列建立索引,并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categorical的Dtype来解决这个问题。

例如一个带有图片路径的大型数据集组成。 每行有三列:anchor, positive, and negative.。

如果类别列使用 Categorical 可以显着减少内存使用量。

# raw data
+----------+------------------------+
| class | filename |
+----------+------------------------+
| Bathroom | Bathroom\bath_1.jpg |
| Bathroom | Bathroom\bath_100.jpg |
| Bathroom | Bathroom\bath_1003.jpg |
| Bathroom | Bathroom\bath_1004.jpg |
| Bathroom | Bathroom\bath_1005.jpg |
+----------+------------------------+

# target
+------------------------+------------------------+----------------------------+
| anchor | positive | negative |
+------------------------+------------------------+----------------------------+
| Bathroom\bath_1.jpg | Bathroom\bath_100.jpg | Dinning\din_540.jpg |
| Bathroom\bath_100.jpg | Bathroom\bath_1003.jpg | Dinning\din_1593.jpg |
| Bathroom\bath_1003.jpg | Bathroom\bath_1004.jpg | Bedroom\bed_329.jpg |
| Bathroom\bath_1004.jpg | Bathroom\bath_1005.jpg | Livingroom\living_1030.jpg |
| Bathroom\bath_1005.jpg | Bathroom\bath_1007.jpg | Bedroom\bed_1240.jpg |
+------------------------+------------------------+----------------------------+

filename列的值会经常被复制重复。因此,所以通过使用Categorical可以极大的减少内存使用量。

让我们读取目标数据集,看看内存的差异:

triplets.info(memory_usage="deep")

# Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 anchor 525000 non-null category
# 1 positive 525000 non-null category
# 2 negative 525000 non-null category
# dtypes: category(3)
# memory usage: 4.6 MB

# without categories
triplets_raw.info(memory_usage="deep")

# Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 anchor 525000 non-null object
# 1 positive 525000 non-null object
# 2 negative 525000 non-null object
# dtypes: object(3)
# memory usage: 118.1 MB

差异非常大,并且随着重复次数的增加,差异呈非线性增长。

2、行列转换

sql中经常会遇到行列转换的问题,Pandas有时候也需要,让我们看看来自Kaggle比赛的数据集。census_start .csv文件:

可以看到,这些按年来保存的,如果有一个列year和pct_bb,并且每一行有相应的值,则会好得多,对吧。

cols = sorted([col for col in original_df.columns \
if col.startswith("pct_bb")])
df = original_df[(["cfips"] + cols)]
df = df.melt(id_vars="cfips",
value_vars=cols,
var_name="year",
value_name="feature").sort_values(by=["cfips", "year"])

看看结果,这样是不是就好很多了:

3、apply()很慢

我们上次已经介绍过,最好不要使用这个方法,因为它遍历每行并调用指定的方法。但是要是我们没有别的选择,那还有没有办法提高速度呢?

可以使用swifter或pandarallew这样的包,使过程并行化。

Swifter

import pandas as pd
import swifter

def target_function(row):
return row * 10

def traditional_way(data):
data['out'] = data['in'].apply(target_function)

def swifter_way(data):
data['out'] = data['in'].swifter.apply(target_function)

Pandarallel

import pandas as pd
from pandarallel import pandarallel

def target_function(row):
return row * 10

def traditional_way(data):
data['out'] = data['in'].apply(target_function)

def pandarallel_way(data):
pandarallel.initialize()
data['out'] = data['in'].parallel_apply(target_function)

通过多线程,可以提高计算的速度,当然当然,如果有集群,那么最好使用dask或pyspark

4、空值,int, Int64

标准整型数据类型不支持空值,所以会自动转换为浮点数。所以如果数据要求在整数字段中使用空值,请考虑使用Int64数据类型,因为它会使用pandas.NA来表示空值。

5、Csv, 压缩还是parquet?

尽可能选择parquet。parquet会保留数据类型,在读取数据时就不需要指定dtypes。parquet文件默认已经使用了snappy进行压缩,所以占用的磁盘空间小。下面可以看看几个的对比

|        file            |  size   |
+------------------------+---------+
| triplets_525k.csv | 38.4 MB |
| triplets_525k.csv.gzip | 4.3 MB |
| triplets_525k.csv.zip | 4.5 MB |
| triplets_525k.parquet | 1.9 MB |
+------------------------+---------+

读取parquet需要额外的包,比如pyarrow或fastparquet。chatgpt说pyarrow比fastparquet要快,但是我在小数据集上测试时fastparquet比pyarrow要快,但是这里建议使用pyarrow,因为pandas 2.0也是默认的使用这个。

6、value_counts ()

计算相对频率,包括获得绝对值、计数和除以总数是很复杂的,但是使用value_counts,可以更容易地完成这项任务,并且该方法提供了包含或排除空值的选项。

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]})
df["a"] = df["a"].astype("Int64")
print(df.info())
print(df["a"].value_counts(normalize=True, dropna=False),
df["a"].value_counts(normalize=True, dropna=True), sep="\n\n")

这样是不是就简单很多了

7、Modin

注意:Modin现在还在测试阶段。

pandas是单线程的,但Modin可以通过缩放pandas来加快工作流程,它在较大的数据集上工作得特别好,因为在这些数据集上,pandas会变得非常缓慢或内存占用过大导致OOM。

!pip install modin[all]

import modin.pandas as pd
df = pd.read_csv("my_dataset.csv")

以下是modin官网的架构图,有兴趣的研究把:

8、extract()

如果经常遇到复杂的半结构化的数据,并且需要从中分离出单独的列,那么可以使用这个方法:

import pandas as pd

regex = (r'(?P[A-Za-z\'\s]+),'<br> r'(?P<author>[A-Za-z\s\']+),'<br> r'(?P<isbn>[\d-]+),'<br> r'(?P<year>\d{4}),'<br> r'(?P<publisher>.+)')<br> addr = pd.Series([<br> "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",<br> "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",<br> "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",<br> "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",<br> "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books"<br> ])<br> addr.str.extract(regex)</pre><p> </p> <h4>9、读写剪贴板</h4> <p>这个技巧有人一次也用不到,但是有人可能就是需要,比如:在分析中包含PDF文件中的表格时。通常的方法是复制数据,粘贴到Excel中,导出到csv文件中,然后导入Pandas。但是,这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。</p><p>有读就可以写,所以还可以使用to_clipboard()方法导出到剪贴板。</p><p>但是要记住,这里的剪贴板是你运行python/jupyter主机的剪切板,并不可能跨主机粘贴,一定不要搞混了。</p> <h4>10、数组列分成多列</h4> <p>假设我们有这样一个数据集,这是一个相当典型的情况:</p><pre>import pandas as pd<br> df = pd.DataFrame({"a": [1, 2, 3],<br> "b": [4, 5, 6],<br> "category": [["foo", "bar"], ["foo"], ["qux"]]})<br> <br> # let's increase the number of rows in a dataframe<br> df = pd.concat([df]*10000, ignore_index=True)</pre><p> </p><p>我们想将category分成多列显示,例如下面的</p><p> </p><p>先看看最慢的apply:</p><pre>def dummies_series_apply(df):<br> return df.join(df['category'].apply(pd.Series) \<br> .stack() \<br> .str.get_dummies() \<br> .groupby(level=0) \<br> .sum()) \<br> .drop("category", axis=1)<br> %timeit dummies_series_apply(df.copy())<br> #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)</pre><p>sklearn的MultiLabelBinarizer</p><pre>from sklearn.preprocessing import MultiLabelBinarizer<br> def sklearn_mlb(df):<br> mlb = MultiLabelBinarizer()<br> return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) \<br> .drop("category", axis=1)<br> %timeit sklearn_mlb(df.copy())<br> #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre><p>是不是快了很多,我们还可以使用一般的向量化操作对其求和:</p><pre>def dummies_vectorized(df):<br> return pd.get_dummies(df.explode("category"), prefix="cat") \<br> .groupby(["a", "b"]) \<br> .sum() \<br> .reset_index()<br> %timeit dummies_vectorized(df.copy())<br> #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre><p> </p><p>使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。</p> <h4>总结</h4> <p>我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外,除了csv之外,还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型,它可以节省大量内存。感谢阅读!</p> <p> 网站题目:<a href="http://www.mswzjz.com/qtweb/news28/189428.html">十个Pandas的另类数据处理技巧</a> <br> 文章位置:<a href="http://www.mswzjz.com/qtweb/news28/189428.html">http://www.mswzjz.com/qtweb/news28/189428.html</a> </p> <p> 网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等 </p> <p class="adpic"> <a href="https://www.cdcxhl.com/service/ad.html" target="_blank" class="ad">广告</a> <a href="" target="_blank" class="adimg"><img src=""></a> </p> <p class="copy"> 声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: <a href="https://www.cdcxhl.com/" target="_blank">创新互联</a> </p> </div> <div class="newsmorelb"> <p>猜你还喜欢下面的内容</p> <ul> <li> <a href="/qtweb/news27/189427.html">服务好的网站建设外包,石家庄网站建设技术外包</a> </li><li> <a href="/qtweb/news26/189426.html">创新互联GoFrame教程:GoFramegarray-基本使用</a> </li><li> <a href="/qtweb/news25/189425.html">dvd怎么播放?(dvd怎么播放u盘)</a> </li><li> <a href="/qtweb/news24/189424.html">服务器在国外?(境外服务器一般放哪里)</a> </li><li> <a href="/qtweb/news23/189423.html">wga接口是什么意思?windows7wga</a> </li><li> <a href="/qtweb/news22/189422.html">DB2-964问题的产生原因与破解方案</a> </li><li> <a href="/qtweb/news21/189421.html">如何在Windows下查杀Linux恶意文件</a> </li><li> <a href="/qtweb/news20/189420.html">配置PHP运行环境的大致步骤</a> </li><li> <a href="/qtweb/news19/189419.html">正版XP操作系统如何激活?windowsxp在哪激活</a> </li> </ul> </div> </div> <div class="col-lg-3 noneb"> <div class="bkright" style="margin-top: 0"> <p><a href="https://www.cdcxhl.com/news/cloud/">云服务器知识</a></p> <ul> <li> <a class="text_overflow" href="/qtweb/news0/173200.html">怎么炒作?(怎么炒作一个人)</a> </li><li> <a class="text_overflow" href="/qtweb/news15/184515.html">Redis从入门到精通(redis的全面讲解)</a> </li><li> <a class="text_overflow" href="/qtweb/news18/206468.html">Extravm优惠:VPS主机不再是高昂的奢侈品</a> </li><li> <a class="text_overflow" href="/qtweb/news14/187964.html">管理Oracle OLAP时清除通往OLAP的障碍</a> </li><li> <a class="text_overflow" href="/qtweb/news12/178112.html">Java使用List进行数据库查询的实例(javalist查询数据库)</a> </li><li> <a class="text_overflow" href="/qtweb/news19/191869.html">C在Linux系统下的调试实践(clinux调试)</a> </li><li> <a class="text_overflow" href="/qtweb/news14/200464.html">Redis服务自动停止(redis服务自动停止)</a> </li><li> <a class="text_overflow" href="/qtweb/news47/206347.html">网站搜索不到是什么原因?(为何旧域名建设的网站不收录怎么解决这个问题)</a> </li><li> <a class="text_overflow" href="/qtweb/news49/207899.html">windowsftp端口配置?(win10ftp端口)</a> </li><li> <a class="text_overflow" href="/qtweb/news24/177924.html">centos7安装部署虚拟机(VM虚拟机centos7怎么和主机传输文件)</a> </li><li> <a class="text_overflow" href="/qtweb/news43/168993.html">VirtioLinux技术简介(virtiolinux)</a> </li><li> <a class="text_overflow" href="/qtweb/news19/201569.html">c#怎么添加画板?windows画板</a> </li><li> <a class="text_overflow" href="/qtweb/news42/186292.html">备案服务号怎么获得?(如何申请备案服务号码)</a> </li><li> <a class="text_overflow" href="/qtweb/news42/200142.html">影响系统的虚拟化挑战</a> </li><li> <a class="text_overflow" href="/qtweb/news45/163395.html">网站文章不收录怎么办,文章收录四大网站</a> </li> </ul> </div> <div class="bkright tag"> <p><a href="https://www.cdcxhl.com/hangye/link.html" target="_blank">各行业网站</a></p> <ul> <li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/bpfhw/" target="_blank">边坡防护网</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/geshan/" target="_blank">格栅板</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/jiaquan/" target="_blank">除甲醛</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/bgcl/" target="_blank">办公窗帘</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/zhendongpan/" target="_blank">振动盘</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/bolimo/" target="_blank">玻璃贴膜</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/fadianjihs/" target="_blank">发电机回收</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/kafeitingsj/" target="_blank">咖啡厅设计</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/zhanting/" target="_blank">展览展示</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/chayisj/" target="_blank">茶艺设计</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/gangting/" target="_blank">岗亭</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/loutihulan/" target="_blank">楼梯护栏</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/pe/" target="_blank">PE包装袋</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/shidiao/" target="_blank">石雕</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/gsdb/" target="_blank">工商代办</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/chalousj/" target="_blank">茶楼设计</a> </li> </ul> </div> </div> </div> <div class="carousel-inner linkbg" style="background: #fff"> <div class="container"> <a href="http://www.cdkjz.cn/small/" target="_blank">成都微信小程序开发</a>    <a href="http://www.dcwzsj.com/" target="_blank">德昌麦琪建站</a>    <a href="http://www.cdxwcx.cn/tuoguan/leshan.html" target="_blank">乐山托管服务器</a>    <a href="http://www.cdxwcx.cn/tuoguan/mianyang.html" target="_blank">绵阳机房托管</a>    <a href="https://www.cdcxhl.com/xiaochengx.html" target="_blank">小程序开发</a>    <a href="https://www.cdcxhl.com/app.html" target="_blank">成都app软件开发</a>    <a href="https://www.cdcxhl.cn/ " target="_blank">网站空间</a>    <a href="http://www.cdkjz.cn/fangan/jianshe/" target="_blank">网站报价方案</a>    <a href="http://www.cdkjz.cn/wangzhan/yingxiao/" target="_blank">成都营销型网站建设</a>    <a href="https://www.cdxwcx.com/city/pengzhou/" target="_blank">彭州网站建设</a>    <a href="https://www.cdxwcx.com/jifang/mianyang.html" target="_blank">绵阳主机托管</a>    <a href="http://www.csyarui.cn/" target="_blank">成都雪糕加盟</a>    <a href="https://www.cdxwcx.com/wangzhan/case/dfjg.html" target="_blank">东电技服</a>    <a href="http://www.jinhuajc.com/" target="_blank">保温橡塑管</a>    <a href="http://www.ruijiemsc.com/" target="_blank">瑞杰企业管理</a>    <a href="http://seo.cdkjz.cn/mobile/" target="_blank">手机网站建设</a>    <a href="http://www.cdkjz.cn/fangan/tour/" target="_blank">旅游网站建设方案</a>    <a href="https://www.cdcxhl.com/ssl/chengdu.html" target="_blank">成都ssl证书认证</a>    <a href="http://www.scgaoxian.com/" target="_blank">高县网站建设</a>    <a href="http://www.4006tel.net/vision/website.html" target="_blank">网站设计</a>     </div> </div> <footer> <div class="carousel-inner footjz"> <div class="container"> <i class="icon iconfont zbw"></i> 高品质定制 <i class="icon iconfont"></i> 跨终端自动兼容 <i class="icon iconfont"></i> 节约开发成本 <i class="icon iconfont"></i> 开发周期短 <i class="icon iconfont"></i> 一体化服务 <button type="button" class="btn btn-default btn-lg" onClick="window.location.href='tencent://message/?uin=631063699&Site=&Menu=yes'"> 立即开始2800定制网站建设</button> <button type="button" class="btn btn-default btn-xs" onClick="window.location.href='tencent://message/?uin=631063699&Site=&Menu=yes'"> 2800定制网站建设</button> </div> </div> <div class="carousel-inner bqsy"> <div class="container"> <div class="lxfs"> <h4 class="yutelnone">028-86922220 13518219792</h4> <h4 class="yutelblock"><a href="tel:02886922220">028-86922220</a> <a href="tel:13518219792">13518219792</a></h4> <a class="btn btn-default" href="tencent://message/?uin=532337155&Site=&Menu=yes" role="button">网站建设<span>QQ</span>:532337155</a> <a class="btn btn-default" href="tencent://message/?uin=631063699&Site=&Menu=yes" role="button">营销推广<span>QQ</span>:631063699</a> <a class="btn btn1 btn-default" href="mqqwpa://im/chat?chat_type=wpa&uin=532337155&version=1&src_type=web&web_src=oicqzone.com" role="button">网站制作<span>QQ</span>:532337155</a> <a class="btn btn1 btn-default" href="mqqwpa://im/chat?chat_type=wpa&uin=631063699&version=1&src_type=web&web_src=oicqzone.com" role="button">营销推广<span>QQ</span>:631063699</a> <a class="btn btn-default nonea" href="tencent://message/?uin=1683211881&Site=&Menu=yes" role="button">售后QQ:1683211881</a> <div class="dz">创新互联建站专注: <a href="https://www.cdcxhl.com/" target="_blank">网站设计</a> <a href="https://www.cdcxhl.com/" target="_blank">网站制作</a> <a href="https://www.cdcxhl.com/" target="_blank">网站建设</a> <address>地址:成都太升南路288号锦天国际A幢10楼</address> </div> </div> <div class="bzdh dz"><img src="https://www.cdcxhl.com/imges/bottom_logo.png" alt="创新互联"> <p><a href="https://www.cdcxhl.com/menu.html" target="_blank">成都创新互联科技有限公司</a><br> Tel:400-028-6601(7x24h)</p></div> </div> </div> </footer> </body> </html> <script> $.getJSON ("../../qtwebpic.txt", function (data) { var jsonContent = { "featured":data } var random = jsonContent.featured[Math.floor(Math.random() * jsonContent.featured.length)]; $(".adpic .adimg").attr("href",random.link) $(".adpic img").attr("src",random.pic); }) </script>