忍者ブログ

【pyspark】カラム毎の最大文字数を調べる

2021年09月06日 22時26分31秒
カラム毎の最大文字数を調べるサンプル


from pyspark.sql.functions import *
d = [{'name': 'Tanaka', 'remark': '123'},{'name': 'Satou', 'remark': '12345'}]
df = spark.createDataFrame(d)
df = df.select(
    length('name'),
    length('remark')
).groupBy().agg(
    max('length(name)'),
    max('length(remark)')
)
df.show()
+---------------------+-----------------------+                                         
|max(length(name))|max(length(remark))|
+---------------------+-----------------------+
|                           6|                             5|
+---------------------+-----------------------+
PR
Comment
  Vodafone絵文字 i-mode絵文字 Ezweb絵文字