【pyspark】カラム毎の最大文字数を調べる
2021年09月06日 22時26分31秒
カラム毎の最大文字数を調べるサンプル
from pyspark.sql.functions import *
d = [{'name': 'Tanaka', 'remark': '123'},{'name': 'Satou', 'remark': '12345'}]
df = spark.createDataFrame(d)
df = df.select(
length('name'),
length('remark')
).groupBy().agg(
max('length(name)'),
max('length(remark)')
)
df.show()
+---------------------+-----------------------+
|max(length(name))|max(length(remark))|
+---------------------+-----------------------+
| 6| 5|
+---------------------+-----------------------+
PR
Comment