【pyspark】groupbyして、グループ毎にカンマ区切りで文字列結合
2021年09月05日 22時59分11秒
groupbyして、グループ毎にカンマ区切りで文字列結合するサンプル
from pyspark.sql.functions import *
from pyspark.sql.functions import *
d = [{'name': '田中', 'age': 1},{'name': '佐藤', 'age': 2},{'name': '鈴木', 'age': 1}]
df = spark.createDataFrame(d)
df.show()
+----+-----+
| age|name|
+----+-----+
| 1| 田中|
| 2| 佐藤|
| 1| 鈴木|
+----+-----+
df = df.groupBy('age').agg(concat_ws(',', collect_list('name')).alias('test'))
df.show()
+---+---------+
|age| test|
+---+---------+
| 1|田中,鈴木|
| 2| 佐藤|
+---+---------+
PR
thể.