[PR]
2025年08月17日 21時40分00秒
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
【pyspark】groupbyして、グループ毎にカンマ区切りで文字列結合
2021年09月05日 22時59分11秒
groupbyして、グループ毎にカンマ区切りで文字列結合するサンプル
from pyspark.sql.functions import *
from pyspark.sql.functions import *
d = [{'name': '田中', 'age': 1},{'name': '佐藤', 'age': 2},{'name': '鈴木', 'age': 1}]
df = spark.createDataFrame(d)
df.show()
+----+-----+
| age|name|
+----+-----+
| 1| 田中|
| 2| 佐藤|
| 1| 鈴木|
+----+-----+
df = df.groupBy('age').agg(concat_ws(',', collect_list('name')).alias('test'))
df.show()
+---+---------+
|age| test|
+---+---------+
| 1|田中,鈴木|
| 2| 佐藤|
+---+---------+
PR
thể.