忍者ブログ

[PR]

2025年08月17日 21時40分00秒
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

【pyspark】groupbyして、グループ毎にカンマ区切りで文字列結合

2021年09月05日 22時59分11秒
groupbyして、グループ毎にカンマ区切りで文字列結合するサンプル


from pyspark.sql.functions import *
d = [{'name': '田中', 'age': 1},{'name': '佐藤', 'age': 2},{'name': '鈴木', 'age': 1}]
df = spark.createDataFrame(d)
df.show()
+----+-----+
| age|name|
+----+-----+
|     1|  田中|
|     2|  佐藤|
|     1|  鈴木|
+----+-----+
df = df.groupBy('age').agg(concat_ws(',', collect_list('name')).alias('test'))
df.show()
+---+---------+
|age|       test|
+---+---------+
|   1|田中,鈴木|
|   2|       佐藤|
+---+---------+



PR
Comment
No title
VNPT cực kỳ cảm ơn vì quý quý khách hàng đã tin dùng dịch vụ của VNPT.
No title
Đây là thành phầm góp tăng cân nặng hiệu quả, nhanh chóng và đặc biệt an toàn và tin cậy mang đến cơ
thể.
  Vodafone絵文字 i-mode絵文字 Ezweb絵文字