忍者ブログ

【pyspark】groupbyして、グループ毎にカンマ区切りで文字列結合

2021年09月05日 22時59分11秒
groupbyして、グループ毎にカンマ区切りで文字列結合するサンプル


from pyspark.sql.functions import *
d = [{'name': '田中', 'age': 1},{'name': '佐藤', 'age': 2},{'name': '鈴木', 'age': 1}]
df = spark.createDataFrame(d)
df.show()
+----+-----+
| age|name|
+----+-----+
|     1|  田中|
|     2|  佐藤|
|     1|  鈴木|
+----+-----+

df = df.groupBy('age').agg(concat_ws(',', collect_list('name')).alias('test'))
df.show()
+---+---------+
|age|       test|
+---+---------+
|   1|田中,鈴木|
|   2|       佐藤|
+---+---------+
PR
Comment
No title
VNPT cực kỳ cảm ơn vì quý quý khách hàng đã tin dùng dịch vụ của VNPT.
No title
Đây là thành phầm góp tăng cân nặng hiệu quả, nhanh chóng và đặc biệt an toàn và tin cậy mang đến cơ
thể.
  Vodafone絵文字 i-mode絵文字 Ezweb絵文字