高度なデータ集計
awk を使った複雑なデータ集計処理について学びます。
CommandAcademy Terminal
Welcome to CommandAcademy Terminal!
Type "help" to see available commands.
user@cmdac:~$
█
ファイルツリー
/
etc
hosts35B
passwd76B
home
user
tmp
usr
bin
share
var
log
# 複数レベルの集計
awk -F, '{
region_total[$1] += $4 * $5
category_total[$2] += $4 * $5
region_category[$1 SUBSEP $2] += $4 * $5
product_count[$1]++
} END {
print "=== 地域別売上 ==="
for (r in region_total)
printf "%s: $%d\n", r, region_total[r]
print "\n=== カテゴリ別売上 ==="
for (c in category_total)
printf "%s: $%d\n", c, category_total[c]
print "\n=== 地域×カテゴリ集計 ==="
for (rc in region_category) {
split(rc, parts, SUBSEP)
printf "%s - %s: $%d\n", parts[1], parts[2], region_category[rc]
}
}' advanced_sales.csv
このレッスンでは以下の内容を学習します:
- 多次元データの集計処理
- 統計関数の実装
- データの正規化と変換
- 複数ファイルの結合
- パフォーマンス最適化技法
まとめ
awk の高度なデータ処理技術により、複雑なビジネスロジックも効率的に実装できます。
💡 次のレッスンでは、ストリーム処理とパイプラインについて学びます。