<h2>Describe a DataFrame</h2>
Assume we already have the DataFrame <code>df</code>, and column names are <code>col0, col1, col2 ...</code>
<pre class="language-scala"><code class="language-scala">val result = df.describe("col0", "col1", "col6")
result.show()
</code></pre>
<pre><code>+-------+------------------+-----------------+----+
|summary| col0 | col1 |col6|
+-------+------------------+-----------------+----+
| count | 100 | 100 | 100|
| mean | 1.625 | 1.5 |null|
| stddev|1.3252656767320465|1.125087900926024|null|
| min | | | |
| max | ~ | 3.0 |aaaa|
+-------+------------------+-----------------+----+
</code></pre>
<h2>GroupBy</h2>
Count of Categorical Field
<pre class="language-scala"><code class="language-scala">df.groupBy("colName").count()
</code></pre>
Weighted Count of Categorical Field
<pre class="language-scala"><code class="language-scala">df.groupBy("colName").sum("weightColName")
</code></pre>
Group by multiple columns
<pre class="language-scala"><code class="language-scala">df.groupBy("col0", "col1", "col2").count()
</code></pre>
<h2>agg()</h2>
Unique Values/Cardinality
<pre class="language-scala"><code class="language-scala">df.agg(approxCountDistinct("col0")).show()
</code></pre>
With multiple aggregation functions
<pre class="language-scala"><code class="language-scala">val t = Seq(count("col1"), count("col2"))
df.agg(count("col0"), t:_*).show()
</code></pre>
Pragmatically:
<pre class="language-scala"><code class="language-scala">val t = header
 .map(name =>
 Seq(
 count(name).as("cnt_" + name),
 min(name).as("min_" + name),
 max(name).as("max_" + name),
 countDistinct(name).as("dist_" + name)))
 .reduce(_ ++ _)

val result = df.agg(count("col0"), t: _*)

println(result.head.getAs[Double]("cnt_col0"))
</code></pre>
where <code>t:_*</code> notes that <code>t</code> should be used as varargs

Aggregation

Describe a DataFrame

GroupBy

agg()