<h2>Crawling</h2>
Use <code>request</code> or <code>http</code> to get the raw html.
<h3>Request</h3>
<pre class="language-javascript"><code class="language-javascript">var request = require('request');

var url = 'http://foo.com';

// plain text
request(url, function (err, res, body) {

}

// gzip
request({url: url, gzip: true}, function (err, res, body) {

}
</code></pre>
<h3>http</h3>
<pre class="language-javascript"><code class="language-javascript">var http = require('http');
http.request({
 host: 'search.twitter.com',
 path: '/search.json?' + qs.stringify({ q: search })
}, function (res) {}
</code></pre>
If plain text
<pre class="language-javascript"><code class="language-javascript">http.get(url, function (res) {
 var buffer = [];
 res
 .on('data', function (data) {
 buffer.push(data);
 })
 .on('end', function () {
 parsePage(buffer.join(''));
 });
});
</code></pre>
If gziped
<pre class="language-javascript"><code class="language-javascript">var zlib = require('zlib');

http.get(url, function (res) {
 var buffer = [];
 var gunzip = zlib.createGunzip();
 res.pipe(gunzip);

 gunzip
 .on('data', function (data) {
 buffer.push(data);
 })
 .on('end', function () {
 parsePage(buffer.join(''));
 });
});
</code></pre>
<h2>Parsing</h2>
Use <code>cheerio</code> to parse html, after that everything works like jQuery.
<pre class="language-javascript"><code class="language-javascript">var cheerio = require('cheerio');
request(url, function (err, res, body) {
 $ = cheerio.load(body);
 //...
});
</code></pre>
<h3>Each</h3>
<pre class="language-javascript"><code class="language-javascript">$('table tr').each(function (i, row) {
 console.log($(this).html());
});
</code></pre>
To get a list of fields, and output the first column
<pre class="language-javascript"><code class="language-javascript">$('table tr').each(function (i, row) {
 var fields = $(this).find('td');
 console.log($(fields[0]).text());
});
</code></pre>

Node.js - Web Crawling

Crawling

Request

http

Parsing

Each