Devahoy Logo
PublishedAt

NodeJS

ดึงข้อมูลเว็บไซต์ด้วย Nodejs และ Cheerio

ดึงข้อมูลเว็บไซต์ด้วย Nodejs และ Cheerio

บทความนี้เป็นตัวอย่างการดึงข้อมูลเว็บไซต์ด้วยการใช้ Node.js และ Cheerio ซึ่งเทคนิคการดึงข้อมูลเว็บไซต์ต่างๆนี้ เราเรียกมันว่า “Web Scraping” หรือ “Web Crawler” ก็แล้วแต่ หลักการมันก็คล้ายๆกับเว็บไซต์ Google ที่จะเข้าไปเก็บข้อมูล index ทุกๆเว็บไซต์ไว้เพื่อทำ search engine นั่นเอง

สำหรับตัวอย่างบทความนี้ จะเป็นตัวอย่าง การดึงข้อมูลของแอพใน Google Play มาแสดง ซึ่งนอกจากในบทความนี้แล้ว ยังสามารถนำไปประยุกต์ใช้ได้หลากหลาย ไม่ว่าจะเป็น ดึงข้อมูล ราคาทอง ราคาน้ำมัน ตารางหนังเข้าฉาย ราคาเกมส์ ราคาสินค้า Amazon, Wallmart เยอะแยะไปหมด

Web Scraping จะมองว่าเป็นสายเทาก็ได้นะครับ หากเราใช้ดึงข้อมูลสำหรับ personal use คิดว่าไม่น่าจะมีปัญหาอะไร ทางที่ดีควรจะได้รับอนุญาตจากทางเจ้าของเว็บไซต์นั้นๆจะดีที่สุดครับ :)

Getting Started

ก่อนอื่นเลย สิ่งที่ต้องเตรียมตัวสำหรับโปรเจ็คนี้มีอะไรบ้าง

อ่านเพิ่มเติม

Step 1 : Create project

เริ่มต้นสร้างโปรเจ็คกันเลยครับด้วย npm init หรือใช้ไฟล์ package.json ตามข้างล่างนี้

1
{
2
"name": "nodejs-google-play-information",
3
"version": "1.0.0",
4
"scripts": {
5
"start": "node index.js",
6
"dev": "nodemon index.js"
7
},
8
"engines": {
9
"node": "^4.2.0"
10
},
11
"dependencies": {
12
"cheerio": "^0.20.0",
13
"hapi": "^13.0.0",
14
"request": "^2.69.0"
15
}
16
}

จัดการลง dependencies ให้เรียบร้อย

Terminal window
npm install

โดยเป้าหมายของเราคือดึงข้อมูลรายละเอียดของ App บน Google Play โดยใช้ชื่อของ applicationId หรือก็คือชื่อ Package Name เวลาทำ App Android ซึ่งมันจะเป็นชื่อที่ไม่ซ้ำกัน ทำให้เราสามารถใช้ชื่อนี้ในการเข้าดูรายละเอียดแอพแต่ละหน้าได้ เช่น

สิ่งที่เราจะทำคือ ทำ route สำหรับรับค่า appId เหล่านี้ คือ

  • GET /{appId}

Step 2 : Create Server with Hapi.js

จากนั้นสร้างไฟล์ index.js ขึ้นมาและสร้าง Server ขึ้นมาง่ายๆ ด้วย Hapi.js ดังนี้ (รายละเอียดของ Hapi.js จะไม่ขอพูดถึงมากนัก แนะนำให้อ่านจากเว็บ Hapi.js หรือบทความที่ผมเคยเขียนด้านบนครับ)

1
'use strict'
2
3
const Hapi = require('hapi')
4
const server = new Hapi.Server()
5
6
server.connection({
7
host: 'localhost',
8
port: 8088
9
})
10
11
server.route({
12
method: 'GET',
13
path: '/{appId}',
14
handler: (req, reply) => {
15
reply({ message: 'Hello World' })
16
}
17
})
18
19
server.start((err) => {
20
console.log(`Server running at ${server.info.uri}`)
21
})

จากโค๊ดด้านบน เขียนด้วย ES6 ซึ่งมีใน Node v4.2.4 ที่ผมใช้ในบทความนี้ โดยต้องกำหนด use strict ให้มัน โดยไม่ต้องใช้ Babel ในการ compile เป็น ES5 เลย

ส่วนโค๊ดอื่นๆ ก็เป็นการเริ่มกำหนด route โดย path /appId

ทดสอบสั่งรัน server

1
node index.js

และเมื่อเข้า http://localhost:8088/appId ก็จะได้ข้อความ

1
{
2
"message": "Hello World"
3
}

ซึ่งตอนนี้ appId จะเป็นอะไรก็ได้ มันก็จะได้ผลลัพธ์เหมือนกันหมด สิ่งที่เราต้องทำต่อคือรับค่า appId มาจากนั้นก็ใช้ request module เพื่อเปิดหน้าเว็บของ Google Play ด้วย appId

ก็เลยเพิ่มโค๊ดด้านล่างเพิ่มเติม

1
const URL = 'https://play.google.com/store/apps/details?id='
2
3
server.route({
4
method: 'GET',
5
path: '/{appId}',
6
handler: (req, reply) => {
7
let appId = req.params.appId
8
let lang = req.query.lang || 'en'
9
let url = `${URL}${appId}&hl=${lang}`
10
11
reply({
12
url: url
13
})
14
}
15
})

Step 3 : Use Request

ต่อมา module ที่จะทำให้เราสามารถ call HTTP request ได้ก็คือ request นั่นเอง ซึ่งการใช้งาน Request แบบคร่าวๆ โดยมี syntax ดังนี้

  • request(URL, callback) : URL คือ url ที่เราต้องการ call ส่วน callback เป็น callback function ซึ่งมี (err, response, body) 3 ตัว
    • err : หากการ call HTTP มี error เกิดขึ้น
    • response : เป็นค่า response ที่ตอบกลับมาจาก server มีพวก header, statusCode
    • body : เป็นข้อมูล body ที่ server ส่งกลับมา เหมือนหน้า HTML ทั่วไปเวลาเราเปิดเว็บไซต์

ตัวอย่าง

1
const request = require('request');
2
3
request('https://devahoy.com', (err, response, body) {
4
5
if (!err && response.statusCode === 200) {
6
console.log('body : ' + body);
7
}
8
});

Step 4 : Cheerio

ต่อมา สิ่งที่เราจะทำ เมื่อเวลาที่เรา ได้ค่า body จากการ call HTTP ก็คือ เราจะใช้ cheerio เพื่อหา DOM element ในหน้า HTML นั้นๆ โดยมี syntax คร่าวๆ คล้ายๆ jQuery ทำให้ศึกษาเพิ่มเติมไม่ยาก ตัวอย่างเช่น

มี html ดังนี

1
<ul id="fruits">
2
<li class="apple">Apple</li>
3
<li class="orange">Orange</li>
4
<li class="pear">Pear</li>
5
</ul>

การใช้ Cheerio และการ Selector

1
const cheerio = require('cheerio')
2
3
let $ = cheerio.load(html)
4
5
$('.apple', '#fruits').text()
6
//=> Apple
7
8
$('ul .pear').attr('class')
9
//=> pear
10
11
$('li[class=orange]').html()
12
//=> Orange

ลองนำมาประยุกต์ใช้กับโปรเจ็คที่กำลังทำอยู่ร่วมกับ request ก็จะได้โค๊ดตรงส่วนของ server.route() ดังนี้

1
const URL = 'https://play.google.com/store/apps/details?id='
2
3
server.route({
4
method: 'GET',
5
path: '/{appId}',
6
handler: (req, reply) => {
7
let appId = req.params.appId
8
let lang = req.query.lang || 'en'
9
let url = `${URL}${appId}&hl=${lang}`
10
11
request(url, (err, response, body) => {
12
if (!err && response.statusCode === 200) {
13
let $ = cheerio.load(body)
14
15
reply({})
16
} else {
17
reply({
18
message: `We're sorry, the requested ${url} was not found on this server.`
19
})
20
}
21
})
22
}
23
})

Step 5 : Cheerio Selector

ต่อมา เราลองมาดูหน้าตัวอย่างที่เราต้องการดึงข้อมูลมา โดยเข้าเว็บ Facebook on Google Play

ขั้นตอนนี้เราจะใช้ Chrome Developer Tools เข้ามาช่วย ทำได้โดยการเลือก More Tools => Developer Tool Cheerio

สิ่งแรกที่เราต้องการคือ Title ของแอพ ด้านบน จะเห็นว่าเราต้องการ .document-title selector จะเป็น $('.document-title').text()

Cheerio

ต่อมาด้านบน เราจะดึงข้อมูล Publisher และ Category แต่จะแตกต่างกับ Title คือมันจะแยกเป็น 2 กรณีคือ

  • class document-subtitle primary และ class document-subtitle cagetory
  • selector ของ cheerio จะเป็น $('.document-subtitle.primary').text() และ $('.document-subtitle.category').text()

Cheerio

สิ่งที่เราต้องการต่อมาคือ ข้อมูลส่วน Additional Information หากลองดู DOM Element เราจะเห็นว่าส่วนที่เราต้องการคือ meta-info > .content แต่ว่า meta-info มีหลาย element ทำให้เราจะได้ข้อมูลเป็น list กลับมา สิ่งที่ต้องการ ผมแค่ต้องการ version และ จำนวนครั้งในการ Install ซึ่งมันอยู่ในตำแหน่งที่ 2 และ 3 เพราะฉะนั้น cheerio selector จะได้เป็น

  • $('.meta-info > .content').eq(2).text() และ $('.meta-info > .content').eq(3).text()

สุดท้ายเมื่อได้ข้อมูลที่เราต้องการแล้ว ก็แค่สั่ง reply() ด้วยข้อมูลที่เราได้มา

โค๊ด index.js สุดท้ายเป็นดังนี้

1
'use strict'
2
3
const Hapi = require('hapi')
4
const request = require('request')
5
const cheerio = require('cheerio')
6
7
const URL = 'https://play.google.com/store/apps/details?id='
8
9
const server = new Hapi.Server()
10
11
server.connection({
12
host: 'localhost',
13
port: 8088
14
})
15
16
server.route({
17
method: 'GET',
18
path: '/{appId}',
19
handler: (req, reply) => {
20
let appId = req.params.appId
21
let lang = req.query.lang || 'en'
22
let url = `${URL}${appId}&hl=${lang}`
23
24
request(url, (err, response, body) => {
25
if (!err && response.statusCode === 200) {
26
let $ = cheerio.load(body)
27
28
let title = $('.document-title').text().trim()
29
let publisher = $('.document-subtitle.primary').text().trim()
30
let category = $('.document-subtitle.category').text().trim()
31
let score = $('.score-container > .score').text().trim()
32
let install = $('.meta-info > .content').eq(2).text().trim()
33
let version = $('.meta-info > .content').eq(3).text().trim()
34
35
reply({
36
data: {
37
title: title,
38
publisher: publisher,
39
category: category,
40
score: score,
41
install: install,
42
version: version
43
}
44
})
45
} else {
46
reply({
47
message: `We're sorry, the requested ${url} was not found on this server.`
48
})
49
}
50
})
51
}
52
})
53
54
server.start((err) => {
55
console.log(`Server running at ${server.info.uri}`)
56
})

ทดสอบรันเว็บของเรา node index.js และลองเข้าหน้าเว็บ โดยใส่ appId เช่น http://localhost:8088/app.akexorcist.mobileinternetsetting ก็จะได้ข้อมูลประมาณนี้

1
{
2
"data": {
3
"title": "Mobile Internet Setting [TH]",
4
"publisher": "Akexorcist",
5
"category": "Communication",
6
"score": "4.4",
7
"install": "50,000 - 100,000",
8
"version": "1.5.1"
9
}
10
}

ซึ่งเมื่อได้ข้อมูลมาแล้ว ก็จะเอาไปทำอะไรก็แล้วแต่ ขั้นตอนต่อไปก็ไม่ยากแล้ว :)

สรุป

บทความนี้เป็นแค่ตัวอย่างง่ายๆในการใช้ Cheerio ในการดึงข้อมูลเว็บไซต์เท่านั้น ไม่ได้ลงรายละเอียดเชิงลึก ซึ่ง Cheerio มันสามารถทำอะไรได้อีกเยอะ ซึ่งหวังว่าจะเป็นแค่ตัวอย่างให้ผู้สนใจได้นำไปศึกษาเพิ่มเติมดูครับ

ส่วนใครสนใจ Source Code ก็ดูได้จาก Github เลยครับ

Authors
avatar

Chai Phonbopit

เป็น Web Dev ในบริษัทแห่งหนึ่ง ทำงานมา 10 ปีกว่าๆ ด้วยภาษาและเทคโนโลยี เช่น JavaScript, Node.js, React, Vue และปัจจุบันกำลังสนใจในเรื่องของ Blockchain และ Crypto กำลังหัดเรียนภาษา Rust

Related Posts