0
雷鋒網(wǎng) AI 源創(chuàng)評(píng)論:目前,隨著新型冠狀病毒(COVID-19)在全球范圍內(nèi)蔓延,海外地區(qū)現(xiàn)有確診已經(jīng)上升至 293683(數(shù)據(jù)更新至 2020.03.25 16:54)。為了更好保證自身健康,我們必須了解正在影響?活所在地區(qū)的實(shí)際統(tǒng)計(jì)數(shù)據(jù)。
如何利用現(xiàn)有工具來(lái)實(shí)時(shí)追蹤病情分布?近日,一個(gè)有趣的開(kāi)源項(xiàng)目正好解決了這一問(wèn)題。只需一臺(tái)電腦,誰(shuí)都可按照步驟利用 Python 獲得專(zhuān)屬個(gè)人的疫情信息。作者發(fā)布了文章介紹該操作過(guò)程,雷鋒網(wǎng) AI 源創(chuàng)評(píng)論將其編譯如下。
圖片來(lái)源:Sebastian Herrmann on Unsplash
我們將使? Web 爬蟲(chóng)的?法,以及 Selenium(Web 爬蟲(chóng)的一個(gè)庫(kù))和 Python?具來(lái)完成這一計(jì)劃。
首先,我們需要找到從中獲取數(shù)據(jù)的網(wǎng)站,在本次教程中,使?到的是 Worldometers(https://www.worldometers.info/ ),因?yàn)樽髡哂X(jué)得這上面的數(shù)據(jù)?常準(zhǔn)確,并且?站看起來(lái)不錯(cuò)。
下面開(kāi)始進(jìn)入計(jì)劃:
在 Worldometers 上的表格中,顯示了每個(gè)受影響國(guó)家/地區(qū)的相關(guān)數(shù)據(jù),包括:累計(jì)確診病例、新增病例、累計(jì)死亡人數(shù)、累計(jì)治愈人數(shù),以及病危程度的人數(shù)統(tǒng)計(jì)等。
我們要做的,就是將以上的各個(gè)詳細(xì)數(shù)據(jù),通過(guò)一系列方法的轉(zhuǎn)化,使其能夠自動(dòng)發(fā)到我們的電子郵箱中。當(dāng)然,選擇其它包含這些數(shù)據(jù)的網(wǎng)站,也不是不可以。
首先,我們需要安裝 ChromeDriver,并進(jìn)行環(huán)境搭建。
ChromeDriver 將幫助我們能夠控制瀏覽器并向其發(fā)送命令,從而進(jìn)?測(cè)試和之后的其它操作,可以通過(guò)鏈接( https://chromedriver.chromium.org/ )下載與你電腦系統(tǒng)相匹配的安裝包。
Ps:如果你不是很熟悉 ChromeDriver,建議盡可能使用最新穩(wěn)定版本。
下載之后,接下來(lái)將需要解壓所下載的文件,建議右鍵單擊「文件」,然后選擇「Extract Here」,手動(dòng)進(jìn)行解壓操作。
之后你會(huì)發(fā)現(xiàn)在該?件夾內(nèi),有?個(gè)名為「chromedriver」的?件,我們需要按照下面的步驟將其移?計(jì)算機(jī)上的特定?件夾。
第一步,打開(kāi)終端并輸?以下命令:
sudo su#進(jìn)?root 模式 cd
#從當(dāng)前位置返回到基礎(chǔ) mv / home / *your_pc_name * / Downloads / chromedriver / usr / local / bin
#將?件移動(dòng)到正確的位置
注意:其中的「*your_pc_name *」部分,需要替換為所用計(jì)算機(jī)的實(shí)際名稱(chēng)。
第二步,打開(kāi)編輯器,作者選擇的是 Visual Studio Code(https://code.visualstudio.com/ )。
第三步,新建一個(gè)項(xiàng)?,并創(chuàng)建兩個(gè)新?件??蓞⒖枷旅孀髡叩脑O(shè)置:
Visual Studio Code—項(xiàng)目設(shè)置
并且可以發(fā)現(xiàn),在 VS Code 中有?個(gè)「Terminal」選項(xiàng),可以?它在 VS Code 中打開(kāi)內(nèi)部終端。
第四步,安裝虛擬環(huán)境和?于 Web 爬蟲(chóng)驅(qū)動(dòng)程序的 selenium 工具,并在終端中鍵?下面這些命令:
pip3 install virtualenv
source venv / bin / activate
pip3 install selenium
最后激活虛擬環(huán)境,我們的準(zhǔn)備工作就完成了。
現(xiàn)在,我們完成對(duì)環(huán)境的搭建以及掌握所需信息獲取地址后,就要開(kāi)始做「編碼實(shí)現(xiàn)」部分了。
我們將為其創(chuàng)建為?個(gè)類(lèi)以及函數(shù),使?任何名稱(chēng)創(chuàng)建即可,然后啟動(dòng) Chrome 驅(qū)動(dòng)程序:
class Coronaviru():
def __init __(self):
self.driver = webdriver.Chrome()
然后,轉(zhuǎn)到 VS Code 內(nèi)部終端并輸?下面的代碼,此命令使我們可以將?件作為交互式場(chǎng)所:
python -i coronavirus.py
之后,將瀏覽器的新標(biāo)簽頁(yè)打開(kāi),我們開(kāi)始向其發(fā)出命令。(如果想進(jìn)?實(shí)驗(yàn),可以使?命令?代替在源?件中鍵?命令?)
對(duì)于終端,命令為:
bot = Coronavirus()
bot.driver.get('https://www.worldometers.info/coronavirus/')
現(xiàn)在,使其獲取源代碼:
self.driver.get('https://www.worldometers.info/coronavirus/')
當(dāng)我們進(jìn)??站時(shí),我們需要提取所選網(wǎng)頁(yè)中的表格。因此,我們將以這種?式進(jìn)?操作,將表格作為 Web 元素并將其保存在「表」下。
為了在?頁(yè)上找到該元素,我們使? find_element_by_xpath()并使?其定義的 ID 對(duì)其進(jìn)?過(guò)濾。
table = self.driver.find_element_by_xpath('//*
[@id="main_table_countries"]/tbody[1]')
在該表中,通過(guò)對(duì)應(yīng)的名稱(chēng),確保要找到我們最初需要獲取國(guó)家或地區(qū)。
country_element = table.find_element_by_xpath(「// td
[contains(text(),'China')]」))
再次使?XPath,我們嘗試使用「China」的數(shù)據(jù)。由于我們需要「China」旁邊的數(shù)據(jù),因此我們必須確保它屬于該?,這就是為什么要從 country_element 中獲取父節(jié)點(diǎn):
row = country_element.find_element_by_xpath("./..")
在該?內(nèi),我們獲取了所需的所有數(shù)據(jù),我們將該字符串拆分為每?列,并將其保存為變量:
data = row.text.split(" ")
total_cases = data[1]
new_cases = data[2]
total_deaths = data[3]
new_deaths = data[4]
active_cases = data[5]
total_recovered = data[6]
serious_critical = data[7]
其中,「data」是?個(gè)來(lái)?字符串拆分的列表,然后我們將其分散到不同的變量中以備后?。
在完成編碼部分之后,我們就要進(jìn)入電子郵件發(fā)送部分了。
首先,需要設(shè)置電?郵件發(fā)送服務(wù)器。作者用到了 Google 帳戶(hù)服務(wù),然后進(jìn)?「應(yīng)?程序密碼」,在那??成?個(gè)新密碼并在所寫(xiě)腳本程序中使?它。
然后,我們將通過(guò)以下代碼,為我們將收到的電?郵件制作模板:
def send_mail(country_element, total_cases, new_cases, total_deaths, new_deaths, active_cases, total_recovered, serious_critical):
server = smtplib.SMTP('smtp.gmail.com', 587)
server.ehlo()
server.starttls()
server.ehlo()
server.login('email', 'password')
subject = 'Coronavirus stats in your country today!'
body = 'Today in ' + country_element + '\
\nTotal cases: ' + total_cases +'\
\nNew cases: ' + new_cases + '\
\nTotal deaths: ' + total_deaths + '\
\nNew deaths: ' + new_deaths + '\
\nActive cases: ' + active_cases + '\
\nTotal recovered: ' + total_recovered + '\
\nSerious, critical cases: ' + serious_critical + '\
\nCheck the link: https://www.worldometers.info/coronavirus/'
msg = f"Subject: {subject}\n\n{body}"
server.sendmail(
'Coronavirus',
'email',
msg
)
print('Hey Email has been sent!')
server.quit()
這樣,就能夠?qū)崿F(xiàn)單次的最新疫情信息獲取了。如果你希望每天重復(fù)執(zhí)?此腳本,可以通過(guò)下面鏈接中的編碼實(shí)現(xiàn):
最后,我們就得到了自制的郵件訂閱啦(如下所示)。
電子郵件形式成功
當(dāng)然,除了可以將我們所在地區(qū)的新冠病毒最新情況發(fā)到個(gè)人郵箱外,通過(guò)這樣的方法,舉一反三,你想訂閱的其它資訊也可以自定義發(fā)送,而且還沒(méi)有任何廣告。
而在此,也再次提醒所有朋友,在目前疫情持續(xù)情況下,一定要勤洗手、戴口罩;同時(shí),盡可能避免與他?進(jìn)?過(guò)多的?體接觸。
原文地址:
https://towardsdatascience.com/how-to-track-coronavirus-with-python-a5320b778c8e
完整開(kāi)源代碼 Github 地址:
https://github.com/lazargugleta/coronavirusStats/blob/master/coronavirus.py
雷鋒網(wǎng) AI 源創(chuàng)評(píng)論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。