丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給高云河
發(fā)送

0

想快速部署機器學(xué)習(xí)項目?來看看幾大主流機器學(xué)習(xí)服務(wù)平臺對比吧

本文作者: 高云河 編輯:汪思穎 2018-03-08 10:23
導(dǎo)語:谷歌、微軟和亞馬遜,哪個是你的菜?

想快速部署機器學(xué)習(xí)項目?來看看幾大主流機器學(xué)習(xí)服務(wù)平臺對比吧

雷鋒網(wǎng) AI 研習(xí)社按,日前,kdnuggets 上的一篇文章對比了三大公司(谷歌、微軟和亞馬遜)提供的機器學(xué)習(xí)服務(wù)平臺,對于想要啟動機器學(xué)習(xí)項目的公司或是數(shù)據(jù)科學(xué)新手來說,提供了非常多的指導(dǎo)和建議。雷鋒網(wǎng) AI 研習(xí)社將原文編譯整理如下:

對于大多數(shù)企業(yè)來說,機器學(xué)習(xí)就像航空航天一樣遙遠,聽起來既昂貴,還需要高科技人才。從某種角度來說,如果你想建立一個像 Netflix 一樣好的推薦系統(tǒng),那確實是昂貴且困難。但是,目前這個復(fù)雜的領(lǐng)域有一個趨勢:一切皆服務(wù)(everything-as-a-service)——無需太多投資,即可快速啟動機器學(xué)習(xí)計劃。如果你是數(shù)據(jù)科學(xué)的新手,想要抓住當(dāng)下的機會,這將是一種正確的選擇。

機器學(xué)習(xí)里最令人鼓舞的故事之一就是,一個日本農(nóng)民,為了減輕他父母的工作負擔(dān),決定設(shè)計一個自動分揀黃瓜的系統(tǒng)。不像其他的大型公司,這個人并沒有機器學(xué)習(xí)的專業(yè)知識,也沒有很多預(yù)算,但是他努力學(xué)會了 TensorFlow,并使用深度學(xué)習(xí)來識別不同種類的黃瓜。

通過使用機器學(xué)習(xí)云服務(wù),你可以開始構(gòu)建第一個工作的模型,只要一小個團隊,就可以從機器學(xué)習(xí)的預(yù)測中獲得有價值的信息。許多人已經(jīng)討論過不同的機器學(xué)習(xí)的策略?,F(xiàn)在讓我們來看看市場上最好的機器學(xué)習(xí)平臺都有哪些服務(wù)。

什么是機器學(xué)習(xí)服務(wù)

機器學(xué)習(xí)服務(wù)(Machine learning as a service, MLaaS)包含機器學(xué)習(xí)大多數(shù)基礎(chǔ)問題(比如數(shù)據(jù)預(yù)處理,模型訓(xùn)練,模型評估,以及預(yù)測)的全自動或者半自動云平臺的總體定義。預(yù)測結(jié)果可以通過 REST API 與內(nèi)部的 IT 基礎(chǔ)架構(gòu)橋接。

Amazon 機器學(xué)習(xí)服務(wù),Azure 機器學(xué)習(xí)和 Google Cloud AI 是最領(lǐng)先的三個云 MLaaS 服務(wù),允許在很少甚至沒有數(shù)據(jù)科學(xué)專業(yè)知識的情況下進行快速模型訓(xùn)練和部署。如果你還沒有數(shù)據(jù)科學(xué)團隊,可以參看我們的另一篇文章,看看團隊都需要擁有哪些技能的人才。

在本文中,我們將首先概述 Amazon,Google 和 Microsoft 的主要機器學(xué)習(xí)服務(wù)平臺,并比較這些供應(yīng)商所支持的機器學(xué)習(xí) API。這并不是如何使用這些平臺的說明,而是在開始閱讀平臺的文檔之前所需要做的功能調(diào)研。

針對定制化的預(yù)測分析任務(wù)的機器學(xué)習(xí)服務(wù)

想快速部署機器學(xué)習(xí)項目?來看看幾大主流機器學(xué)習(xí)服務(wù)平臺對比吧

使用 Amazon ML 進行預(yù)測分析

亞馬遜的機器學(xué)習(xí)服務(wù)有兩個層面:用于預(yù)測分析的 Amazon ML 和針對數(shù)據(jù)科學(xué)家設(shè)計的 SageMaker。

Amazon Machine Learning 是市場上最自動化的解決方案之一,最適合對處理效率敏感的操作。該服務(wù)可以加載來自多個來源的數(shù)據(jù),包括 Amazon RDS,Amazon Redshift,CSV 文件等。所有數(shù)據(jù)的預(yù)處理操作都是自動執(zhí)行的:包括確認哪些字段是分類標(biāo)簽,哪些是數(shù)字,而且不需要用戶選擇進一步的數(shù)據(jù)預(yù)處理方法(降維還是白化)。

Amazon ML 的預(yù)測能力限于三種:二分類,多分類,以及回歸任務(wù)。也就是說,Amazon ML 服務(wù)不支持無監(jiān)督的學(xué)習(xí)方法,用戶必須在訓(xùn)練集中選擇標(biāo)記好的目標(biāo)變量。而且,用戶不需要知道任何機器學(xué)習(xí)方法,Amazon 會在分析提供的數(shù)據(jù)之后自動選擇機器學(xué)習(xí)方法。

這種高自動化的水平既是 Amazon ML 的優(yōu)勢,也是劣勢。如果您需要一個完全自動化,但是功能有限的解決方案,那么這個服務(wù)非常適合你。但是如果不是這樣的話,你可以選擇 SageMaker。

Amazon SageMaker 以及基于框架的服務(wù)

SageMaker 是一個機器學(xué)習(xí)環(huán)境,通過提供快速建模和部署工具來簡化數(shù)據(jù)科學(xué)家的工作。例如,它提供 Jupyter 來簡化數(shù)據(jù)瀏覽和分析。Amazon 也提供了內(nèi)置的算法,針對分布式系統(tǒng)中的大型數(shù)據(jù)集和計算進行了優(yōu)化。這些算法包括:

  • 線性學(xué)習(xí)器,一種用于分類和回歸的監(jiān)督方法。

  • 用于稀疏數(shù)據(jù)集的分類和回歸的分解機(Factorization Machine)。

  • XGBoost 是一個有監(jiān)督的提升樹算法,通過結(jié)合簡單算法的預(yù)測來提高分類,回歸以及排序的預(yù)測精度。

  • 基于 ResNet 的圖像分類,也可以應(yīng)用于遷移學(xué)習(xí)。

  • Seq2seq 是用于預(yù)測序列的監(jiān)督算法,可用于翻譯句子,將句子總結(jié)為更短的詞匯等。

  • K-means 是一種用于聚類任務(wù)的無監(jiān)督學(xué)習(xí)方法。

  • 主成分分析(PCA),可以用于數(shù)據(jù)降維。

  • 隱含狄利克雷分布(Latent Dirichlet allocation)是用于文檔歸類的無監(jiān)督方法。

  • 神經(jīng)主題模型(Neural topic model, NTM)是一種無監(jiān)督方法,它可以遍歷文檔,找出高頻詞匯,并根據(jù)內(nèi)容定義文檔的主題(用戶不能預(yù)先定義主題的名稱,但是可以設(shè)置話題的數(shù)量)。

SageMaker 中內(nèi)置的方法與 Amazon 推薦的 ML API 在很大程度上有交集,但在這里它允許數(shù)據(jù)科學(xué)家定制使用,并使用自己的數(shù)據(jù)集。

如果你不想使用這些功能,你也可以添加自己的方法,并通過 SageMaker 利用它的部署功能運行模型?;蛘咭部梢詫?SageMaker 與 TensorFlow 或 MXNet 等深度學(xué)習(xí)庫集成在一起。

一般來說,亞馬遜的機器學(xué)習(xí)服務(wù)為經(jīng)驗豐富的數(shù)據(jù)科學(xué)家和只需要完成工作而不需深入準(zhǔn)備數(shù)據(jù)集和建模的人都提供了足夠的自由。對于那些已經(jīng)使用亞馬遜環(huán)境并且不打算轉(zhuǎn)移到其他云供應(yīng)商的公司來說,這是一個可靠的選擇。

Microsoft Azure 機器學(xué)習(xí)工作室(Machine Learning Studio)

Azure Machine Learning 意在為新手和經(jīng)驗豐富的數(shù)據(jù)科學(xué)家建立一個強大的工作空間。微軟的機器學(xué)習(xí)產(chǎn)品功能與亞馬遜的類似,但就目前而言,Azure 的現(xiàn)成算法更加靈活。

Azure 提供的服務(wù)可以分為兩大類:Azure Machine Learning Studio 和 Bot 服務(wù)。讓我們首先了解一下 Azure ML Studio,在之后介紹特定 API 和工具的部分時,回到 Bot 服務(wù)。

ML Studio 是微軟 MLaaS 的主要部分,幾乎所有的 Azure ML Studio 中的操作都必須手動完成:包括瀏覽數(shù)據(jù),預(yù)處理,選擇方法,以及驗證模型結(jié)果。

使用 Azure 進行機器學(xué)習(xí)的學(xué)習(xí)曲線可能比較陡,但是這也能使得用戶對該領(lǐng)域的主要技術(shù)有更深入的了解。另一方面,Azure ML 支持圖形界面,可以可視化工作流程中的每一個步驟。使用 Azure 的主要好處是可以使用各種算法。ML Studio 支持大約 100 種解決分類(包括二分類和多分類),異常檢測,回歸,推薦和文本分析方法。值得一提的是,該平臺也支持一種聚類算法(K-means)。

Azure ML 的另一大部分是 Cortana Intelligence Gallery。它是由社區(qū)提供的機器學(xué)習(xí)解決方案的集合,供數(shù)據(jù)科學(xué)家開發(fā)和利用。Azure 對于從事機器學(xué)習(xí)的人來說是一個強大的工具。

Google 預(yù)測 API

Google 在兩個層面上提供 AI 服務(wù):針對高級數(shù)據(jù)科學(xué)家的機器學(xué)習(xí)引擎,和高度自動化的 Google 預(yù)測 API。不過,谷歌將在2018 年 4 月 30 日停用預(yù)測 API 服務(wù)。

即將停用的預(yù)測 API 類似于 Amazon ML,只有兩個很精簡的方法,主要用于解決兩個問題:分類(二類和多類)和回歸。訓(xùn)練好的模型可以通過 REST API 接口進行部署。

Google 并沒有公開預(yù)測中使用了哪些算法,也不能讓工程師自定義模型。Google 的環(huán)境最適合在緊迫的期限內(nèi)進行機器學(xué)習(xí),并推出初始版本的 ML 模型。然而這個產(chǎn)品并沒有像谷歌所期望的那么受歡迎。

那么接替 Google 預(yù)測 API 的是什么呢?

Google 云端機器學(xué)習(xí)引擎

預(yù)測 API 的高度自動化是以犧牲靈活性為代價的。Google ML Engine 正好相反。它適用于經(jīng)驗豐富的數(shù)據(jù)科學(xué)家,非常的靈活,建議大家使用 TensorFlow 的云基礎(chǔ)設(shè)施作為機器學(xué)習(xí)的驅(qū)動。Google ML Engine 大體上與 SageMaker 相似。

TensorFlow 是 Google 的另一個產(chǎn)品,它是一個開源機器學(xué)習(xí)庫,包含各種數(shù)據(jù)科學(xué)工具,它并不是 ML-as-a-service。它沒有可視化界面,TensorFlow 的學(xué)習(xí)曲線非常陡峭。但是,這個庫也面向想要轉(zhuǎn)向數(shù)據(jù)科學(xué)的軟件工程師。TensorFlow 非常強大,主要針對深度神經(jīng)網(wǎng)絡(luò)的任務(wù)。

基本上,TensorFlow 和 Google 云服務(wù)結(jié)合,構(gòu)成了三層服務(wù)模型,包括了基礎(chǔ)架構(gòu)服務(wù)和平臺服務(wù)解決方案。

用一句話來總結(jié)機器學(xué)習(xí)服務(wù)平臺:Azure 是目前 MLaaS 市場上擁有功能最多的工具集,它涵蓋了大多數(shù)與 ML 相關(guān)的任務(wù),為構(gòu)建自定義模型提供了一個可視化的界面,并且為那些不想深入了解數(shù)據(jù)科學(xué)的人提供了一套可靠的 API。但是相較于亞馬遜,它仍然缺乏自動化的能力。

Amazon,Microsoft,Google 機器學(xué)習(xí) API 的比較

除了成熟的平臺之外,還可以使用高級的 API。這些都是使用訓(xùn)練好的模型的服務(wù),只需要將數(shù)據(jù)輸入,就可以得到結(jié)果。API 不需要機器學(xué)習(xí)的專業(yè)知識。目前,這三家廠商的 API 大致可以分為三類:

  1.  文本識別,翻譯和文本分析

  2.  圖像+視頻識別和相關(guān)分析

  3.  其他,包括某些未分類服務(wù)

想快速部署機器學(xué)習(xí)項目?來看看幾大主流機器學(xué)習(xí)服務(wù)平臺對比吧

語音和文本處理 API:Amazon

Amazon 提供了多個針對文本分析中常見任務(wù)的 API。這些 API 是高度自動化的,只需適當(dāng)?shù)恼暇涂梢怨ぷ鳌?/p>

Amazon Lex

Lex API 是為了能將聊天機器人嵌入到應(yīng)用中而設(shè)計的,它包含了自動語音識別(ASR)和自然語言處理(NLP)的能力。這些都基于深度學(xué)習(xí)模型。API 可以識別書面文本和語音,Lex 接口允許將識別出的結(jié)果連接到各種后端解決方案。很顯然,亞馬遜鼓勵使用自家的 Lambda 云環(huán)境。所以在訂閱 Lex 服務(wù)之前,最好熟悉一下 Lambda 云環(huán)境。除了獨立的應(yīng)用程序之外,Lex 目前也支持在 Facebook Messenger,slack 和 Twilio 部署聊天機器人。

Amazon Transcribe

Lex 是一個復(fù)雜的以聊天機器人為導(dǎo)向的工具,而 Transcribe 僅應(yīng)用于語音識別。該工具可以識別多個說話人,同時也能很好的識別低質(zhì)量的音頻,比如電話音頻。這些功能使得這個 API 成為音頻歸檔分類的一個很好的解決方案, 也可以進一步為電話呼叫中心的數(shù)據(jù)文本分析提供支持。

Amazon Polly

Polly 服務(wù)與 Lex 相反,它是將文本轉(zhuǎn)換為語音, 這能夠使聊天機器人通過語音的方式回復(fù),這個 API 并不會生成文本,只是讓文本的發(fā)音更接近與人類。如果你曾經(jīng)使用過 Alexa,你就會知道這種聲音是什么樣的。目前,它支持 25 種語言的男性和女性的聲音,主要是英語和西歐語言。一些語言有多種男性和女性的聲音,所以甚至可以有多種選擇。與 Lex 一樣,建議將 Polly 與 Lambda 一起使用。

Amazon Comprehend

Comprehend 是另一個 NLP API 集。與 Lex 和 Transcribe 不同,它針對不同的文本分析任務(wù)而設(shè)計。目前,Comprehend 支持:

  • 實體提取(識別名字,日期,組織等等)

  • 關(guān)鍵短語檢測

  • 語音識別

  • 情感分析(文本是積極,中立,還是消極)

  • 主題建模(通過分析關(guān)鍵字定義文本主題)

該服務(wù)可以幫助分析社交媒體的回復(fù),評論,以及不適合手動分析的其他大型文本數(shù)據(jù),比如 Comprehend 和 Transcribe 的組合將有助于分析客服的電話服務(wù)。

Amazon Translate

就像名稱所表達的一樣,Translate 服務(wù)是用來翻譯文本的。Amazon 聲稱,該服務(wù)使用的神經(jīng)網(wǎng)絡(luò),與基于規(guī)則的翻譯方法相比,能夠提供更高的翻譯質(zhì)量。然而,目前版本只支持阿拉伯文、中文、法文、德文、葡萄牙文和西班牙文這六種語言與英文的互譯。

語音和文本處理 API:Microsoft Azure Congnitive Services

與亞馬遜一樣,微軟也提供高級API:Congnitive Services,可以與你的基礎(chǔ)平臺集成到一起來完成任務(wù),并不需要任何數(shù)據(jù)科學(xué)的專業(yè)知識。

Speech

Speech 集包含四個 API,針對自然語言識別和一些其他任務(wù)使用了不同類型的自然語言處理(NLP)技術(shù):

  • 語音翻譯 API

  • Bing Speech API:文本和語音之間的互相轉(zhuǎn)換

  • 說話人識別:可用于語音驗證任務(wù)

  • 定制化的語音服務(wù),可使用 Azure 的自然語言處理方法處理自己的數(shù)據(jù)和模型

Language

微軟的 Language API 與 Amazon Comprehend 類似,側(cè)重于文本分析:

  • Language Understanding Intelligent Service 是一個分析文本意圖,并將之轉(zhuǎn)換為命令的 API(例如「運行 YouTube」,或者「打開客廳燈」等)

  • 用于情感分析和定義主題的文本分析 API

  • Bing 拼寫檢查

  • 文本翻譯 API

  • Web 語言模型 API,用于估計單詞組合的概率,并實現(xiàn)單詞的自動智能補全

  • 語言分析 API,用于分句,標(biāo)注詞類,并將文本分成標(biāo)記的短語

語音和本文處理 API:Google 云服務(wù)

雖然這套 API 與亞馬遜、微軟 Azure 的 API 相似,但也擁有一些獨特和有趣的東西。

Dialogflow

現(xiàn)今各種聊天機器人已經(jīng)成為趨勢,Google 也提供了一些服務(wù)。Dialogflow 采用了 NLP 技術(shù),旨在發(fā)現(xiàn)文本中表達的意圖,并解釋人想要什么??梢允褂?java,Node.js 和 Python 為 API 調(diào)整和定制功能。

云端自然語言 API

這其中的核心功能幾乎與 Amazon comprehend 和微軟的 Languate 完全相同。

  • 在文本中識別實體

  • 識別情緒

  • 分析語法結(jié)構(gòu)

  • 分類主題(比如食物, 新聞,電子等等)

云端語音 API

這項服務(wù)用于識別自然語音,與其他公司類似的 API 相比,其主要優(yōu)勢在于 Google 支持更豐富的語言。目前,它支持全球 110 多種語言。額外功能如下:

  • Word hints,允許定制識別到特定的上下文或者默寫單詞(例如,可以更好的理解當(dāng)?shù)氐幕蛘咝袠I(yè)內(nèi)的術(shù)語)

  • 過濾不當(dāng)內(nèi)容

  • 處理嘈雜的音頻

云翻譯API

基本上,你可以使用該 API 將 Google 翻譯集成到產(chǎn)品中,包含 100 多種語言的自動檢測和翻譯。

除了文本和語音,Aamzon,Microsoft 和 Google 還提供了用于圖像和視頻分析的常用 API。

想快速部署機器學(xué)習(xí)項目?來看看幾大主流機器學(xué)習(xí)服務(wù)平臺對比吧

盡管圖像分析和視頻 API 密切相關(guān),但是許多視頻分析工具仍處于開發(fā)或測試階段。例如,Google 對許多圖像處理任務(wù)提供了豐富的支持,但是缺乏一些微軟和亞馬遜已經(jīng)支持的視頻分析功能。 

想快速部署機器學(xué)習(xí)項目?來看看幾大主流機器學(xué)習(xí)服務(wù)平臺對比吧

圖像和視頻處理API:Amazon Rekognition

Rekognition 并不沒有拼錯。Rekognition API 用于圖像以及最近的視頻識別任務(wù)。包括:

  • 目標(biāo)檢測和分類(查找和檢測圖象中的不同目標(biāo),并定義他們的類別)

  • 在視頻中,可以檢測「跳舞」等活動或者「撲滅火」這種復(fù)雜的動作

  • 人臉識別(用于檢測人臉,并找到匹配的人臉)和臉部分析(這個分析非常有趣,可以檢測到笑臉,分析眼睛,甚至在視頻中識別出情感情緒)

  • 檢測不當(dāng)視頻

  • 識別圖片和視頻中的名人

圖像和視頻處理 API:Microsoft Azure Congnitive Service

軟件包結(jié)合了六個 API,分別專注于不同類型的圖像,視頻和文本分析。

  • Computer Vision:用于識別目標(biāo)、動作、圖像中主體顏色

  • Content Moderator:在圖像、文字和視頻中檢測不適當(dāng)?shù)膬?nèi)容

  • Face API:用來檢測人臉并分組,識別年齡、情緒、性別、姿勢、笑容和面部毛發(fā)

  • Emotion API:用來識別面部表情的工具

  • Custom Vision Service:支持使用自己的數(shù)據(jù)構(gòu)建自定義的圖像識別模型

  • Video indexer:是一種在視頻中查找任務(wù)的工具,可以定義語音情感并標(biāo)記關(guān)鍵字

圖像和視頻處理 API:Google Cloud Services

Cloud Vision API

該工具為圖像識別任務(wù)而建立,對于查找特定的圖像屬性非常有用:

  • 標(biāo)記對象

  • 檢測人臉并分析表情

  • 尋找標(biāo)志性事件并描述現(xiàn)場(例如假期、婚禮等)

  • 在圖像中查找文本并識別語言

  • 圖像中的主色調(diào)

Cloud Video Intelligence

Google 的視頻識別 API 在開發(fā)初期就缺乏 Amazon Rekognition 和 Microsoft Congnitive Services 提供的許多功能。目前,該 API 提供以下工具集:

  • 標(biāo)記對象并識別動作

  • 識別明確的內(nèi)容

  • 轉(zhuǎn)錄語音 

雖然在功能級別上,Google AI 服務(wù)可能缺乏一些功能,但是 Google API 可以使用 Google 提供的大量數(shù)據(jù)集。

特定的 API 和工具

這一部分,我們將討論微軟和谷歌的特定 API 產(chǎn)品和工具。這里沒有亞馬遜,因為其 API 跟上面提到的文本分析和圖像視頻分析是一樣的。但是,一些其他公司提供的特定 API 的一些功能也集成于 Amazon 的產(chǎn)品中。

Azure  Service Bot 框架

微軟為了給用戶提供更靈活的開發(fā)工具集付出了很多努力。該服務(wù)包含通過不同編程語言構(gòu)建、測試和部署 bot 的完整環(huán)境。

有趣的是,bot 服務(wù)并不一定需要機器學(xué)習(xí)方法。微軟為 bot 工具提供了五種模板(基礎(chǔ)模板、形式模板、語言理解模板、主動模板和問答模板),只有語言理解模板需要高級的人工智能技術(shù)。

目前,你可以使用 .NET 和 Node.js 技術(shù),利用 Azure 構(gòu)建機器人,并將其部署到平臺和服務(wù)上:

  • Bing

  • Cortana

  • Skype

  • Web Chat

  • Office 365 email

  • GroupMe

  • Facebook Messenger

  • Slack

  • Kik

  • Telegram

  • Twilio

Bing 搜索引擎

微軟提供了連接 Bing 核心引擎的七個 API,包括自動推薦、新聞、圖像和視頻搜索。

Kownledge

該 API 將文本分析與各種任務(wù)相結(jié)合:

  • Knowledge Exploration Service 允許您輸入自然語言的查詢以從數(shù)據(jù)庫中檢索數(shù)據(jù),可視化數(shù)據(jù)和自動完成查詢。

  • Entity Linking Intelligence API旨在突出表示適當(dāng)實體的名稱,和短語(例如年齡),并確保消除歧義。

  • Academic Knowledge API可以完成單詞的自動補全,從單詞或者概念的角度,發(fā)現(xiàn)文檔之間的相似性, 并在文檔中搜索圖模式。

  • QnA Maker API可用于各種問題與答案的匹配,以構(gòu)建客戶所關(guān)心的聊天機器人和應(yīng)用程序。

  • Custom Decision Service是一種強化學(xué)習(xí)工具,可根據(jù)用戶的喜好對不同類型的內(nèi)容(如鏈接, 廣告等) 進行個性化和排名。

Google Cloud Job Discovery

該 API 仍處于開發(fā)早期,但可能在不久的將來重新定義我們當(dāng)前的職位搜索能力。與傳統(tǒng)的依賴精確的關(guān)鍵詞匹配的傳統(tǒng)求職引擎不同,Google 采用機器學(xué)習(xí)來找出高度不同的職位描述之間的相關(guān)聯(lián)系,并避免模棱兩可。例如,盡量減少不相關(guān)或者太廣泛的搜索結(jié)果,例如在你搜索「sales assistant」時,并不會返回所有含有「assistant」單詞的職位結(jié)果。這個 API 的主要特點:

  • 修正工作搜索查詢中的拼寫錯誤

  • 匹配所需的資歷水平

  • 查找和區(qū)分可能具有不同表現(xiàn)形式和行業(yè)術(shù)語的相關(guān)工作(例如,查詢「server」(服務(wù)員)會返回「barista」(咖啡師)」,而不是「network specialist(網(wǎng)絡(luò)專家)」; 或者在查詢「biz dev「時,返回「engagement specialist」

  • 處理首字母縮略詞,例如查詢「HR」返回人力資源助理

  • 匹配不同的位置描述

IBM Watson 及其他

之前描述的所有三種平臺都提供了相當(dāng)詳盡的文檔,可以從頭開始啟動機器學(xué)習(xí)項目的實驗,并在企業(yè)基礎(chǔ)架構(gòu)中部署了訓(xùn)練好的模型。還有一些其他的 ML-as-a-service 解決方案來自初創(chuàng)公司,并受到 PredicSis 和 BigML 等數(shù)據(jù)科學(xué)家的推崇。

那么 IBM Watson Analytics 怎么樣?

IBM Watson Analytics 還不是一個用于商業(yè)預(yù)測的完整機器學(xué)習(xí)平臺。目前,Watson 的優(yōu)勢是可視化數(shù)據(jù),以及描述不同數(shù)據(jù)之間的相互作用。它還有類似于 Google 提供的視覺識別服務(wù)和一些其他的認知服務(wù)(API)。Watson 目前的問題是,該系統(tǒng)只能執(zhí)行很少的一些相對簡單的非專業(yè)的任務(wù),涉及到定制機器學(xué)習(xí)方法或者預(yù)測任務(wù)時,IBM Watson 就無能為力了。

數(shù)據(jù)存儲

如果團隊中的數(shù)據(jù)科學(xué)家有足夠的知識來操作流行的存儲解決方案,那么尋找合適的存儲方式來收集數(shù)據(jù),并通過機器學(xué)習(xí)進一步處理數(shù)據(jù)現(xiàn)在已經(jīng)不再是一個很大的挑戰(zhàn)。

在大多數(shù)情況下,機器學(xué)習(xí)需要將 SQL 和 NoSQL 兩種數(shù)據(jù)庫方案相結(jié)合,Hadoop 分布式文件系統(tǒng), Cassandra, Amazon S3 和 Redshift 等許多可靠的解決方案已經(jīng)支持這種存儲方案。因此,當(dāng)開始機器學(xué)習(xí)項目時,數(shù)據(jù)存儲并不是一個難以解決的障礙。如果你打算使用 ML-as-a-service 系統(tǒng),最直接的方法就是,選擇一個能同時提供機器學(xué)習(xí)算法和存儲任務(wù)的供應(yīng)商,這樣能夠減少很多花在配置數(shù)據(jù)庫上的時間。  

但是,有些平臺也可以輕松與其他存儲供應(yīng)商集成。例如,雖然 Azure ML 主要與微軟產(chǎn)品 Azure SQL, Azure Table,Azure Blob 集成,但是它也支持 Hadoop 和一些其他的數(shù)據(jù)源選項。這包括從桌面或者內(nèi)部服務(wù)器直接上傳數(shù)據(jù)。如果你的機器學(xué)習(xí)工作流程很多樣化,并且數(shù)據(jù)來自多個來源,如何集成多個數(shù)據(jù)源可能是一個挑戰(zhàn)。

建模和計算

我們已經(jīng)討論了主要提供計算能力的 ML-as-a-service 解決方案。但是如果模型學(xué)習(xí)的過程需要在公司內(nèi)部執(zhí)行,計算能力的挑戰(zhàn)遲早會出現(xiàn)。機器學(xué)習(xí)在大多數(shù)情況下需要很多計算能力。即使大數(shù)據(jù)時代已經(jīng)來臨,數(shù)據(jù)采樣(收集數(shù)據(jù)集)仍然是一個重要的問題。

雖然使用一個筆記本電腦就可以完成模型的構(gòu)建,但是要用大型數(shù)據(jù)集來訓(xùn)練模型,復(fù)雜模型需要更強大的硬件。數(shù)據(jù)預(yù)處理也是如此,在常規(guī)的辦公機器上可能需要幾天的時間。在截止日期緊張的情況下,(有些模型需要每周或者每天更換,或者需要重新訓(xùn)練),這根本是不可能的。有三種可行的方法來解決這個問題:

  • 加速硬件。如果執(zhí)行相對簡單的任務(wù),并且不使用大數(shù)據(jù)訓(xùn)練模型,請使用固態(tài)硬盤(SSD)執(zhí)行數(shù)據(jù)準(zhǔn)備或分析等任務(wù)??梢允褂靡粋€或多個圖形處理單元(GPU)解決計算密集型操作。許多編程庫支持使用高級語言(例如 Python)控制 GPU 處理模型。

  • 考慮分布式計算。分布式計算意味著有多臺機器分別處理任務(wù)。但是這種方法并不適用于所有的機器學(xué)習(xí)技術(shù)。

  • 使用云計算實現(xiàn)可擴展化。如果你的模型需要處理高峰值客戶相關(guān)數(shù)據(jù),使用云計算可以快速實現(xiàn)可擴展化。對于需要內(nèi)部處理數(shù)據(jù)的公司,私有云的基礎(chǔ)架構(gòu)是值得考慮的。

下一步

在如此多的選擇下,很容易迷失在各種可用的解決方案中。它們在算法上有所不同,所需的技能也不同,所以最終處理任務(wù)的結(jié)果也會不同。

對于這個年輕的市場,這種情況是非常常見的。即使是我們前面談到的三個領(lǐng)先解決方案,也不是完全處于相互競爭狀態(tài)。更重要的是,服務(wù)變化的速度常常出人意料。很可能當(dāng)你堅持使用一個供應(yīng)商的解決方案時,另一個供應(yīng)商突然推出一些符合你業(yè)務(wù)需求的服務(wù)。

正確的做法是盡可能早的想清楚你打算用機器學(xué)習(xí)實現(xiàn)什么。這其實并不容易。如果你缺乏數(shù)據(jù)科學(xué)或者專業(yè)領(lǐng)域指示,那么在數(shù)據(jù)科學(xué)和商業(yè)價值之間的橋接就非常棘手。這通常是將一般化問題簡化為單一屬性的問題。無論是價格預(yù)測還是其他的數(shù)值,確定對象的類別還是將對象分組,一旦找到需要解決的屬性,決定供應(yīng)商并選擇其所提供的服務(wù)就變得簡單起來了。

DCVC 創(chuàng)始合伙人 Bradford Cross 認為,ML-as-a-Services 不是一個可行的商業(yè)模型。根據(jù)他的說法,這個模式定位在了使用開源產(chǎn)品的數(shù)據(jù)科學(xué)家和想要購買全套服務(wù)的商業(yè)高管之間的空白處。然而,目前業(yè)界似乎正在克服該模式長期存在的問題,最終我們會看到更多公司轉(zhuǎn)向使用 ML-as-a-service 這種商業(yè)模式,以避免招聘工資高昂的數(shù)據(jù)科學(xué)家,并仍然能夠使用足夠多功能的數(shù)據(jù)工具。

Via kdnuggets

雷鋒網(wǎng) AI 研習(xí)社編譯整理

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

想快速部署機器學(xué)習(xí)項目?來看看幾大主流機器學(xué)習(xí)服務(wù)平臺對比吧

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說