顯示具有 資料結構/演算法 標籤的文章。 顯示所有文章
顯示具有 資料結構/演算法 標籤的文章。 顯示所有文章

2016年10月31日 星期一

【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意[Google Jiu Shi Zhe Yang Cai Zhong Ni De Xin : Yong Ji Qi Xue Xi...]*電腦資訊類*

Google就是這樣猜中你的心:用機器學習及演算法分析文字語意[Google Jiu Shi Zhe Yang Cai Zhong Ni De Xin : Yong Ji Qi Xue Xi...]~推薦!

作者:祁瑞華
出版社:佳魁資訊
出版日期:2016/10/31
語言:繁體中文

定價:490元

ISBN:9789863794271
規格:平裝/224頁/17x23cm/普通級/單色印刷/初版
出版地:台灣
本書分類:電腦資訊>程式設計>資料結構/演算法

 ►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

【Introduction】簡介/書評/特色/摘要

  各企業資料集普遍存在資料不完整的情況。據統計,在機器學習和資料採擷應用過程中,不完整資料的前置處理花費大量的時間和精力。不完整資料處理是現實世界中分類知識採擷必須認真考慮和對待的重要問題。有效地處理不完整資料有助於更加充分地利用已經搜集到的資料,進一步加強機器學習和資料採擷的效率。

  本書即探討不完整資料分類演算法的改進策略,及其在文體風格識別中的應用。

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

【Table of Contents】目錄/大綱/內容概要

前言

Chapter 01 概述
1.1 分類知識發現
1.1.1 知識發現的概念和過程
1.1.2 資料採擷中的知識表示模式
1.1.3 分類知識發現主要演算法
1.1.4 不完整資料分類知識發現
1.2 文字挖掘
1.3 本書內容組織

Chapter 02 不完整資料分類演算法研究
2.1 不完整資料分類知識發現
2.1.1 不完整資料的型態
2.1.2 不完整資料的處理
2.1.3 不完整資料分類演算法
2.1.4 穩固貝氏分類
2.1.5 單純信念分類
2.2 對現有方法的思考
2.2.1 單純信念分類演算法的加權假設簡單
2.2.2 缺乏屬性資料和類別標記同時缺失情況下分類知識發現的研究
2.2.3 半監督演算法的效率問題
2.3 不完整資料加權單純信念分類演算法
2.3.1 相關分析及相關係數
2.3.2 加權保守推理規則
2.3.3 加權單純信念演算法分類過程
2.4 標準資料集UCI 上的比較實驗
2.4.1 實驗資料集及實驗設計
2.4.2 實驗結果分析
2.5 本章小結

Chapter 03 兩階段半監督加權單純信念分類演算法研究
3.1 半監督分類知識發現研究現狀
3.2 問題分析
3.2.1 未標記樣本在分類學習中的作用
3.2.2 現有半監督分類方法分析
3.3 兩階段分類方法相關想法
3.3.1 以規則模型為基礎的兩階段分類
3.3.2 兩階段半監督文字分類
3.4 兩階段半監督加權單純信念分類
3.4.1 TSS-WNC 分類主要過程
3.4.2 時間複雜度分析
3.5 在標準資料集UCI 上的實驗
3.5.1 分類比較實驗
3.5.2 實驗結果及分析
3.6 本章小結

Chapter 04 放鬆區間優勢的單純信念分類演算法研究
4.1 問題分析
4.2 區間優勢比較
4.3 以放鬆區間優勢推理規則為基礎的不完整資料分類
4.3.1 放鬆的區間優勢
4.3.2 放鬆的區間優勢推理規則
4.3.3 以放鬆區間優勢推理規則為基礎的分類過程
4.4 在標準資料集UCI 上的實驗
4.4.1 RCIR-NCC 分類比較實驗
4.4.2 實驗結果分析
4.5 本章小結

Chapter 05 典籍英譯文體風格識別研究
5.1 文體風格特徵
5.2 文體風格識別演算法
5.3 典籍英譯文體風格向量空間模型
5.3.1 典籍英譯語料特點
5.3.2 典籍英譯多層面文體風格模型
5.4 文體風格特徵選擇
5.4.1 資訊增益
5.4.2 χ2 統計量
5.4.3 典籍英譯文體風格識別特徵選擇
5.5 特徵資料項目缺失文體識別實驗
5.5.1 加權單純信念文體風格識別實驗
5.5.2 兩階段半監督文體風格識別實驗
5.5.3 放鬆區間優勢單純信念文體風格識別實驗
5.5.4 類別不平衡文體識別實驗
5.6 本章小結

Chapter06 基於特徵缺失補償最大熵模型的文字分類
6.1 最大熵模型
6.2 以Gaussian 先驗平滑特徵補償為基礎的最大熵模型
6.3 混合特徵選擇演算法
6.4 以特徵缺失補償最大熵模型為基礎的文字分類
6.5 本章小結

Chapter 07 以文字分析為基礎的網路輿情研究
7.1 以微博為基礎的網路輿情指標系統
7.1.1 網路輿情指標系統
7.1.2 以微博為基礎的網路輿情指標系統
7.1.3 微博輿情預警對策
7.2 以關鍵字為基礎的微博輿情傳播規律
7.2.1 網路輿情傳播規律
7.2.2 微博網路輿情傳播規律和對策
7.3 以關鍵字為基礎的網路輿情個案研究
7.3.1 個案研究環境及實驗資料
7.3.2 大連地區搶鹽潮個案分析
7.4 微博輿情的跨語言特徵
7.4.1 跨語言微博特徵表示
7.4.2 跨語言微博輿情預警研究架構
7.5 網路文字情感傾向
7.5.1 網路文字情感分析粒度
7.5.2 網路文字情感分析基本問題
7.5.3 網路文字情感分析前端問題
7.5.4 網路文字情感分析研究架構
7.6 本章小結

Appendix A 參考文獻
 

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

【Preface】序/前言/推薦/心得

前言

  各企業資料集普遍存在資料不完整的情況。據統計,在機器學習和資料採擷應用過程中,不完整資料的前置處理花費大量的時間和精力。不完整資料處理是現實世界中分類知識採擷必須認真考慮和對待的重要問題。有效地處理不完整資料有助於更加充分地利用已經搜集到的資料,進一步加強機器學習和資料採擷的效率,探索不完整資料的分類知識採擷具有重要的現實意義。

  本書探討了不完整資料分類演算法的改進策略,第1 章為不完整資料知識發現研究背景概述,第2 章針對單純信念分類演算法忽略了屬性變數的投票加權,提出了以相關係數為基礎的加權保守推理規則;第3 章針對目前半監督分類演算法中未考慮缺失屬性資料項目隱含資訊和演算法複雜度高的情況,提出兩階段半監督加權單純信念分類模型;第4 章針對單純信念分類演算法明確分類樣本比例低的情況,提出以放鬆區間優勢為基礎的不完整資料分類模型。並均在國際公開標準資料集上進行了比較實驗,驗證了提出模型在不完整資料上進行分類知識發現的效能。

  典籍英譯本的文體風格識別在對外作品推薦、匿名作者識別和促進中外文化交流方面具有重要的意義。本書第5 章選擇典籍英譯作品作為研究物件,進行以不完整資料分類演算法為基礎的文體風格識別應用研究,進一步驗證了本書提出的模型方法的有效性和效能。

  本書第6 章嘗試在最大熵文字分類模型中使用高斯平滑進行特徵補償,並提出混合的特徵選擇方法對傳統的特徵選擇方法進行改進。實驗結果顯示,以特徵缺失補償最大熵模型為基礎的分類器的綜合性能較好。

  本書第7 章以微博為基礎的網路輿情指標系統,分析以關鍵字為基礎的微博輿情傳播規律,進行了以關鍵字為基礎的網路輿情個案研究;同時探討網路文字的多語言特性,分析網路文字情感分析粒度、基本問題、前端問題和研究架構。

  本書可以作為資料採擷或文字分析領域的研究人員及相關專業系所學生開展文字分析與處理研究的教科書,也可以作為政府相關部門產品研發人員的參考書。

  本書能夠儘快完成出版,首先要感謝我的同事霍躍紅老師,本書的研究思想的起源來自與霍躍紅老師的探討合作,她無私提供了典籍英譯文字語料;感謝劉彩虹老師、郭旭老師等,以及參與資料收集和整理的同學們,本書的許多專題研究都與他們有深入的討論。還要感謝清華大學出版社的編輯,是他才使得本書得以順利出版。最後感謝在本書中所參考文獻的作者們和公開語料庫的開發者們,本書的寫作從他們的研究成果中獲得了很多營養,正是他們勤奮和分享的科學研究精神引領和啟發我完成本書的寫作。

  本書研究獲得大連外國語大學學術專著出版資助,2014 年大連外國語大學學科建設專項經費資助,特此表示感謝。

  雖然我始終以認真嚴謹的態度對待本書的撰寫工作,但很多研究尚屬於探索階段,書中難免有不足之處,懇請讀者們批評指正!


祁瑞華

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意


ISBN:9789863794271
規格:平裝/224頁/17x23cm/普通級/單色印刷/初版
出版地:台灣
本書分類:電腦資訊>程式設計>資料結構/演算法

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

【Preview】內容預覽/連載/試閱PDF下載

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

ISBN:9789863794271
規格:平裝/224頁/17x23cm/普通級/單色印刷/初版
出版地:台灣
本書分類:電腦資訊>程式設計>資料結構/演算法

►GO►最新優惠► 【書籍】Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

資料來源:[博客來BOOKS網路書店] http://www.books.com.tw/exep/assp.php/ap/products/0010734374?utm_source=ap&utm_medium=ap-books&utm_content=recommend
圖文屬原創所有。相關資訊僅供參考,歡迎前往選購。發現不妥處請告知!

【Customers Who Bought This Item Also Bought】買的人,也買了...

王者歸來:Python在大數據科學計算上的最佳實作 Python機器學習 演算法星球:七天導覽行程,一次弄懂演算法 Python+Spark 2.0+Hadoop機器學習與大數據分析實戰 Google、Amazon的超級容錯伺服器是如何建立的 


2016年10月4日 星期二

【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰[Python+Spark 2.0+Hadoop Ji Qi Xue Xi Yu Da Shu Ju Fen Xi Shi Zhan]*電腦資訊類*

Python+Spark 2.0+Hadoop機器學習與大數據分析實戰[Python+Spark 2.0+Hadoop Ji Qi Xue Xi Yu Da Shu Ju Fen Xi Shi Zhan]~推薦!

作者:林大貴
出版社:博碩
出版日期:2016/10/04
語言:繁體中文

定價:680元

ISBN:9789864341535
叢書系列:單行本
規格:平裝/576頁/17x23cm/普通級/單色印刷/初版
出版地:台灣
本書分類:電腦資訊>程式設計>資料結構/演算法

 ►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

【Author】作者/繪者/著者/譯者

作者簡介    

林大貴


  作者從事IT產業多年,涉獵系統設計、網站開發、數位行銷與商業智慧等多領域,具備豐富實務開發經驗。近年來,開始從事書籍創作與教學,著重在人工智慧、機器學習、大數據等領域,並著有暢銷書《Hadoop+Spark大數據巨量分析與機器學習整合開發實戰》一書。
 

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰


【Introduction】簡介/書評/特色/摘要

  ◆本書淺顯易懂的原理說明
  ◆Step by Step實機操作
  ◆範例程式詳細解說
  ◆大幅降低機器學習與大數據技術的學習門檻


  機器學習正熱門
  機器學習是近20多年興起的多領域學科,機器學習演算法可從大量數據中建立模型,並利用模型對未知數據進行預測。近年來各大公司google、 facebook、microsoft、IBM…等,全力投入機器學習研究與應用,以Google為例,Google早已將機器學習,運用在垃圾郵件判 斷、自動回覆、照片分類與搜尋、翻譯、語音辨識等功能。在你在不知不覺中,機器學習已經讓日常生活更便利。

  「大數據」與「機器學習」相輔相成
  大數據的特性: 大量資料、多樣化、速度快。因此如何從大量資料中擷取出有用的資訊,是大數據的主要課題。機器學習需要大量資料進行訓練,並且訓練過程需大量運算。正好大 數據的興起帶來大量資料,以及可儲存大量數據的分散式儲存技術,例如:Hadoop HDFS、NoSQL..。還有分散式運算可進行大量運算,例如Spark 基於記憶體內的分散式運算框架,可以大幅提升效能。

  Python與Spark與Hadoop的完美結合
  本書的主題是Python+Spark+Hadoop機器學習與大數據分析:使用Python開發Spark應用程式,具有多重好處,既可以享有 Python語言特性所帶來的好處:程式碼簡明、易學習、高生產力的特質。再加上Spark基於記憶體內的分散式運算框架,非常適合需多次重覆運算的機器 學習演算法,可以大幅提升效能。Spark可輕易讀取Hadoop分散式儲存技術HDFS。Spark也可以在Hadoop 新MapReduce架構YARN執行。

  Python與Spark機器學習與資料視覺化
  Python資料分析的相 關模組如NumPy、Matplotlib、Pandas、Scikit-learn,讓Python成為資料分析主要語言之一。使用Python開發 Spark機器學習應用時,你仍然可以繼續使用這些模組,這對於Python開發者帶來很大的方便,例如:你可以使用Spark ML Pipeline機器學習、訓練、預測。並且可以將Spark DataFrames轉換為Pandas DataFrame。轉換後你就可以運用Python豐富的資料視覺化套件,例如matplotlib、Bokeh…等,進行資料視覺化。

本書特色

  實機操作建置Spark+Hadoop機器學習與大數據平台
  一般人學習大數據的困難是,沒有多台機器建立分散式系統,但是透過本書介紹使用Virtual Box虛擬機器的方法,就能在自家電腦演練建立Hadoop叢集,並且建立Python Spark機器學習開發環境。

  以實務範例程式學會Python+Spark機器學習與大數據
  以 大數據實務案例MovieLens(電影喜好推薦引擎)、StumbleUpon (網頁二元分類)、Covtype(森林覆蓋多元分類),BikeSharing(類Ubike租借數量迴歸分析),介紹如何使用Python Spark運用機器學習演算法:決策樹、邏輯迴歸、支持向量機器SVM、單純貝氏。進行資料處理、訓練、建立模型、訓練驗證找出最佳模型、預測結果。
 

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

【Table of Contents】目錄/大綱/內容概要

Chapter01 Python Spark機器學習與Hadoop大數據
1.1 機器學習介紹
1.2 Spark介紹
1.3 Spark資料處理RDD、DataFrame、Spark SQL
1.4 使用Python開發Spark機器學習與大數據應用
1.5 Python Spark 器學習
1.6 Spark ML Pipeline機器學習流程介紹
1.7 Spark 2.0介紹
1.8 大數據定義
1.9 Hadoop簡介
1.10 Hadoop HDFS分散式檔案系統
1.11 Hadoop MapReduce介紹
1.12 結論

Chapter02 Virtual Box虛擬機器軟體安裝
2.1 VirtualBox下載安裝
2.2 設定Virtual Box儲存資料夾
2.3 在VirtualBox建立虛擬機器
2.4 結論

Chapter03 Ubuntu Linux作業系統安裝
3.1 Ubuntu Linux的作業系統安裝
3.2 在Virtual Box設定Ubuntu虛擬光碟檔案
3.3 開始安裝Ubuntu
3.4 啟動Ubuntu
3.5 安裝Guest Additions
3.6 設定預設輸入法
3.7 設定終端機程式
3.8 設定終端機白底黑字
3.9 設定共用剪貼簿
3.10 設定最佳下載伺服器
3.11 結論

Chapter04 Hadoop Single Node Cluster安裝
4.1 安裝JDK
4.2 設定SSH無密碼登入
4.3 下載安裝Hadoop
4.4 設定Hadoop環境變數
4.5 修改Hadoop組態設定檔
4.6 建立與格式化HDFS目錄
4.7 啟動Hadoop
4.8 開啟Hadoop Resource Manager Web介面
4.9 NameNode HDFS Web介面
4.10 結論

Chapter05 Hadoop Multi Node Cluster安裝
5.1 複製Single Node Cluster到data1
5.2 VirtualBox介面卡設定
5.3 設定data1伺服器
5.4 複製data1伺服器至data2、data3、master
5.5 設定data2伺服器
5.6 設定data3伺服器
5.7 設定master伺服器
5.8 master連線至data1、data2、data3建立HDFS目錄
5.9 建立與格式化NameNode HDFS目錄
5.10 啟動Hadoop Multi Node Cluster
5.11 開啟Hadoop ResourceManager Web介面
5.12 開啟NameNode Web介面
5.13 停止Hadoop Multi Node Cluster
5.14 結論

Chapter06 Hadoop HDFS命令介紹
6.1 啟動Hadoop Multi-Node Cluster
6.2 建立與查看HDFS目錄
6.3 從本機複製檔案到HDFS
6.4 將HDFS 上的檔案複製到本機
6.5 複製與刪除HDFS檔案
6.6 Hadoop HDFS Web UI介面瀏覽HDFS
6.7 結論

Chapter07 Hadoop MapReduce介紹
7.1 wordCount.java介紹
7.2 編輯wordCount.java
7.3 編譯wordCount.java
7.4 建立測試文字檔
7.5 執行wordCount.java
7.6 查看執行結果
7.7 結論

Chapter08 Python Spark介紹與安裝
8.1 Scala介紹與安裝
8.2 安裝SPARK 2.0
8.3 啟動pyspark互動介面
8.4 設定pyspark顯示訊息
8.5 建立測試文字檔
8.6 本機執行pyspark程式
8.7 在Hadoop YARN執行pyspark
8.8 建置Spark standalone cluster執行環境
8.9 在Spark standalone執行pyspark
8.10 Spark Web UI介面
8.11 結論

Chapter09 在IPython Notebook 執行Python Spark程式
9.1 安裝Anaconda
9.2 在IPython Notebook使用Spark
9.3 開啟IPython Notebook筆記本
9.4 插入程式儲存格
9.5 加入註解與設定程式碼說明標題
9.6 關閉IPython Notebook
9.7 使用IPython Notebook在hadoop yarn-client模式執行
9.8 使用IPython Notebook在Spark Stand Alone模式執行
9.9 在不同的模式執行IPython Notebook指令整理
9.10 結論

Chapter10 Python Spark RDD介紹
10.1 RDD的特性
10.2 開啟IPython Notebook
10.3 基本RDD「轉換」運算
10.4 多個RDD「轉換」運算
10.5 基本「動作」運算
10.6 RDD Key-Value基本「轉換」運算
10.7 多個RDD Key-Value「轉換」運算
10.8 Key-Value「動作」運算
10.9 Broadcast廣播變數
10.10 accumulator累加器
10.11 RDD Persistence持久化
10.12 使用Spark 建立WordCount
10.13 Spark WordCount詳細解說
10.14 結論

Chapter11 Python Spark整合開發環境介紹
11.1 下載與安裝eclipse Scala IDE
11.2 安裝pyDev
11.3 設定字串替代變數
11.4 PyDev 設定Python程式庫
11.5 PyDev 設定anaconda2程式庫路徑
11.6 PyDev 設定Spark Python程式庫
11.7 PyDev 設定環境變數
11.8 新增PyDev專案
11.9 加入WordCount.py程式
11.10 輸入WordCount.py程式
11.11 建立測試檔案並上傳測試檔至HDFS目錄
11.12 使用spark-submit來執行WordCount程式
11.13 在hadoop yarn-client執行WordCount程式
11.14 在Spark Standalone Cluster 執行WordCount程式
11.15 在eclipse外部工具執行Python Spark程式
11.16 在eclipse執行spark-submit yarn-client
11.17 在eclipse執行spark-submit Standalone
11.18 結論

Chapter12 Python Spark建立推薦引擎
12.1 推薦演算法介紹
12.2 「推薦引擎」大數據分析使用情境
12.3 ALS 推薦演算法介紹
12.4 如何蒐集資料?
12.5 啟動IPython Note Book
12.6 如何資料準備?
12.7 如何訓練模型?
12.8 如何使用模型進行推薦?
12.9 顯示推薦的電影的名稱
12.10 建立Recommend 推薦系統
12.11 執行RecommendTrain.py推薦程式碼
12.12 建立Recommend.py推薦程式碼
12.13 在eclipse執行Recommend.py
12.14 結論

Chapter13 Python Spark MLlib決策樹二元分類
13.1 決策樹介紹
13.2 「StumbleUpon Evergreen」大數據問題
13.3 決策樹二元分類機器學習
13.4 如何蒐集資料?
13.5 使用iPython Note Book 示範
13.6 如何資料準備?
13.7 如何訓練模型?
13.8 如何使用模型進行預測?
13.9 如何評估模型的準確率?
13.10 模型的訓練參數如何影響準確率?
13.11 如何找出準確率最高的參數組合?
13.12 如何確認是否Overfitting(過度訓練)?
13.13 建立RunDecisionTreeBinary.py程式
13.14 開始輸入RunDecisionTreeBinary.py程式
13.15 執行RunDecisionTreeBinary.py
13.16 查看DecisionTree的分類規則
13.17 結論

Chapter14 Python Spark MLlib邏輯迴歸二元分類
14.1 邏輯迴歸分類介紹
14.2 RunLogisticRegressionWithSGDBinary.py程式說明
14.3 執行RunLogisticRegressionWithSGDBinary.py進行參數評估
14.4 執行找出最佳參數組合
14.5 修改程式使用最佳參數進行預測
14.6 結論

Chapter15 Python Spark MLlib 支援向量機器SVM二元分類
15.1 支援向量機器SVM演算法基本概念
15.2 執行SVMWithSGD.py進行參數評估
15.3 執行SVMWithSGD.py訓練評估參數,找出最佳的參數組合
15.4 執行SVMWithSGD.py使用最佳參數進行預測
15.5 結論

Chapter16 Python Spark MLlib單純貝氏二元分類
16.1 單純貝氏分析原理介紹
16.2 RunNaiveBayesBinary.py程式說明
16.3 執行RunNaiveBayesBinary.py進行參數評估
16.4 執行訓練評估參數,找出最好的參數組合
16.5 修改RunNaiveBayesBinary.py直接使用最佳參數進行預測
16.6 結論

Chapter17 Python Spark MLlib決策樹多元分類
17.1 「森林覆蓋樹種」大數據問題分析情境
17.2 UCI Covertype資料集介紹
17.3 下載與查看資料
17.4 修改PrepareData()資料準備
17.5 修改trainModel 訓練模型程式
17.6 使用訓練完成的模型預測資料
17.7 執行RunDecisionTreeMulti.py進行參數評估
17.8 執行RunDecisionTreeMulti.py訓練評估參數,找出最好的參數組合
17.9 執行RunDecisionTreeMulti.py不進行訓練評估
17.10 結論

Chapter18 Python Spark MLlib決策樹迴歸分析
18.1 Bike Sharing大數據問題分析
18.2 Bike Sharing資料集
18.3 下載與查看資料
18.4 修改PrepareData()資料準備
18.5 修改以DecisionTree.trainRegressor訓練模型
18.6 以RMSE 評估模型準確率
18.7 訓練評估找出最好的參數組合
18.8 使用訓練完成的模型預測資料
18.9 執行RunDecisionTreeMulti.py進行參數評估
18.10 執行RunDecisionTreeMulti.py訓練評估參數,找出最好的參數組合
18.11 執行RunDecisionTreeMulti.py不進行訓練評估
18.12 結論

Chapter19 Python Spark SQL、DataFrame、RDD資料統計與視覺化
19.1 RDD、DataFrame、Spark SQL比較
19.2 建立RDD、DataFrame 與Spark SQL tempTable
19.3 SELECT顯示部分欄位
19.4 增加計算欄位
19.5 篩選資料
19.6 單一欄位排序資料
19.7 多欄位排序資料
19.8 顯示不重複資料
19.9 群組統計資料
19.10 Join關聯資料
19.11 以Pandas DataFrame繪圖
19.12 結論

Chapter20 Spark ML Pipeline機器學習流程二元分類
20.1 資料準備
20.2 介紹機器學習pipeline流程的元件
20.3 建立機器學習pipeline流程
20.4 使用pipeline進行資料處理與訓練
20.5 使用pipelineModel進行預測
20.6 評估模型的準確率
20.7 使用TrainValidation進行訓練驗證找出最佳模型
20.8 使用crossValidation交叉驗證找出最佳模型
20.9 使用隨機森林RandomForestClassifier分類器
20.10 結論

Chapter21 Spark ML Pipeline機器學習流程多元分類
21.1 資料準備
21.2 建立機器學習pipeline流程
21.3 使用dt_pipeline進行資料處理與訓練
21.4 使用pipelineModel進行預測
21.5 評估模型的準確率
21.6 使用TrainValidation進行訓練驗證找出最佳模型
21.7 結論

Chapter22 Spark ML Pipeline機器學習流程迴歸分析
22.1 資料準備
22.2 建立機器學習pipeline流程
22.3 使用dt_pipeline進行資料處理與訓練
22.4 使用pipelineModel進行預測
22.5 評估模型的準確率
22.6 使用TrainValidation進行訓練驗證找出最佳模型
22.7 使用crossValidation進行交叉驗證找出最佳模型
22.8 使用GBT Regression
22.9 結論

Appendix A 本書範例程式下載與安裝說明
A.1 下載範例程式
A.2 開啟本書iPython Note Book範例程式
A.3 開啟eclipse PythonProject範例程式


 

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰


ISBN:9789864341535
叢書系列:單行本
規格:平裝/576頁/17x23cm/普通級/單色印刷/初版
出版地:台灣
本書分類:電腦資訊>程式設計>資料結構/演算法

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

【Preview】內容預覽/連載/試閱PDF下載

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

ISBN:9789864341535
叢書系列:單行本
規格:平裝/576頁/17x23cm/普通級/單色印刷/初版
出版地:台灣
本書分類:電腦資訊>程式設計>資料結構/演算法

►GO►最新優惠► 【書籍】Python+Spark 2.0+Hadoop機器學習與大數據分析實戰

資料來源:[博客來BOOKS網路書店] http://www.books.com.tw/exep/assp.php/ap/products/0010730134?utm_source=ap&utm_medium=ap-books&utm_content=recommend
圖文屬原創所有。相關資訊僅供參考,歡迎前往選購。發現不妥處請告知!

【Customers Who Bought This Item Also Bought】買的人,也買了...

Python機器學習 比Hadoop+Python還強:Spark MLlib機器學習實作 Python程式設計實務:從初學到活用Python開發技巧的16堂課 網站擷取:使用Python Hadoop+Spark大數據巨量分析與機器學習整合開發實戰 機器學習:使用Python進行預測分析的基本技術 演算法星球:七天導覽行程,一次弄懂演算法 Spark學習手冊 大演算:機器學習的終極演算法將如何改變我們的未來,創造新紀元的文明? Hadoop技術手冊(第四版) Python機器學習 網站擷取:使用Python 機器學習:使用Python進行預測分析的基本技術 比Hadoop+Python還強:Spark MLlib機器學習實作 Hadoop+Spark大數據巨量分析與機器學習整合開發實戰