<xmp id="gc8um"><menu id="gc8um"></menu>
<tr id="gc8um"></tr>
<tr id="gc8um"></tr>
<object id="gc8um"><center id="gc8um"></center></object>
<rt id="gc8um"><small id="gc8um"></small></rt>
<tr id="gc8um"></tr>
<acronym id="gc8um"><center id="gc8um"></center></acronym>
<samp id="gc8um"></samp>
<option id="gc8um"></option>
<tt id="gc8um"><div id="gc8um"></div></tt>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<samp id="gc8um"></samp>
<rt id="gc8um"></rt>
<rt id="gc8um"></rt>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt>
<tr id="gc8um"></tr>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<sup id="gc8um"><small id="gc8um"></small></sup>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt>
<optgroup id="gc8um"><menu id="gc8um"></menu></optgroup>
<tr id="gc8um"></tr>
<rt id="gc8um"><small id="gc8um"></small></rt>
<menu id="gc8um"><noscript id="gc8um"></noscript></menu>
<option id="gc8um"></option>
<rt id="gc8um"></rt>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt><acronym id="gc8um"><small id="gc8um"></small></acronym><rt id="gc8um"></rt>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt><acronym id="gc8um"><small id="gc8um"></small></acronym>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<object id="gc8um"><small id="gc8um"></small></object>
<tr id="gc8um"></tr>
<rt id="gc8um"><small id="gc8um"></small></rt>
<tr id="gc8um"><optgroup id="gc8um"></optgroup></tr>
<samp id="gc8um"></samp>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
  • 1. 第一章 機器學習及數據挖掘基本原理王斌 中國科學院信息工程研究所大數據核心技術之數據挖掘與機器學習技術探索及應用
  • 2. 目錄基本概念典型應用預備知識
  • 3. 什么是機器學習(Machine Learning)學習能力是人類智能的一種體現 機器學習是研究如何“利用經驗來改善計算機系統自身的性能”的學科----From T. M. Mitchell TM. Machine Learning . New York: McGraw-Hill, 1997. 機器學習是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使不斷改善自身的性能----來自《百度百科》
  • 4. 機器學習 vs. 人類學習
  • 5. 什么是數據挖掘(Data Mining)數據挖掘常常也叫知識發現(Knowledge),有多種文字不同但含義接近的定義,例如“識別出巨量數據中有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程” 。也可以顧名思義,數據挖掘就是試圖從海量數據中找出有用的知識----From U. Fayyad, G. Piatetsky-Shapiro, R. Smyth. Knowledge discovery and data mining: Towards a unifying framework. In: Proc. KDD’96, Portland, OR, 82-88.
  • 6. 機器學習 vs. 數據挖掘周志華,機器學習與數據挖掘。《中國計算機學會通訊》, 2007, 3(12): 35-44.本課程內容
  • 7. 機器學習和其他學科
  • 8. 什么是大數據(Big Data)4V理論 海量的數據規模(volume) 快速的數據流轉和動態的數據體系(velocity) 多樣的數據類型(variety) 巨大的數據價值(value)
  • 9. 大數據的魔力Google利用大數據預測了H1N1流感的爆發 百度利用大數據成功預測2014年世界杯(從淘汰賽到決賽全部正確) 核心原因:大數據+機器學習
  • 10. 大數據 vs. 機器學習存儲分析獲取高性能計算機器 學習
  • 11. 數據“大” vs. 機器學習It’s not who has the best algorithm wins, it’s who has the most data. (成功的機器學習應用不是擁有最好的算法,而是擁有最多的數據!)Michele Banko, and Eric Brill. Scaling to Very Very Large Corpora for Natural Language Disambiguation. In proceedings of ACL2001, page 26-33.
  • 12. 機器學習方法分類機械學習(Rote learning):學習者無需任何推理或其它的知識轉換,直接吸取環境所提供的信息。如塞繆爾的跳棋程序。 示教學習(Learning from instruction):學生從環境(教師或其它信息源如教科書等)獲取信息,把知識轉換成內部可使用的表示形式,并將新的知識和原有知識有機地結合為一體。 類比學習(Learning by analogy):利用二個不同領域(源域、目標域)中的知識相似性,可以通過類比,從源域的知識(包括相似的特征和其它性質)推導出目標域的相應知識,從而實現學習。例如,一個從未開過貨車的司機,只要他有開小車的知識就可完成開貨車的任務。 歸納學習(Learning from induction):教師或環境提供某概念的一些實例或反例,讓學生通過歸納推理得出該概念的一般描述。
  • 13. 歸納學習方法分類監督學習(Supervised Learning):監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。如分類、回歸。 非監督學習(Unsupervised Learning):無監督學習的問題是,在未標記的數據中,試圖找到隱藏的結構。如聚類、密度估計。 強化學習(Reinforcement Learning):強化學習是機器學習中的一個領域,強調如何基于環境而行動,以取得最大化的預期利益。
  • 14. 機器學習基本過程表示 (Representation)訓練 (Training/Learning)測試 (Testing/Predicting/Inference)將數據對象進行特征(feature)化表示 給定一個數據樣本集,從中學習出規律(模型) 目標:該規律不僅適用于訓練數據,也適用于未知數據(稱為泛化能力)對于一個新的數據樣本,利用學到的模型進行預測
  • 15. 例子:天氣預報目標:預測明天北京會不會下雨 數據:過去10年北京每一天的天氣數據 那天是否下雨:是/否 那天的前一天傍晚18點的氣溫、相對濕度、風向、風速、氣壓等(特征) 某條數據: <18, 20, 東, 15, 80, 是> 訓練:學習得到規律(模型) 預測:給定今天傍晚18點的氣溫、相對濕度、風向、風速、氣壓等、根據模型預測明天是否下雨
  • 16. 機器學習的關鍵問題【表示】如何表示數據樣本? 通常用一個向量來表示一個樣本,向量中選用哪些特征是關鍵 【訓練】如何找出規律【模型+策略+算法】* 通常變成一個選擇題,給你n個候選的模型讓你選。【模型】 確定選擇的標準(什么樣的模型才叫好模型)【策略】 如何快速地從n個模型中選出最好的【算法】 【測試】如何根據找到的規律進行預測*李航,《統計學習方法》,清華大學出版社,2013年5月
  • 17. 問題一:如何表示樣本?向量表示法【本課程重點】 圖表示法?
  • 18. 例子:圖像識別
  • 19. 例子:家庭用車判別任務:把車分類 家庭用車/非家庭用車 樣本:車 問題:如何把車表示成一個向量?選取哪些特征? 特征:價格,排量
  • 20. 例子:心臟病預測任務:預測病人是否會發心臟病 樣本:病人 問題:如何把病人表示成一個向量?選取哪些特征? 特征:血糖,血壓,血脂,心率
  • 21. 例子:預測天氣任務:預測每天的天氣如何 樣本:每一天 問題:如何把每天表示成一個向量?選取哪些特征? 特征:溫度,相對濕度,風向,風速,氣壓
  • 22. 問題二:如何找出規律?模型策略算法確定要找的是哪類規律(函數形式)或者說假設空間,比如線性函數從眾多可能的規律中選出最好的選擇標準,比如某個損失函數最小如何快速尋找到最好結果,比如牛頓法
  • 23. 例子:房價預測策略:最小化損失函數(誤差平方和)算法:梯度下降法模型:線性函數來自http://cs229.stanford.edu
  • 24. 問題三:根據找到的規律進行預測打分,根據分數作判別
  • 25. 目錄基本概念典型應用預備知識
  • 26. 例子:網頁分類
  • 27. 例子:人臉識別
  • 28. 例子:搜索引擎結果排序
  • 29. 例子:垃圾郵件過濾
  • 30. 例子:機器翻譯
  • 31. 例子:文檔自動摘要
  • 32. 例子:手寫識別
  • 33. 例子:圖像去噪
  • 34. 例子:視頻跟蹤和智能事件分析視頻跟蹤事件分析行人跟蹤車輛跟蹤打架交通事故
  • 35. 例子:推薦系統
  • 36. 例子:計算廣告
  • 37. 目錄基本概念典型應用預備知識
  • 38. 向量空間模型及文本向量
  • 39. 向量向量(vector,也稱為矢量):既有大小又有方向的量,通常用有向線段表示,記作 或者 考慮從空間坐標系原點出發(其他向量可以平移到原點出發)的向量 ,終點坐標為,我們稱之為一個n維向量
  • 40. 向量的運算向量的運算:加、減、倍數、內積(inner product,也稱點積) ?
  • 41. 向量的模、距離和夾角向量的模(大小) 向量的(歐氏)距離 夾角α t1t2??????
  • 42. 42向量空間模型向量空間模型(Vector Space Model,VSM)由康奈爾大學 Salton等人上世紀70年代提出并倡導,原型系統SMART* 每篇文檔(或者每個查詢)都可以轉化為一個向量,于是文檔之間的相似度可以通過向量之間的距離來計算 向量中的每一維對應一個詞項(term)或者說文本特征 *可從ftp://ftp.cs.cornell.edu/pub/smart/下載全部源碼和相關語料
  • 43. 文檔-詞項矩陣(Doc-Term Matrix)n篇文檔,m個詞項構成的矩陣Am*n,每列可以看成每篇文檔的向量表示,同時,每行也可以可以看成詞項的向量表示。 每個文檔之間可以計算相似度,每個詞項之間也可以計算相似度
  • 44. 一個例子查詢q:(<2006,1>,<世界杯,2>) 文檔d1:(<2006,1>,<世界杯,3>,<德國,1>,<舉行,1>) 文檔d2:(<2002,1>,<世界杯,2>,<韓國,1>,<日本,1>,<舉行,1>)
  • 45. 一個例子(續)查詢和文檔進行向量的相似度計算: 采用內積: 文檔d1與q的內積:1*1+3*2=7 文檔d2與q的內積:2*2=4 夾角余弦: 文檔d1與q的夾角余弦: 文檔d2與q的夾角余弦:相似度的計算可以有很多種,可以選用內積進行計算
  • 46. 向量空間模型VSM中三個關鍵問題詞項的選擇:選擇什么樣的單位作為向量的每一維 權重計算:即計算每篇文檔中每個詞項的權重,即得到向量的每一維大小 相似度計算:計算向量之間的相似度
  • 47. 詞項選擇詞項是能代表文檔內容的特征 詞項粒度:可以是字、詞、短語、N-gram或者某種語義單元 降維:VSM中向量的維數很大時,往往也同時引入了很多噪音。因此,實際應用中,會采用一些降維策略(如:去停用詞、對英文進行詞干還原等)N-Gram是大詞匯連續語音識別中常用的一種語言模型,對中文而言,我們稱之為漢語語言模型(CLM, Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配信息,在需要把連續無空格的拼音、筆劃,或代表字母或筆劃的數字,轉換成漢字串(即句子)時,可以計算出具有最大概率的句子,從而實現到漢字的自動轉換,無需用戶手動選擇,避開了許多漢字對應一個相同的拼音(或筆劃串,或數字串)的重碼問題。
  • 48. 權重計算布爾權重:詞項 i在文檔j中的權重aij=0 or 1 (出現則取1,否則取0) TF權重:TF (Term Frequency)是詞項在文檔中出現的次數,表示的是詞項在文檔內的代表性。權重aij=TFij (原始 TF)或者歸一化后的TF值 TF權重還有多種計算方式 例子:我 愛 北京 天安門,天安門 上 太陽 升。 上述文檔中,TF(北京)=1,TF(天安門)=2,……
  • 49. 權重計算(續)IDF權重: 詞項的文檔頻率DF(Document Frequency):整個文檔集合中出現詞項的文檔數目。DF反映了詞項的區分度,DF越高表示詞項越普遍,因此其區分度越低,因此權重也越低。 逆文檔頻率(Inverse DF,IDF):DF的倒數,通常采用如下公式進行計算(N是文檔集合中所有文檔的數目): 向量空間模型中通常采用TF*IDF的方式計算權重。即詞項 i在文檔dj中的權重aij=TFij *IDFi   某詞項在某個文檔很重要TF高,而其它文檔所不具有的IDF高 例子:我 愛 北京 天安門,天安門 上 太陽 升 TF(天安門)=2, DF=20, N=100,于是TFIDF(天安門)=2*100/20=10
  • 50. 相似度計算t1t2dq夾角余弦用得比較多,只考慮夾角
  • 51. 概率論基礎
  • 52. 隨機試驗和隨機事件隨機試驗:可在相同條件下重復進行;試驗可能結果不止一個,但能確定所有的可能結果;一次試驗之前無法確定具體是哪種結果出現。 擲一顆骰子,考慮可能出現的點數 隨機事件:隨機試驗中可能出現或可能不出現的情況叫“隨機事件”,簡稱事件 擲一顆骰子,4點朝上
  • 53. 概率和條件概率概率:直觀上來看,事件A的概率是指事件A發生的可能性,記為P(A) 擲一顆骰子,出現6點的概率為多少? 條件概率:已知事件A發生的條件下,事件B發生的概率稱為A條件下B的條件概率,記作P(B|A) 30顆紅球和40顆黑球放在一塊,請問第一次抽取為紅球的情況下第二次抽取黑球的概率?1/69!
  • 54. 54乘法公式、全概率公式和貝葉斯公式乘法公式: P(AB)=P(A)P(B|A) P(A1A2…An)=P(A1)P(A2|A1)...P(An|A1…An-1) 全概率公式:A1A2…An是整個樣本空間的一個劃分
  • 55. 貝葉斯公式先驗概率:P(B) 后驗概率:P(B|A)=P(A|B)P(B)/P(A) 例子:某個學校有60%男生,40%女生,男生都穿長褲,女生有一半長褲一半裙子,求該學校穿長褲的學生是男生的概率。 B=是男生,A=穿長褲 P(B)=0.6, P(A)=0.6+0.2=0.8, P(A|B)=1.0, 于是 P(B|A)=P(A|B)P(B)/P(A)=1*0.6/0.8=0.75 先驗概率(prior probability)是指根據以往經驗和分析得到的概率,如全概率公式,它往往作為由因求果問題中的因出現.后驗概率是指通過調查或其它方式獲取新的附加信息,利用貝葉斯公式對先驗概率進行修正,而后得到的概率。 先驗概率不是根據有關自然狀態的全部資料測定的,而只是利用現有的材料(主要是歷史資料)計算的;后驗概率使用了有關自然狀態更加全面的資料,既有先驗概率資料,也有補充資料;   先驗概率的計算比較簡單,沒有使用貝葉斯公式;而后驗概率的計算,要使用貝葉斯公式,而且在利用樣本資料計算邏輯概率時,還要使用理論概率分布,需要更多的數理統計知識。
  • 56. 事件的獨立性兩事件獨立:事件A、B,若P(AB)=P(A)P(B),則稱A 、B獨立 三事件獨立:事件A B C,若滿足P(AB)=P(A)P(B), P(AC)=P(A)P(C),P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),則稱A、B、C獨立 多事件獨立:兩兩獨立、三三獨立、四四獨立….
  • 57. 隨機變量隨機變量:若隨機試驗的各種可能的結果都能用一個 變量的取值(或范圍)來表示,則稱這個變量為隨機變量,常用X、Y、Z來表示 (離散型隨機變量):擲一顆骰子,可能出現的點數X (可能取值1、2、3、4、5、6) (連續型隨機變量):北京地區的溫度(-15~45)
  • 58. 本章小結機器學習的基本概念 機器學習的典型應用 預備知識 向量空間模型及文本向量:如何將很多篇文檔中的每一篇文檔轉化成一個向量 概率論:概率、條件概率、貝葉斯公式
  • 59. 謝謝!

下載文檔到電腦,查找使用更方便

需要 10 金幣 [ 分享文檔獲得金幣 ] 0 人已下載

下載文檔

平特争霸
<xmp id="gc8um"><menu id="gc8um"></menu>
<tr id="gc8um"></tr>
<tr id="gc8um"></tr>
<object id="gc8um"><center id="gc8um"></center></object>
<rt id="gc8um"><small id="gc8um"></small></rt>
<tr id="gc8um"></tr>
<acronym id="gc8um"><center id="gc8um"></center></acronym>
<samp id="gc8um"></samp>
<option id="gc8um"></option>
<tt id="gc8um"><div id="gc8um"></div></tt>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<samp id="gc8um"></samp>
<rt id="gc8um"></rt>
<rt id="gc8um"></rt>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt>
<tr id="gc8um"></tr>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<sup id="gc8um"><small id="gc8um"></small></sup>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt>
<optgroup id="gc8um"><menu id="gc8um"></menu></optgroup>
<tr id="gc8um"></tr>
<rt id="gc8um"><small id="gc8um"></small></rt>
<menu id="gc8um"><noscript id="gc8um"></noscript></menu>
<option id="gc8um"></option>
<rt id="gc8um"></rt>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt><acronym id="gc8um"><small id="gc8um"></small></acronym><rt id="gc8um"></rt>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt><acronym id="gc8um"><small id="gc8um"></small></acronym>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<object id="gc8um"><small id="gc8um"></small></object>
<tr id="gc8um"></tr>
<rt id="gc8um"><small id="gc8um"></small></rt>
<tr id="gc8um"><optgroup id="gc8um"></optgroup></tr>
<samp id="gc8um"></samp>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<xmp id="gc8um"><menu id="gc8um"></menu>
<tr id="gc8um"></tr>
<tr id="gc8um"></tr>
<object id="gc8um"><center id="gc8um"></center></object>
<rt id="gc8um"><small id="gc8um"></small></rt>
<tr id="gc8um"></tr>
<acronym id="gc8um"><center id="gc8um"></center></acronym>
<samp id="gc8um"></samp>
<option id="gc8um"></option>
<tt id="gc8um"><div id="gc8um"></div></tt>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<samp id="gc8um"></samp>
<rt id="gc8um"></rt>
<rt id="gc8um"></rt>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt>
<tr id="gc8um"></tr>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<sup id="gc8um"><small id="gc8um"></small></sup>
<acronym id="gc8um"><optgroup id="gc8um"></optgroup></acronym>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt>
<optgroup id="gc8um"><menu id="gc8um"></menu></optgroup>
<tr id="gc8um"></tr>
<rt id="gc8um"><small id="gc8um"></small></rt>
<menu id="gc8um"><noscript id="gc8um"></noscript></menu>
<option id="gc8um"></option>
<rt id="gc8um"></rt>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt><acronym id="gc8um"><small id="gc8um"></small></acronym><rt id="gc8um"></rt>
<rt id="gc8um"><optgroup id="gc8um"></optgroup></rt><acronym id="gc8um"><small id="gc8um"></small></acronym>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
<object id="gc8um"><small id="gc8um"></small></object>
<tr id="gc8um"></tr>
<rt id="gc8um"><small id="gc8um"></small></rt>
<tr id="gc8um"><optgroup id="gc8um"></optgroup></tr>
<samp id="gc8um"></samp>
<acronym id="gc8um"><small id="gc8um"></small></acronym>
猎鱼达人历史版本 好多怪兽电子 辽宁十一选五走势图基本走势图 内蒙古十一选五最新版开奖走势图 铁岭麻将玩法 比特币现金交易量 幸运转轮 热带动物园送彩金 亚特兰大老鹰队另一个则是西部 和平精英视频解说少云 BBIN电子游艺 伯恩茅斯对纽卡斯尔联队 古墓奇兵彩金 辽宁35选7开奖弓码 山西11选5开奖结果走势图 《曾道人一句爆平特》