專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
摘要: 10月21日,一篇名為《估值175億的旅游獨角獸,是一座僵尸和水軍構成的鬼城?》的文章在社交網絡廣為流傳,直指在線旅游網站馬蜂窩存在點評大量造假、85%的數據從其他網站抓取的情況,引起了軒然大波。縱觀國內外各大網站,因數據問題曝光而給企業形象帶來負面影響的新聞經常發生,互聯網行業由于本身的業務特點,成為了數據問題的“重災區”,而數據挖掘既是互聯網企業安身立命的根本,也是產生黑色利潤的重要工具,成為高懸在企業頭上的達摩克利斯之劍。數據挖掘為什么如此重要?本文將為你揭開數據挖掘行業的神秘面紗。
圖1 馬蜂窩造假數據
(數據來源:新浪科技)
數據挖掘是將商業數據庫中的諸多信息,經過數據清洗和集成、選擇和變換、分析綜合、模型化處理等一系列步驟,提取出有效的、新穎的、潛在有用的以及最終可理解模式,進行決策、控制、預測的高級處理過程。數據挖掘最早提出是在1989年,國內對該領域研究稍晚,1993年國家自然科學基金開始支持該領域研究。
數據挖掘的方法
從不同的角度看,數據挖掘技術有多種分類方法,如根據發現的知識種類分類, 根據挖掘的數據庫類型分類等等。目前常用數據挖掘方法包括如下:
(1) 神經網絡方法
模擬人腦神經元結構,以MP 模型和Hebb學習規則為基礎,用神經網絡連接的權值表示知識,其學習體現在神經網絡權值的逐步計算上。目前主要有3 大類神經網絡模型:①前饋式網絡,以感知機、反向傳播模型、函數型網絡為代表, 可用于預測、模式識別等方面。②反饋式網絡,以Hopfield 的離散模型和連續模型為代表, 分別用于聯想記憶和優化計算。③自組織網絡,以ART模型、Koholon模型為代表, 用于聚類。
(2) 遺傳算法
一種基于生物自然選擇與遺傳機理的隨機搜索算法,仿生全局優化方法。主要優點是隱含并行性、易和其它模型結合。
(3) 決策樹方法
一種常用于預測模型算法,通過將大量數據有目的分類,從中找到一些有價值的、潛在的信息。主要優點是描述簡單、分類速度快、 適合大規模的數據處理。
(4) 粗集方法
在數據庫中,將行元素看成對象, 列元素看成屬性,等價關系R 定義為不同對象在某個(或幾個)屬性上取值相同,這些滿足等價關系的對象組成的集合稱為該等價關系R 的等價類。
(5) 覆蓋正例排斥反例方法
利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。
(6) 統計分析方法
在數據庫字段項之間存在兩種關系:函數關系和相關關系,對它們的分析可采用統計學方法,進行常用統計、回歸分析、相關分析、差異分析、主成分分析等。
(7) 模糊集方法
即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的復雜性越高,模糊性越強。
(8) 概念樹方法
對數據庫中記錄的屬性字段按歸類方式進行抽象,建立起來的層次結構稱之為概念樹。對多個屬性字段的概念樹進行提升,將得到高度概括的知識基表,然后可再將它轉換成規則。
(9) 公式發現
在工程和科學數據庫中,對若干數據項進行一定的數學運算,求得相應的數學公式。比較典型的BACON完成了對物理學中大量定律的重新發現,其基本思想是:對數據項進行初等數學運算,形成組合數據項,若它的值為常數項,就得到了組合數據項等于常數的公式。
數據挖掘的應用領域
(1)金融領域
金融數據具有可靠性、完整性和高質量等特點。這在很大程度上利于開展數據挖掘工作以及挖掘技術的應用。數據挖掘在金融領域中有許多具體的應用,例如分析多維數據,以把握金融市場的變化趨勢;運用孤立點分析等方法,研究洗黑錢等犯罪活動;應用分類技術,對顧客信用進行分類,為維持與客戶的關系以及為客戶提供相關服務等決策提供參考。
(2)醫療領域
人類的遺傳史、疾病史以及醫療方法等醫療領域中都隱藏著海量的數據信息,對醫院內部結構、醫藥器具、病人檔案以及其他資料等的管理也產生了巨量的數據。對于這些數據,運用數據挖掘技術,既有助于醫療人員發現疾病的規律,從而提高診斷的準確率和治療的有效性,也可以幫助醫護人員提高工作效率和質量,促進健康醫療事業的發展。
(3)零售和電商領域
運用數據挖掘技術對海量的銷售數據進行分析,可以有效地識別顧客的購買行為,從而把握好顧客的購買趨勢。商家可以根據數據挖掘結果有針對性地采取措施,改進服務質量,提高商品的銷售量,從而提高企業效益。此外,由于數據挖掘的推薦系統已經成為電子商務的關鍵技術,通過數據挖掘,再對網站進行系統分析,對用戶的行為模式加以識別,在增加客戶黏性,提供個性化服務,優化網站設計等方面也取得了很好的效果。
(4)電信領域
電信運營商已逐漸發展為一個融合了語音、圖像、視頻等增值服務的全方位立體化的綜合電信服務商。運營商要合理地分析商業形式和模式,運用數據挖掘是非常有必要的。例如對用戶行為、利潤率、通信速率和容量、系統負載等電信數據,可以運用多維分析方法進行分析;要發現異常模式,可以運用聚類或孤立點分析等方法進行數據挖掘;要得到電信發展的影響因素,可以運用關聯或序列等模式進行分析等。
(5)社交網絡分析
社交網絡分析是從關系和結構兩個方面來了解、度量和預測行為的科學。結合圖論和非參數統計技術,研究人員利用數據,來識別網絡內和跨網絡的關鍵人員和關鍵群體,或者特殊模式和重要途徑。通過這些數據來分析人們的活動取向,為公司的營銷提供有力的依據,也可以利用多個社交媒體來交叉驗證同一個人,對于追蹤犯罪行為、恐怖分子、戀童癖者尤為重要。
數據挖掘的研究方向及發展趨勢
數據挖掘研究方興未艾,目前研究焦點集中于以下幾個方面:
(1)發現語言的形式化描述,標準化研究。即研究專門用于數據挖掘的語言,像SQL語言一樣走向形式化和標準化。
(2)尋求數據挖掘過程中的可視化方法。使知識發現過程能夠被用戶理解,也便于在知識發現的過程中進行人機交互。
(3)數據挖掘系統實施中的安全性和隱定性。數據挖掘能從不同角度、不同抽象層上看待數據,這將潛在地影響數據私有性和安全性。隨著網絡日益普及,研究數據挖掘可能導致的非法數據入侵是實際應用中亟待解決的問題之一。
(4)功能較強大的專用數據挖掘軟件。未來的幾個熱點發展方向,如網站數據挖掘、生物信息或基因數據挖掘、文本數據挖掘、個人數據挖掘,這些領域具有獨特的數據性質,需要專業軟件來支持。
(5)探索新型應用領域。主要集中體現在商業智能,企業、政府決策。隨著研究的深入,數據挖掘系統在處理特定問題時有其局限性,開發針對某一專業挖掘系統成為研究趨勢。
總結
數據挖掘是一個年輕且充滿希望的技術手段,目前發展非常迅速,應用領域也在不斷擴展,產業前景非常可觀。商業利益的驅動既會促進它的快速發展,也容易誘導它成為犯罪手段,而如何規范這項技術未來的發展,需要企業和政府共同努力,制定行業標準、規范行業行為。在此基礎上,企業恪守自己的底線,才能用好這把達摩克利斯之劍。
本文為我公司原創,歡迎轉載,轉載請標明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論