網(wǎng)絡(luò)爬蟲漫天抓取消費者信息
北京消費者付先生最近很郁悶,自從自己更新了簽證信息、團購了北京出發(fā)的機票,就不斷接到各種營銷短信以及騷擾電話。“如果說是偶然,那就是睜眼說瞎話;如果說是有些機構(gòu)泄露了我的個人隱私信息,我確實沒有證據(jù)。當然,也有一種可能,那就是網(wǎng)絡(luò)爬蟲所為,”對于自己的個人消費信息的泄露,從事網(wǎng)絡(luò)信息安全十余年的付先生想到了三個泄露途徑:“管理部門不可能泄露;航空公司有泄露的可能,但有一定的風(fēng)險和制約;網(wǎng)絡(luò)爬蟲卻沒有這些負擔,而且從技術(shù)上說可以從容實施。”
那么,網(wǎng)絡(luò)爬蟲到底是什么?為什么能從網(wǎng)絡(luò)上肆意抓取消費者各種信息呢?
什么是網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲,顧名思義,其實就是一種“自動化瀏覽網(wǎng)絡(luò)”的程序,按照一定的規(guī)則,自動抓取互聯(lián)網(wǎng)信息,比如網(wǎng)頁、各類文檔、圖片、音頻、視頻等,通過索引技術(shù)組織這些信息,根據(jù)需要快速地提供搜索結(jié)果等,是網(wǎng)絡(luò)搜索引擎收集網(wǎng)上信息的主要手段,也被稱為網(wǎng)頁蜘蛛或網(wǎng)絡(luò)機器人。
具體來說,互聯(lián)網(wǎng)上的網(wǎng)頁或網(wǎng)站如同一個個信息節(jié)點,大量的網(wǎng)頁或網(wǎng)站通過超鏈接形成網(wǎng)狀結(jié)構(gòu)。消費者在瀏覽網(wǎng)頁和點擊應(yīng)用時,通過點擊網(wǎng)頁上的鏈接,從一個節(jié)點跳轉(zhuǎn)到下一個節(jié)點,自然會在網(wǎng)絡(luò)上留下痕跡。網(wǎng)絡(luò)爬蟲軟件程序,正是模擬了這一行為,只不過速度更快,跳轉(zhuǎn)的節(jié)點更全面,所以被形象地稱為網(wǎng)絡(luò)爬蟲或網(wǎng)絡(luò)蜘蛛。“網(wǎng)絡(luò)爬蟲無處不在,最早的搜索引擎,正是基于這一技術(shù)。但是,現(xiàn)在很多所謂的網(wǎng)絡(luò)數(shù)據(jù)公司,通過爬蟲技術(shù),在網(wǎng)絡(luò)上肆無忌憚地抓取用戶在門戶網(wǎng)站、電信運營商、電商網(wǎng)站以及QQ、微信等等社交軟件上的行為軌跡,甚至包括銀行征信報告、家庭水電氣消費在內(nèi)的生活信息。”對于網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展與現(xiàn)狀,從事網(wǎng)絡(luò)軟件平臺開發(fā)十余年的山東青島某科技公司技術(shù)負責人崔先生并不陌生。
他解釋道:“抓到消費者的網(wǎng)絡(luò)應(yīng)用信息并不難,也不奇怪,關(guān)鍵看用來干什么,正常進行宏觀的網(wǎng)絡(luò)行為研究沒有什么問題,但是有些數(shù)據(jù)公司會進行所謂的二次開發(fā)或深度開發(fā),將其分割成客戶需要的成百上千個維度來進行分析,然后變成具體的信息產(chǎn)品進行銷售。也就是說,很多所謂的大數(shù)據(jù)技術(shù),就是讓消費者個人信息更容易被獲取,被形成產(chǎn)品銷售,然后被濫用。”
據(jù)崔先生介紹,部分目的不良的數(shù)據(jù)公司通過網(wǎng)絡(luò)爬蟲獲取消費者數(shù)據(jù)信息的目的無非有兩個:一是把散布于網(wǎng)絡(luò)上的復(fù)雜數(shù)據(jù)轉(zhuǎn)化為更容易被讀懂的信息,以便購買相關(guān)數(shù)據(jù)的客戶可以更好地使用;二是根據(jù)目標客戶的需求目標,制定多元化的分析維度,以適應(yīng)客戶需求的多變性和復(fù)雜性。
僅售3.8元的33頁精確信息
去年底,網(wǎng)絡(luò)曝出南方都市報記者通過隨機檢索,在一家名為探知數(shù)據(jù)的科技公司僅花了3.8元就買到了事關(guān)個人隱私、長達33頁的詳細通訊信息報告,包括個人基本身份信息、近半年的通話記錄詳情、賬單消費、出行信息和人脈關(guān)系等,并有詳細的量化評分,信息精確度非常之高,出行信息準確定位到經(jīng)緯度、門牌號的居住地址等。
除此之外,該公司可提供的服務(wù)產(chǎn)品還包括電商、社保、公積金、央行和學(xué)信網(wǎng),查詢結(jié)果五花八門,而且價格低得驚人:花費1元錢即可抓取的淘寶數(shù)據(jù)量最多為25頁訂單數(shù)據(jù)、京東近3年的消費數(shù)據(jù)……
“抓取這些數(shù)據(jù)并不難,一是部分網(wǎng)站安全意識不夠,或者防范能力不足,二是部分網(wǎng)站睜只眼閉只眼,有意無意地放任不良數(shù)據(jù)公司去抓取,可以輕松抓取到每一個消費者使用過哪些地址網(wǎng)購,使用的頻率,消費類型和購買金額等,甚至可以根據(jù)用戶需要,列出消費類型,比如教育類占比多少、娛樂類占比多少、生活用品占比多少,形成了一張消費價格區(qū)間和消費興趣和行為分布圖,”對于爬蟲技術(shù)的實現(xiàn)能力,目前仍在為部分數(shù)據(jù)公司提供爬蟲技術(shù)服務(wù)的北京某信息公司負責人郭先生并不隱瞞:“消費行為、消費歷史記錄、金融支付信息、賬戶金額等等,都能輕松實現(xiàn),數(shù)據(jù)來源包括社交網(wǎng)站、網(wǎng)上銀行、網(wǎng)上營業(yè)廳、航空公司、12306等等,都可以設(shè)立多個維度的數(shù)據(jù)整合模型。任何一個消費者,只要消費信息被上傳到網(wǎng)絡(luò)上,或者在網(wǎng)上消費,從衣食住行到生活社交各個層面,均可以毫不費勁地被爬出來,根據(jù)需要,進行多維度分析。”
泄露途徑無法溯源
2017年6月1日起正式實施的《中華人民共和國網(wǎng)絡(luò)信息安全法》第二十二條明文規(guī)定,網(wǎng)絡(luò)產(chǎn)品、服務(wù)具有收集用戶信息功能的,其提供者應(yīng)當向用戶明示并取得同意。第四十四條規(guī)定,任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息。然而,在實際網(wǎng)絡(luò)應(yīng)用中,上述法令并未得到認真落實。
以電商網(wǎng)絡(luò)流行的“貨比三家”為例:很多電商平臺都有自動調(diào)價功能,其實正是通過爬蟲程序掃描同類網(wǎng)站商品的價格,針對性地展開相應(yīng)的調(diào)整,從而取得價格優(yōu)勢,為銷量提供保證。“其實不少實時比價工具,技術(shù)背景就是爬蟲技術(shù),利用網(wǎng)絡(luò)爬蟲獲取其他電商平臺的同款商品的價格、促銷、評論等商品信息,”對于網(wǎng)絡(luò)爬蟲技術(shù)的實際應(yīng)用,從事電商網(wǎng)絡(luò)平臺和軟件開發(fā)多年的北京某網(wǎng)絡(luò)技術(shù)公司負責人吳先生直言不諱地告訴記者:“目前各家網(wǎng)絡(luò)平臺都有自己的技術(shù)在用,十多年前就有了該自動比價模式,底層技術(shù)就是爬蟲。”
據(jù)吳先生介紹,其實,在電子商務(wù)行業(yè),使用爬蟲玩“貓捉老鼠”的游戲,是一個公開的秘密。每個電商平臺一方面希望阻止競爭對手抓取自己的網(wǎng)站,另一方面又想滲透對手的網(wǎng)站。盡管各大電商平臺都擁有各類技術(shù)防范,但網(wǎng)絡(luò)爬蟲數(shù)量還是令人震驚。除了競爭對手外,更多來自越來越多涌現(xiàn)的數(shù)據(jù)公司,目的就是獲取消費者信息,形成產(chǎn)品進行銷售。
“很多消費者可能接觸過一些類似的比價平臺、聚合電商或返利平臺等等,大體原理都是一樣的,消費者搜索一個商品或服務(wù),平臺就會自動把各大電商的商品放在一起供消費者選擇,其實就是爬蟲技術(shù)的應(yīng)用。網(wǎng)絡(luò)爬蟲在為消費提供貨比三家等便利的同時,不知不覺就收集了消費者瀏覽記錄、消費記錄、家庭位置等等信息,形成數(shù)據(jù)報告用于銷售,方便商家進行有針對性的廣告投放等等,而且,消費者根本無從知曉個人信息的泄露渠道,無法追查。”
北京消費者付先生最近很郁悶,自從自己更新了簽證信息、團購了北京出發(fā)的機票,就不斷接到各種營銷短信以及騷擾電話。“如果說是偶然,那就是睜眼說瞎話;如果說是有些機構(gòu)泄露了我的個人隱私信息,我確實沒有證據(jù)。當然,也有一種可能,那就是網(wǎng)絡(luò)爬蟲所為,”對于自己的個人消費信息的泄露,從事網(wǎng)絡(luò)信息安全十余年的付先生想到了三個泄露途徑:“管理部門不可能泄露;航空公司有泄露的可能,但有一定的風(fēng)險和制約;網(wǎng)絡(luò)爬蟲卻沒有這些負擔,而且從技術(shù)上說可以從容實施。”
那么,網(wǎng)絡(luò)爬蟲到底是什么?為什么能從網(wǎng)絡(luò)上肆意抓取消費者各種信息呢?
什么是網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲,顧名思義,其實就是一種“自動化瀏覽網(wǎng)絡(luò)”的程序,按照一定的規(guī)則,自動抓取互聯(lián)網(wǎng)信息,比如網(wǎng)頁、各類文檔、圖片、音頻、視頻等,通過索引技術(shù)組織這些信息,根據(jù)需要快速地提供搜索結(jié)果等,是網(wǎng)絡(luò)搜索引擎收集網(wǎng)上信息的主要手段,也被稱為網(wǎng)頁蜘蛛或網(wǎng)絡(luò)機器人。
具體來說,互聯(lián)網(wǎng)上的網(wǎng)頁或網(wǎng)站如同一個個信息節(jié)點,大量的網(wǎng)頁或網(wǎng)站通過超鏈接形成網(wǎng)狀結(jié)構(gòu)。消費者在瀏覽網(wǎng)頁和點擊應(yīng)用時,通過點擊網(wǎng)頁上的鏈接,從一個節(jié)點跳轉(zhuǎn)到下一個節(jié)點,自然會在網(wǎng)絡(luò)上留下痕跡。網(wǎng)絡(luò)爬蟲軟件程序,正是模擬了這一行為,只不過速度更快,跳轉(zhuǎn)的節(jié)點更全面,所以被形象地稱為網(wǎng)絡(luò)爬蟲或網(wǎng)絡(luò)蜘蛛。“網(wǎng)絡(luò)爬蟲無處不在,最早的搜索引擎,正是基于這一技術(shù)。但是,現(xiàn)在很多所謂的網(wǎng)絡(luò)數(shù)據(jù)公司,通過爬蟲技術(shù),在網(wǎng)絡(luò)上肆無忌憚地抓取用戶在門戶網(wǎng)站、電信運營商、電商網(wǎng)站以及QQ、微信等等社交軟件上的行為軌跡,甚至包括銀行征信報告、家庭水電氣消費在內(nèi)的生活信息。”對于網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展與現(xiàn)狀,從事網(wǎng)絡(luò)軟件平臺開發(fā)十余年的山東青島某科技公司技術(shù)負責人崔先生并不陌生。
他解釋道:“抓到消費者的網(wǎng)絡(luò)應(yīng)用信息并不難,也不奇怪,關(guān)鍵看用來干什么,正常進行宏觀的網(wǎng)絡(luò)行為研究沒有什么問題,但是有些數(shù)據(jù)公司會進行所謂的二次開發(fā)或深度開發(fā),將其分割成客戶需要的成百上千個維度來進行分析,然后變成具體的信息產(chǎn)品進行銷售。也就是說,很多所謂的大數(shù)據(jù)技術(shù),就是讓消費者個人信息更容易被獲取,被形成產(chǎn)品銷售,然后被濫用。”
據(jù)崔先生介紹,部分目的不良的數(shù)據(jù)公司通過網(wǎng)絡(luò)爬蟲獲取消費者數(shù)據(jù)信息的目的無非有兩個:一是把散布于網(wǎng)絡(luò)上的復(fù)雜數(shù)據(jù)轉(zhuǎn)化為更容易被讀懂的信息,以便購買相關(guān)數(shù)據(jù)的客戶可以更好地使用;二是根據(jù)目標客戶的需求目標,制定多元化的分析維度,以適應(yīng)客戶需求的多變性和復(fù)雜性。
僅售3.8元的33頁精確信息
去年底,網(wǎng)絡(luò)曝出南方都市報記者通過隨機檢索,在一家名為探知數(shù)據(jù)的科技公司僅花了3.8元就買到了事關(guān)個人隱私、長達33頁的詳細通訊信息報告,包括個人基本身份信息、近半年的通話記錄詳情、賬單消費、出行信息和人脈關(guān)系等,并有詳細的量化評分,信息精確度非常之高,出行信息準確定位到經(jīng)緯度、門牌號的居住地址等。
除此之外,該公司可提供的服務(wù)產(chǎn)品還包括電商、社保、公積金、央行和學(xué)信網(wǎng),查詢結(jié)果五花八門,而且價格低得驚人:花費1元錢即可抓取的淘寶數(shù)據(jù)量最多為25頁訂單數(shù)據(jù)、京東近3年的消費數(shù)據(jù)……
“抓取這些數(shù)據(jù)并不難,一是部分網(wǎng)站安全意識不夠,或者防范能力不足,二是部分網(wǎng)站睜只眼閉只眼,有意無意地放任不良數(shù)據(jù)公司去抓取,可以輕松抓取到每一個消費者使用過哪些地址網(wǎng)購,使用的頻率,消費類型和購買金額等,甚至可以根據(jù)用戶需要,列出消費類型,比如教育類占比多少、娛樂類占比多少、生活用品占比多少,形成了一張消費價格區(qū)間和消費興趣和行為分布圖,”對于爬蟲技術(shù)的實現(xiàn)能力,目前仍在為部分數(shù)據(jù)公司提供爬蟲技術(shù)服務(wù)的北京某信息公司負責人郭先生并不隱瞞:“消費行為、消費歷史記錄、金融支付信息、賬戶金額等等,都能輕松實現(xiàn),數(shù)據(jù)來源包括社交網(wǎng)站、網(wǎng)上銀行、網(wǎng)上營業(yè)廳、航空公司、12306等等,都可以設(shè)立多個維度的數(shù)據(jù)整合模型。任何一個消費者,只要消費信息被上傳到網(wǎng)絡(luò)上,或者在網(wǎng)上消費,從衣食住行到生活社交各個層面,均可以毫不費勁地被爬出來,根據(jù)需要,進行多維度分析。”
泄露途徑無法溯源
2017年6月1日起正式實施的《中華人民共和國網(wǎng)絡(luò)信息安全法》第二十二條明文規(guī)定,網(wǎng)絡(luò)產(chǎn)品、服務(wù)具有收集用戶信息功能的,其提供者應(yīng)當向用戶明示并取得同意。第四十四條規(guī)定,任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息。然而,在實際網(wǎng)絡(luò)應(yīng)用中,上述法令并未得到認真落實。
以電商網(wǎng)絡(luò)流行的“貨比三家”為例:很多電商平臺都有自動調(diào)價功能,其實正是通過爬蟲程序掃描同類網(wǎng)站商品的價格,針對性地展開相應(yīng)的調(diào)整,從而取得價格優(yōu)勢,為銷量提供保證。“其實不少實時比價工具,技術(shù)背景就是爬蟲技術(shù),利用網(wǎng)絡(luò)爬蟲獲取其他電商平臺的同款商品的價格、促銷、評論等商品信息,”對于網(wǎng)絡(luò)爬蟲技術(shù)的實際應(yīng)用,從事電商網(wǎng)絡(luò)平臺和軟件開發(fā)多年的北京某網(wǎng)絡(luò)技術(shù)公司負責人吳先生直言不諱地告訴記者:“目前各家網(wǎng)絡(luò)平臺都有自己的技術(shù)在用,十多年前就有了該自動比價模式,底層技術(shù)就是爬蟲。”
據(jù)吳先生介紹,其實,在電子商務(wù)行業(yè),使用爬蟲玩“貓捉老鼠”的游戲,是一個公開的秘密。每個電商平臺一方面希望阻止競爭對手抓取自己的網(wǎng)站,另一方面又想滲透對手的網(wǎng)站。盡管各大電商平臺都擁有各類技術(shù)防范,但網(wǎng)絡(luò)爬蟲數(shù)量還是令人震驚。除了競爭對手外,更多來自越來越多涌現(xiàn)的數(shù)據(jù)公司,目的就是獲取消費者信息,形成產(chǎn)品進行銷售。
“很多消費者可能接觸過一些類似的比價平臺、聚合電商或返利平臺等等,大體原理都是一樣的,消費者搜索一個商品或服務(wù),平臺就會自動把各大電商的商品放在一起供消費者選擇,其實就是爬蟲技術(shù)的應(yīng)用。網(wǎng)絡(luò)爬蟲在為消費提供貨比三家等便利的同時,不知不覺就收集了消費者瀏覽記錄、消費記錄、家庭位置等等信息,形成數(shù)據(jù)報告用于銷售,方便商家進行有針對性的廣告投放等等,而且,消費者根本無從知曉個人信息的泄露渠道,無法追查。”
- 消費品質(zhì)提升成車市變革核心動能(2024-11-19)
- “搖搖椅”并非“哄娃神器” 使用時應(yīng)有成人看護(2024-11-12)
- 聚焦進博會|頭部車企齊聚進博會 首發(fā)首展接連不斷(2024-11-12)
- 套餐費用易升難降 攜號轉(zhuǎn)網(wǎng)人為設(shè)障(2024-11-05)
- 糾正電影票不能退“霸王條款”(2024-10-28)