2025-11-20 06:00:22
获取大数据主要从公开平台、企业内部系统、网络爬虫抓取、传感器实时采集、用户行为追踪和第三方数据市场这几个途径来。说白了就是官方免费数据、自己公司产生的数据、网上公开信息、智能设备自动收集、用户用手机产生的记录,还有花钱买的数据包。
为啥是这个答案呢?举个例子公开数据平台现在全国有超过200个,比如统计局的每月经济数据、交通委的实时路况,这些平台直接开放给公众用。企业方面像电商平台每天处理上亿条订单记录,外卖平台每分钟有十万单产生,这些内部系统积累的数据量特别大。网络爬虫技术上现在用Python写脚本就能抓取社交媒体、新闻网站的内容,但要注意遵守法律法规。传感器的话比如智能电表每15分钟上传一次用电数据,全国装了上亿个这种设备。用户行为方面像手机定位、APP使用时长这些信息,用户自己用的时候其实就在给平台提供数据。第三方数据市场比如阿里云数据宝,去年交易额突破50亿,说明市场需求大。这些途径加起来每天产生的数据量超过10EB,相当于100亿部高清电影。但要注意有些数据不能随便用,得符合《个人信息保护法》规定。
本题链接: