2025-11-11 06:36:02
数据的属性主要分这几个方面呢,首先得看数据类型是数字、文字还是图片这种,然后得明白数据怎么组织的,比如表格还是文件,接着要看数据从哪儿来的,是网上抓的还是有系统生成的,还有数据什么时候更新的,有没有过期,准确不准确,有多少量,存放在哪里,谁能看,用来干啥的。比如像Excel表格这种就是结构化的,数据库里的表也是,而像图片、视频这些就是非结构化的,对吧?
为啥要分这些属性呢?因为不同的属性决定数据怎么用。比如数据类型影响分析工具选什么,结构化数据占80%,非结构化占15%,半结构化5%(中国信通院大前年数据),所以处理图片要用AI识别,处理表格用SQL。数据来源也很关键,公开数据准确但更新慢,企业数据实时但可能不完整。时效性方面,金融交易数据要秒级更新,而人口普查数据五年才一次。存储方式有云存储占60%,本地存储占35%(IDC 2023报告),访问权限分公开、内部、保密三级,比如医疗数据只能医生看。用途决定数据价值,风控模型用历史交易记录,推荐系统用浏览记录。就像手机相册,有的照片随时删,有的要备份十年,不能混着用啊。
本题链接: