作者
Annie Badman
Staff Writer
IBM Think
Matthew Kosinski
Staff Editor
IBM Think
什么是数据?
数据是事实、数字、文字、观察结果或其他有用信息的集合。通过数据处理和数据分析,组织可将原始数据点转化为有价值的洞察分析,从而改善决策并推动更好的业务成果。
各组织从各种来源并以各种格式收集数据,包括非数值定性数据(例如客户评论)和数值定量数据(例如销售数据)。数据的其他示例包括公共数据(如政府统计数据和人口普查记录)和私人数据(如客户购买历史记录或个人医疗记录)。
在过去十年中,大数据(来自社交媒体、电子商务和金融交易等来源的庞大、复杂的数据集)推动了行业的数字化转型。事实上,大数据因其在推动业务增长和创新中的价值而赢得了“新石油”的绰号。
近年来,人工智能 (AI) 的兴起进一步提高了人们对数据的关注。组织需要数据来训练机器学习 (ML) 模型和完善预测算法。这些 AI 系统分析的高质量数据越多,就越准确、越有效。
随着数据量、复杂性和重要性的增加,组织需要有效的数据管理流程来保持信息井井有条并可供数据分析使用。
与此同时,用户和监管机构对数据安全和隐私的关注与日俱增,对数据保护和遵守《通用数据保护条例 (GDPR)》和 California Consumer Privacy Act (CCPA) 等法律的重视程度也与日俱增。
数据类型
数据有许多不同的形式,每种形式都有其独特的特征、来源和格式。了解这些区别可以更有效地组织和分析数据,因为不同类型的数据支持不同的用例。
此外,单个数据点或数据集可以属于多个类别。例如,结构化定量、非结构化定性等。
一些最常见的数据类型包括:
定量数据定性数据
结构化数据
非结构化数据
半结构化数据
元数据
大数据
定量数据
定量数据包括可以用数字测量的数值。定量数据的例子包括离散数据点(如售出产品数量)或连续数据点(如温度或收入数字)。
定量数据通常是结构化的,便于使用数学工具和算法进行分析。
定量数据的常见用例包括趋势预测、统计分析、预算、模式识别和绩效测量。
定性数据
定性数据是描述性的、非数字的,它捕捉的是数字无法衡量的特征、概念或经验。例如,客户反馈、产品评论和社交媒体评论。
定性数据可以是结构化的(例如编码的调查回复),也可以是非结构化的(例如自由文本回复或访谈记录)。
定性数据的常见用例包括了解客户行为、市场趋势和用户体验。
结构化数据
结构化数据以清晰明确的格式组织,通常存储在关系数据库或电子表格中。它可以由定量数据(例如销售数据)和定性数据(例如“是或否”等分类标签)组成。
结构化数据的例子包括客户记录和财务报告,其中的数据可以整齐地排列在带有预定义字段的行和列中。
结构化数据的高度组织性允许快速查询和数据分析,使其可用于商业智能系统和报告流程。
非结构化数据
非结构化数据缺乏严格定义的格式。它通常以文本文件、图像和视频等复杂形式出现。非结构化数据可以包括定性信息(例如客户评论)和定量元素(例如文本中嵌入的数值)。
非结构化数据的例子包括电子邮件、社交媒体内容和多媒体文件。
非结构化数据不易纳入传统的关系数据库,组织通常使用 自然语言处理 (NLP) 和机器学习等技术来简化非结构化数据的分析。
非结构化数据通常在情感分析、复杂模式识别和其他高级分析项目中发挥关键作用。
了解有关结构化数据与非结构化数据的更多信息
半结构化数据
半结构化数据融合了结构化数据和非结构化数据的要素。它不遵循严格的格式,但可以包含标签或标记,以便于整理和分析。 半结构化数据的例子包括 XML 文件和 JSON 对象。
半结构化数据被广泛应用于网络抓取和数据整合项目等场景,因为它既能提供灵活性,又能为搜索和分析保留一定的结构。
元数据
元数据是指有关数据的数据。换言之,它是有关数据点或数据集的属性信息,例如文件名、作者、创建日期或数据类型。
元数据增强了数据的组织、可搜索性和管理。这对数据库、数字图书馆和内容管理平台等系统至关重要,因为它可以帮助用户更轻松地分类和查找所需数据。
大数据
大数据是指传统系统无法处理的庞大复杂的数据集。它包括来自传感器、社交媒体和交易等来源的结构化和非结构化数据。
大数据分析可帮助组织处理和分析这些大型数据集,从而系统地提取有价值的洞察分析。通常需要机器学习等先进工具。
大数据的常见用例包括客户行为分析、欺诈检测 和预测性维护。
为什么数据质量重要
数据使组织能够将原始信息转化为可操作的洞察分析,从而预测客户行为、优化供应链并推动创新。
“数据”一词来自“datum”的复数形式,“datum”是一个拉丁词,意思是“给定的东西”:这个定义在今天仍然适用。 每天,数百万人通过印象、点击、交易、传感器读数甚至只是在线浏览等互动为企业提供数据。
各行各业的组织可以利用这种持续的信息流来推动增长和创新。例如,电子商务零售商使用大量数据集和数据分析来预测需求,帮助确保他们在正确的时间储存正确的产品。
同样,数据驱动的流媒体平台不仅利用机器学习算法来推荐内容,还能优化内容,分析哪些场景最能引起观众的共鸣,从而为未来的制作决策提供依据。
在人工智能 (AI) 时代,数据也越来越重要,因为训练机器学习模型需要大量、高质量的数据集(有关更多信息,请参阅“数据在人工智能 (AI) 中的作用”)。
此外,AI 的实时数据处理能力在网络安全、金融交易和边缘计算等领域也至关重要,在网络安全领域,快速的数据分析可在威胁升级前识别威胁;在金融交易领域,瞬间的决策会影响利润;在边缘计算领域,处理更接近数据源的数据可以获得更快的洞察分析、更快的决策和更好的带宽。
掌握最新科技新闻
《Think Newsletter》每周为您提供 AI、安全、云等领域的深入洞察分析、研究和专家观点。
立即订阅
如何使用数据?
各行各业的组织将数据用于各种目的,包括改进决策、简化运营和推动创新。
组织在运营中使用数据的常见方式包括:
预测性分析
生成式 AI
医疗保健创新
社会科学研究
网络安全和风险管理
运营效率
客户体验
政府举措
商业智能 (BI)
预测性分析
预测性分析是高级分析的一个分支,它利用历史数据,结合统计建模、数据挖掘和机器学习,预测未来的趋势和结果。
电子商务公司经常使用预测性分析,根据过去的交易情况预测客户的购买行为。在制造业和运输业,预测性分析通过分析实时机器数据来预测设备可能出现故障的时间,并提出主动维护建议,从而实现预测性维护。
生成式 AI
生成式 AI, 有时也称作 gen AI,是一种人工智能 (AI),能够创建原创内容(例如文本、图像、视频、音频或软件代码)以响应用户的提示或请求。
生成式 AI 依赖于称为 深度学习模型的复杂机器学习 模型。这些模型通过大量数据集进行训练,能够理解用户的请求、生成个性化的营销内容和编写代码。
医疗保健创新
数据分析可以帮助医疗保健提供方改善患者护理、预测疾病爆发并改进治疗方案。
例如,通过时间序列数据监测患者,如随时间跟踪患者的生命体征,可以实时获得对患者状况的洞察分析。这反过来又能加快干预速度,提供更加个性化的治疗。
社会科学研究
社会科学研究人员经常分析来自调查、人口普查报告和社交媒体的定量和定性数据。通过研究这些数据集,他们可以研究行为、趋势和政策影响。
例如,研究人员可以利用人口普查数据跟踪人口变化,利用调查反馈衡量公众意见,利用社交媒体数据分析新趋势。
网络安全和风险管理
随着 网络攻击和 数据泄露日益频繁,组织越来越多地转向数据分析,以更快地识别和应对威胁,最大限度地减少损失和停机时间。
例如,安全信息和事件管理 (SIEM) 系统可以通过汇总和分析来自整个网络的安全警报来帮助实时检测和应对异常情况。
运营效率
在大量数据集上训练出来的机器学习算法,可以帮助组织通过优化物流、预测需求、改进调度和自动化工作流程来提高运营效率。
例如,电子商务公司经常收集和分析实时销售数据,为库存管理提供信息,减少缺货或库存过多的可能性。
客户体验
数据是实现个性化客户体验的支柱,尤其是在营销领域,组织可以使用数据分析来为不同的用户定制内容和广告。
例如,流媒体服务依靠机器学习算法来分析观看习惯和推荐内容。
政府举措
世界各国政府经常使用开放数据政策来公开有价值的数据集,鼓励企业和组织将这些资源用于研究和创新。
例如,美国政府的 Data.gov 平台可访问医疗保健、教育和交通领域的各种数据集。这种访问有助于提高透明度,使各行各业的企业能够根据公开信息开发数据驱动型解决方案。
商业智能 (BI)
商业智能(BI)是一套用于收集、管理和分析数据的技术流程,可将原始数据转化为指导业务决策的洞察分析。
商业分析是对 BI 的补充,它帮助组织通过图形、仪表板和报告解读数据并使其可视化,从而更容易发现趋势并做出明智的决策。
数据收集
数据收集是从各种来源收集数据的系统过程,同时有助于确保数据的质量和完整性。它通常由数据科学家和分析师执行,是准确可靠的数据分析的基础。
数据收集首先要设定明确的目标并确定相关来源。然后,获取、清理数据,并将其整合为统一的数据集。数据存储系统和持续的质量检查可帮助确保收集的数据准确可靠。
如果没有适当的数据收集,组织可能会基于不完整、不准确或误导性的数据进行分析,从而导致不完整的洞察分析和决策能力受损。
部分常见的数据源包括:
社交媒体互动:来自 Twitter 和 Facebook 等平台的实时数据可用于跟踪品牌参与情况、衡量公众意见并发现消费者情绪。
公共数据:政府和组织免费提供的数据集,例如人口普查数据和经济指标,有助于为人口变化、市场细分和财务分析提供背景信息。
开放数据集:学术机构和政府提供的有关气候变化和地理空间数据等主题的数据集通常用于研究和政策制定。
交易数据:来自业务交易的数据(例如销售记录、发票和付款信息)可帮助企业跟踪绩效、优化定价并改善客户体验。
调查和问卷:通过客户反馈或研究调查收集的定性或定量数据可以提供有关偏好、意见和趋势的洞察分析。
网络分析:来自网站交互的数据,例如页面浏览量和点击率,有助于公司了解用户行为、优化内容并改善用户体验。
IoT 设备:来自物联网 (IoT) 设备(例如智能电表和可穿戴追踪器)的数据可以支持实时分析和预测性维护,并防止设备停机。
数据管理
组织以多种格式处理分散在公有云和私有云上的大量数据,使得数据碎片化和管理不善带来了重大挑战。
根据 IBM Data Differentiator 的调查,82% 的企业面临数据孤岛问题,导致工作流中断,68% 的数据未经分析,限制了数据的全部潜力。
数据管理是指安全高效地收集、处理和使用数据,以改善业务成果的实践。它能应对管理大型数据集、打破孤岛和处理不一致数据格式等关键挑战。
数据管理解决方案通常与现有基础设施集成,有助于确保数据科学家、分析师和其他利益相关者获取高质量、可用的数据。这些解决方案通常结合数据湖、数据仓库或湖仓一体,形成统一的数据架构。
数据湖是一种低成本的存储空间,用于存储原始的非结构化数据,随后可以进行处理和分析。
数据仓库存储来自各种来源的结构化数据,针对数据挖掘和分析任务进行了优化。
湖仓一体融合了数据仓库和数据湖的优点,为管理结构化和非结构化数据提供了统一的解决方案。
这些系统有助于建立坚实的数据管理基础,将高质量数据输入商业智能 (BI) 工具、仪表板和 AI 模型,包括机器学习 (ML) 和生成式 AI。
此外,AI 正在改变组织处理数据的方式。AI 数据管理是在数据管理生命周期中使用 AI 和机器学习的实践。示例包括应用 AI 自动执行或简化数据收集、数据清理、数据分析、数据安全和其他数据管理流程。
数据科学家和数据分析师
随着各行各业的企业越来越依赖数据来推动决策、改善运营和提升客户体验,对熟练数据专业人员的需求激增。
数据科学领域中最重要的两个角色是数据科学家和数据分析师。
数据科学家:数据科学家执行复杂的基础数据任务。例如,他们创建模型和算法,通常使用机器学习和预测建模等高级工具,在大型数据集中发现洞察分析。
数据分析师:数据分析师专注于更直接、更实际的任务。他们使用统计数据来分析数据并回答特定的业务问题。他们的主要目标是找到有助于日常决策和策略的有用洞察分析。
这两个角色都涉及数据收集、数据建模、分析数据和确保数据高质量。分析师和科学家可能会使用各种方法和工具来处理和准备数据,包括 Microsoft Excel、Python 和结构化查询语言 (SQL)。
他们还可能使用数据可视化技术(例如仪表板和图表)来帮助发现数据中的趋势、相关性和洞察分析,尽管使用的方式不同。
例如,数据科学家可能会使用机器学习开发预测模型,以预测未来的客户行为。该模型可以帮助公司预测趋势、个性化营销活动并做出明智的长期战略决策。
相比之下,同一项目的数据分析师可能会使用可视化工具创建显示一段时间内的客户行为模式的仪表板。这种绘制历史销售趋势图和参与度指标的能力可以帮助团队优化当前的营销策略或调整产品供应以增加利润。
数据保护
数据保护是保障敏感信息免于数据丢失、窃取和损坏的做法。随着组织在复杂的分布式环境中处理大量敏感数据,数据保护变得越来越重要。
日益增长的网络威胁风险和更严格的数据隐私法规,也使数据保护成为企业和消费者的首要任务。根据最近的一项研究,81% 的美国人都对各个公司如何使用他们收集到的个人数据感到担忧。1
将数据保护作为优先事项也有很强的商业理由。数据泄露成本报告显示,每次数据泄露平均会给组织带来 488 万美元的成本损失,包括业务损失、系统停机、声誉损害和应对工作。
了解有关数据保护的更多信息
数据安全和数据隐私
数据保护有两个重要的子领域:数据安全和数据隐私。两者在保护和管理数据方面发挥着截然不同但又相辅相成的作用。
数据安全涉及保护数字信息免遭未经授权的访问、损坏或盗窃。它涵盖了信息安全的各个方面,包括 Physical Security、组织策略和访问控制。
数据隐私重点关注支持以下一般原则的政策:个人应对其个人数据拥有控制权,包括决定组织如何收集、存储和使用其数据的能力。
数据漏洞
数据面临着许多漏洞和潜在的网络威胁,尤其是随着 AI 功能的进步。
一些最常见的威胁包括:
内部威胁:具有授权访问权限的员工或承包商可能会带来重大风险。 根据《数据泄露成本报告》,恶意内部人员引发的数据泄露平均造成 499 万美元的损失。
社会工程:威胁参与者经常使用网络钓鱼等社会工程攻击来利用人为弱点欺骗个人泄露敏感信息。生成式 AI 工具现在可以制作极具说服力的网络钓鱼电子邮件,从而提高此类攻击的成功率。
勒索软件:网络罪犯使用勒索软件加密组织的数据,并索要赎金以换取解密密钥。医疗保健系统、金融机构和政府数据机构尤其容易受到这些攻击。
云安全:随着云服务的广泛采用,错误配置、不安全的应用程序接口和不完善的访问控制都可能导致公共数据泄漏。根据《数据泄露成本报告》,涉及公共云的数据泄露成本最高,平均为 517 万美元。
数据保护解决方案
各组织使用各种数据保护技术来抵御威胁行为者,并帮助确保数据的完整性、保密性和可用性。
一些最流行的解决方案包括:
加密使用对称加密或非对称加密来保护数据在存储和传输过程中的安全,防止攻击者读取或滥用数据。端到端加密 (E2EE) 专门在数据传输到另一个端点之前对其进行加密,以确保数据在整个传输过程中的安全。
数据备份可定期创建和存储关键数据的副本,以便在数据丢失或损坏时快速恢复,同时最大限度地减少停机时间。
防火墙监控网络流量,是阻止未经授权访问的第一道防线。
身份验证和授权验证用户身份并控制对敏感信息的访问。多因素身份验证 (MFA) 增加了额外的安全层,要求用户提供多种形式的验证。
身份和访问管理 (IAM) 管理用户如何访问数字资源以及他们可以用这些资源做什么,以减少内部威胁并防止未经授权的访问。
防病毒和反恶意软件工具可检测、预防和删除可能危及数据的病毒、间谍软件和勒索软件等恶意软件。
数据丢失预防 (DLP) 工具可监控用户活动并标记可疑行为,以防止未经授权的访问、传输或泄露敏感信息。
数据在人工智能 (AI) 中的作用
72% 的绩效优异的 CEO 都认为,竞争优势取决于是否拥有最先进的生成式 AI。然而,拥有前沿的 AI 只是其中的一部分。如果没有妥善管理和可访问的数据,即使是最强大的 AI 工具也无法充分发挥其潜力。
数据是人工智能进步和成功的基础。AI 系统,尤其是机器学习模型,依赖数据在各行业学习、适应和提供价值。
数据质量和偏见
机器学习模型通过大量数据集上进行训练,并利用这些数据来识别模式和做出决策。难以让数据适配 AI 需求?
AI 模型的训练数据的多样性和数据质量直接影响其性能。如果数据有偏差或不完整,AI 的输出结果就会变得不准确、不可靠。
例如,在医疗保健领域,使用存在偏见的数据集训练的 AI 模型可能无法充分代表某些种族群体,从而导致诊断结果不佳。同样,在招聘中,数据质量不佳可能会导致预测错误,有可能会强化性别或种族刻板印象,并创建偏向某些人口群体而非其他群体的 AI 模型。
简而言之,AI 的好坏取决于它所处理的数据。
通过全面的数据验证和清理来确保高质量的输入,对于构建道德、可靠的 AI 系统,避免偏见长期存在至关重要。
生成式 AI 和数据漏洞
生成式 AI 虽然可以创造有价值的内容,但也带来了新的挑战。AI 模型可能会生成虚假或误导性数据,攻击者可利用这些数据来欺骗系统或个人。
数据的真实性和安全性日益受到关注。最近的一份报告发现,75% 的高级网络安全专业人员发现网络攻击越来越多,其中 85% 的人认为网络攻击的增加是由于不良行为者使用了生成式 AI。2
为了应对这些威胁,许多组织正在转向 AI 安全,利用 AI 本身来自动检测、预防和响应,并加强数据保护。
脚注
所有链接均为 ibm.com 外部链接。
1 美国人如何看待数据隐私,皮尤研究中心,2023 年 10 月 18 日。
2 美国高级官员表示,AI 进步有助长网络犯罪的风险,Reuters,2024 年 1 月 9 日。