20个有效的数据科学日常任务提示
让我们直接开始提示。
数据清洗和预处理:
作为数据分析师,对数据集【数据集名称】进行分析,识别出缺失值、异常值和重复条目。提出处理这些问题的策略,以准备数据进行分析。
探索性数据分析(EDA):
作为一名数据科学家,探索一个新的数据集。总结数据集[数据集名称],包括其规模、结构和关键变量的分布。强调观察到的任何有趣的相关性或模式。
特征工程
作为一名机器学习工程师,为数据集【数据集名称】创建新的特征,以提高预测模型的性能。描述每个新特征的理论依据。
数据可视化
作为一名数据可视化专家,设计直方图、散点图和热力图等可视化图表,有效传达对于【数据集名称】进行的探索性数据分析的发现。
统计分析
作为一名统计学家,对数据集[数据集名称]进行分析。进行假设检验,以确定在[变量]方面,[A组]和[B组]之间是否存在统计学上的显著差异。
模型选择:
担任一名数据科学顾问的角色,任务是根据[数据集名称]中的特征选择最佳的机器学习模型来预测[目标变量]。讨论至少三种模型的优缺点。
模型训练
作为一名机器学习专家,对【数据集名称】进行模型训练。概述数据预处理、将其分割为训练集和测试集以及训练【模型类型】模型的步骤。
模型评估
作为机器学习评估者,评估[模型类型]在[数据集名称]的测试集上的性能。计算准确率、精确率、召回率和F1分数,并解释这些指标。
超参数调优
充当一个机器学习工程师,对数据集[数据集名称]优化[model类型]。描述一个用于超参数调整的策略,包括参数选择和调整方法。
交叉验证
在保留HTML结构的基础上,将以下英文文本翻译为简体中文: “作为数据分析师,使用[model type]对[dataset name]进行交叉验证。解释交叉验证的过程以及它如何帮助评估模型的泛化能力。”
预测分析
作为预测分析师,使用经过训练的【模型类型】在数据集【数据集名称】上进行预测。为接下来的【时间段】提供预测,并讨论这些预测的可信度。
文本分析:
作为一个自然语言处理专家,在[数据集名称]中分析文本数据。进行情感分析、主题建模和关键词提取,以从文本数据中揭示洞察。
时间序列分析
作为一个时间序列分析师,使用数据集[数据集名称]。应用ARIMA/SARIMA模型来预测未来的[时间段]内的[目标变量],并讨论模型的假设和置信区间。
异常检测
“作为数据科学家,对于【数据集名称】进行分析,识别异常情况。使用【指定方法】来检测数据集中的离群值和潜在异常,并提出可能的解释。”
聚类分析
作为一名机器学习工程师,对数据集[数据集名]执行聚类分析。使用[指定的聚类技术]识别数据中的自然分组,并解释每个簇的特征。
降维:
作为数据分析师,应用主成分分析(PCA)/t分布随机邻近嵌入(t-SNE)将数据集[数据集名称]进行降维处理。解释这个过程以及它如何促进可视化和模型性能。
数据整合
担任数据工程师,整合多个数据集以进行全面分析。描述将[数据集A]和[数据集B]合并的过程,包括处理不一致性并确保数据质量。
自动化数据管道
充当数据工程师,设计一个自动化的[数据集名称]数据处理和分析的流水线。概述流水线的组成部分,包括数据摄取、清洗、转换和存储。
部署机器学习模型:
作为一个机器学习工程师,部署一个在[数据集名称]上训练好的[model type]模型。描述部署的步骤,包括模型序列化、创建预测 API 和监测模型性能。
数据科学中的道德考虑
作为伦理学家,在数据科学项目中应对伦理考虑。讨论如何处理包括隐私、偏见和公正在内的敏感数据,提出伦理数据科学的最佳实践。
还有更多:
现在,通过我们在Gumroad上的简明电子书“数据科学专业人员的前50个+超级提示”,提升你的数据科学技能。【使用代码“RICHARD50”在2月7日前享受50%的折扣。】
抓住你的副本:数据科学专业人员的50多个超级提示。
从初学者到专家,通过数据清洗、模型部署等基本技能的掌握,进而提升自己的能力。
加入一个先锋社区,从今天开始重新塑造您的数据命运。您的数据科学掌握之旅从现在开始。
一些更多的ChatGPT电子书:
- Top 50+ ChatGPT角色人设,用于自定义指令
- ChatGPT用于学习数据科学
加入我的学习社群!订阅我的通讯,获取有关精通数据科学和人工智能的更多技巧、窍门和独家内容。- https://yourdataguide.substack.com/
⭐️ 访问我的Gumroad商店:https://codewarepam.gumroad.com/