📘
R语言提示词集合
以下汇总了医学研究中常用的R语言提示词,涵盖数据处理、统计分析、可视化、机器学习等多个场景
1 📂 数据处理
数据导入
Prompt: 请帮我编写R代码读取以下数据: 1. Excel文件(.xlsx格式) 2. CSV文件(UTF-8编码) 3. SAS数据集(.sas7bdat格式) 文件路径:./input/data.xlsx 要求:检查数据导入是否成功,显示前5行和列名
数据清洗
Prompt: 我有以下数据清洗需求: 1. 删除所有列全部为NA的行 2. 将"年龄"列中的负值替换为NA 3. 将"性别"列的值标准化为"Male"/"Female" 4. 检测并标记异常值(超出3倍标准差) 5. 输出清洗报告(清洗前后的行数对比)
数据合并
Prompt: 我有两个数据集: 1. baseline_data:包含患者基线信息(patient_id, age, gender) 2. followup_data:包含随访数据(patient_id, visit_date, outcome) 请按patient_id进行左连接,保留所有基线信息 要求:只保留随访数据中存在的患者
2 📊 统计分析
Table 1 基线特征表
Prompt: 请帮我生成Table 1(基线特征表)的R代码: 数据集:clinical_data 分组变量:treatment_group(Treatment vs Control) 要求: 1. 连续变量:Mean±SD(正态)或Median(IQR)(非正态) 2. 分类变量:n(%) 3. 组间比较:t检验/Wilcoxon/卡方/Fisher精确检验 4. 整理为可发布的三线表格式 使用包:tableone或 CreateTableOne
回归模型
Prompt: 请帮我构建以下回归模型: 结局变量:mortality(二分类) 自变量:age, gender, bmi, sbp, dbp, diabetes 要求: 1. 单变量回归(每个自变量单独) 2. 多变量回归(调整所有变量) 3. 计算OR值和95%置信区间 4. 提取P值并格式化(<0.001显示为"<0.001") 5. 输出为Forest Plot
生存分析
Prompt: 请编写生存分析的R代码: 数据包含:time_to_event(天), event(1=死亡, 0=存活), treatment 要求: 1. 绘制KM生存曲线(按treatment分组) 2. Log-rank检验 3. Cox比例风险模型(单变量和多变量) 4. 检验比例风险假设 5. 输出HR值和95%CI的Forest Plot
3 📈 数据可视化
散点图+回归线
Prompt: 请绘制散点图: X轴:age Y轴:sbp(收缩压) 要求: 1. 添加线性回归线 2. 添加95%置信区间 3. 按gender分组用不同颜色 4. 添加相关性系数和P值 5. 使用ggplot2,风格简洁专业 6. 中文标题和轴标签
箱线图
Prompt: 请绘制箱线图比较不同组别的BMI: 分组:treatment_group Y轴:bmi 要求: 1. 显示散点(jitter) 2. 添加P值注释 3. 使用发表级配色 4. 标注样本量 5. 使用ggplot2
热图
Prompt: 请绘制相关性矩阵热图: 数据:correlation_matrix(已计算好的相关系数) 要求: 1. 使用pheatmap包 2. 显示相关系数数值 3. 用星号标注显著性(*p<0.05, **p<0.01, ***p<0.001) 4. 使用颜色渐变(蓝-白-红) 5. 添加聚类树状图
4 🤖 机器学习
LASSO回归
Prompt: 请编写LASSO回归的R代码进行变量筛选: 数据:predictors_X(20个候选变量), outcome_Y 要求: 1. 使用glmnet包 2. 交叉验证选择最优λ 3. 绘制系数路径图 4. 输出被选中的变量 5. 在测试集上评估模型性能(AUC)
随机森林
Prompt: 请编写随机森林分类的R代码: 结局:binary_outcome predictors:15个变量 要求: 1. 使用randomForest包 2. 设置随机种子确保可复现 3. 计算变量重要性 4. 绘制重要性排序图 5. 在测试集上评估(混淆矩阵、AUC)
5 📄 报告生成
R Markdown报告
Prompt: 请帮我创建一个R Markdown模板: 用途:临床试验数据分析报告 要求: 1. 包含:摘要、方法、结果、讨论 2. 自动生成表格和图表 3. 内嵌R代码和输出 4. 输出为HTML和PDF两种格式 5. 使用prettydoc主题(cayman)
表格格式化
Prompt: 请将回归结果格式化为发表级表格: 数据:cox_model_summary 要求: 1. 变量名称缩写(如:age_gender → Age/Gender) 2. HR值保留2位小数 3. 95%CI格式:(1.23 to 4.56) 4. P值格式化(<0.001显示为"<0.001") 5. 使用kable或gt包输出 6. 添加表格标题和注释
🔧 常用R包速查
数据处理
- dplyr: 数据操作
- tidyr: 数据整理
- data.table: 大数据处理
- haven: SAS/STATA数据
统计分析
- survival: 生存分析
- survminer: 生存曲线
- tableone: Table 1
- finalfit: 回归表格
可视化
- ggplot2: 图形语法
- cowplot: 图形组合
- patchwork: 多图拼接
- pheatmap: 热图
报告生成
- knitr: R报告引擎
- kableExtra: 美化表格
- gt: 声明式表格
- officer: Word文档
💡 提示词使用技巧
- • 明确目标:告诉AI你想实现什么,而不只是"帮我写代码"
- • 提供上下文:说明数据结构和变量类型
- • 指定包:如果偏好某个R包,明确说明
- • 要求注释:让AI添加详细注释,便于理解
- • 分步骤:复杂任务拆分成多个小问题
- • 验证结果:AI代码可能出错,务必验证输出