数据集笔记:Stravl-Data
Stravl-Data是全球最大的开源旅行偏好数据集,收集了80,301名旅行者的度假偏好数据。用户通过表单填写旅行限制条件(预算/季节/年龄)和偏好(体验类型/景观/活动强度),并以类似Tinder的滑动评分方式对目的地进行评价。系统通过机器学习模型推荐5-10个目的地,并收集用户反馈。数据集包含表单响应、滑动评分和推荐评分三部分,所有个人身份信息均已匿名化处理。该数据集为研究个性化旅行推荐提供
- Stravl-Data 是目前全球最大的开源旅行偏好数据集。
- 通过面向用户的网站共收集了 80,301 名旅行者的度假偏好
- 用户被要求填写一份简短的表单,说明他们理想假期的偏好(如期望的体验、景观类型和活动强度)以及实际限制条件(如预算、旅行者年龄和出行季节)。
- 随后,用户需对十个目的地进行“滑动”或“打分”,评分方式类似于 Tinder 的形式,用户可以选择“喜欢(Yes)”、“不喜欢(No)”或“可能(Maybe)”。
- 最后,系统会基于不同的机器学习模型为用户推荐 5 到 10 个目的地,并记录用户对这些推荐的反馈(通过点击推荐旁边的“笑脸”或“苦脸”图标进行反馈)
- 在数据发布前,所有与个人身份有关的信息(如 IP 地址、用户名或其他元数据)都已被删除。
表单响应(Form Responses):
| FORM_A: |
您的旅行团体中有哪些年龄段?[可多选]
|
| FORM_B: |
每人每晚的旅行预算是多少?
|
| FORM_C: |
您计划在哪个季节旅行?
|
| FORM_F: |
您希望获得哪些旅行体验?[鼓励多选]
|
| FORM_G: |
您偏好的景观类型?[鼓励多选]
|
| FORM_H: |
活动强度
|
| FORM_I: |
安全意识
|
| FORM_J |
目的地受欢迎程度
|
| FORM_R |
您想去哪里?
|
| FORM_RR |
如果选择“特定地区”,请选择具体区域 [可多选]:
|
滑动评分(Swipe Responses):
字段 yes_swipes、no_swipes 和 maybe_swipes 各包含一个索引列表,分别对应用户对目的地滑动选择“喜欢”、“不喜欢”或“可能”。这些索引可通过 destination_ids 表转换为实际的目的地名称。
推荐与评分(Model, Recommendations, and Ratings):
用户会收到一组 5 个(或选择更多时为 10 个)推荐目的地。这些推荐由不同算法生成,相关字段包括 model、retrieval 和 dynaMatch,分别表示使用的推荐算法。
推荐相关字段中记录了各推荐目的地的名称,顺序即为推荐顺序;若某列包含 -1,表示该用户完成表单时系统尚未记录推荐结果。
评分字段记录了用户对推荐结果的反馈:
-
1表示喜欢 -
-1表示不喜欢 -
空值表示未评分
若所有 10 个评分字段均为-1,表示该用户填写时评分机制尚未启用。


更多推荐


所有评论(0)