浏览器市场与用户画像数据加工
标签#助睿数智 #商业数据分析 #数据集成 #ETL #用户行为分析 #浏览器数据分析 #零代码数据处理一、实验背景1.1 实验目的本次实验依托助睿数智Uniplore一站式数据科学实验平台开展零代码ETL数据加工实操核心学习与实操目标如下1. 熟悉半结构化用户行为日志的数据特征、文件命名规则与字段含义掌握文本日志解析、字段拆分、数据规整的实操技能2. 掌握零代码结合Java代码组件的混合ETL处理思路实现零散TXT原始日志向标准结构化数据表的转换入库3. 熟练运用平台过滤、排序、分析查询、计算器、分组聚合、表输出等核心组件完成数据清洗、字段衍生、多维度指标聚合4. 完成浏览器市场格局、分时活跃度核心指标加工搭建适配用户画像与市场分析的基础指标体系为后续可视化分析、用户行为挖掘奠定数据基础。1.2 实验环境1. 实验平台助睿数智Uniplore一站式数据科学实验平台平台地址https://lab.guilian.cn/2. 平台介绍该平台是覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路零代码数据智能平台具备200ETL处理组件可可视化搭建数据处理流程适配教学与企业数据加工场景产品官网https://www.uniplore.com/3. 数据环境MySQL数据库团队私有数据库、线上公共只读数据源4. 实验数据基于首届中国互联网数据挖掘竞赛公开数据集包含1000名用户4周电脑使用行为数据累计800万条行为记录总数据量约825MB。数据分为用户属性表demographic.csv和海量TXT半结构化行为日志通过user_id实现跨表关联实验选取20条样本日志完成全流程实操同时调用全量公共数据完成指标统计。1.3 整体处理流程本次实验整体遵循数据采集-结构化入库-数据清洗-字段衍生-维度聚合-指标落地的标准ETL流程。首先在平台创建实验项目导入原始日志数据通过Java代码组件对半结构化TXT日志进行解析、字段拆分生成结构化行为明细表再对明细数据进行清洗过滤筛选主流浏览器行为数据计算用户窗口停留时长、使用时段等衍生指标最后通过多维度分组聚合分别生成浏览器市场格局统计表、分时活跃统计表完成本次数据加工任务。二、实验步骤2.1 实验项目创建与原始数据导入操作说明登录助睿数智平台新建专属实验项目创建数据存储目录导入公共空间的实验日志数据。配置要点进入平台数据集成页面点击「新建项目」命名为「互联网用户行为日志数据加工」并保存打开项目后进入文件库右键根目录新建目录「互联网用户行为日志数据集」进入公共空间数据资源筛选实验所需的20个TXT日志文件逐一导出至自建目录完成原始数据本地化存储。2.2 创建用户行为明细数据表操作说明新建转换工作流通过SQL脚本创建结构化行为日志存储表用于存放解析后的全量用户行为数据。配置要点新建工作流并命名为「创建原始行为日志数据表」拖拽「执行一个SQL脚本」组件数据库连接选择「团队私有数据库」输入建表SQL语句执行转换流完成数据表创建。CREATE TABLE behavior_events ( id BIGINT AUTO_INCREMENT PRIMARY KEY COMMENT 自增主键, session_id VARCHAR(255) COMMENT 会话唯一ID, user_id VARCHAR(100) COMMENT 用户ID, session_start_time VARCHAR(50) COMMENT 会话开始时间, event_seconds INT COMMENT 事件发生秒数, process_name VARCHAR(255) COMMENT 进程名称, process_id VARCHAR(100) COMMENT 进程ID, url TEXT COMMENT 访问网址, addr_handle VARCHAR(255) COMMENT 地址栏句柄, tab_handle VARCHAR(255) COMMENT 标签页句柄, browser_version VARCHAR(100) COMMENT 浏览器版本, window_handle VARCHAR(255) COMMENT 窗口句柄, app_name VARCHAR(255) COMMENT 程序名称, company_name VARCHAR(255) COMMENT 开发公司, source_file VARCHAR(255) COMMENT 原始日志文件名, create_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP COMMENT 入库时间, INDEX idx_session_id (session_id), INDEX idx_user_id (user_id) ) COMMENT 用户行为事件明细表;2.3 半结构化日志结构化解析入库操作说明搭建ETL核心链路通过获取文件名、Java代码解析、字段筛选、表输出组件完成半结构化TXT日志的结构化转换与入库。配置要点1. 新建工作流「行为日志数据转为结构化数据」拖拽「获取文件名」组件绑定自建的日志数据集目录批量读取所有TXT文件2. 连接「Java代码」组件写入日志解析代码实现文件名解析、头部无效数据跳过、按固定分隔符拆分日志字段提取用户ID、行为时间、进程信息、访问网址等核心数据3. 在Java组件中配置全部输出字段统一为String类型确保字段与数据表结构匹配4. 新增「字段选择」组件剔除平台自带的冗余字段保留业务核心字段5. 新增「表输出」组件绑定团队私有数据库与behavior_events表开启裁剪表与字段映射执行工作流完成数据入库。2.4 全局进程数据统计锁定分析目标操作说明统计所有软件进程的用户使用量通过BI可视化筛选出用户覆盖率最高的浏览器作为核心分析对象。配置要点1. 新建SQL转换流创建进程统计表program_stats2. 搭建「表输入-字段选择-空值替换-排序-分组-表输出」链路统计每个软件进程的去重用户数3. 进入助睿BI模块新建数据集与水平条形图按用户数量降序展示所有软件使用情况4. 确定iexplore.exe、360chrome.exe、chrome.exe等六大主流浏览器为本次核心分析对象。2.5 新建浏览器分析指标统计表操作说明提前创建两大核心业务统计表用于存储后续聚合的浏览器市场、分时活跃度指标。配置要点新建两个SQL转换流分别创建browser_coverage浏览器用户与时长统计表、browser_hourly浏览器分时活跃统计表执行SQL完成数据表初始化。-- 浏览器用户覆盖率与总时长统计表 CREATE TABLE browser_coverage ( browser_name VARCHAR(50) NOT NULL COMMENT 浏览器进程名, user_count INT NOT NULL COMMENT 使用用户数去重, total_duration_sec BIGINT NOT NULL COMMENT 总使用时长秒 ) ENGINEInnoDB DEFAULT CHARSETutf8mb4 COMMENT浏览器用户覆盖率与总时长; -- 浏览器分时活跃用户统计表 CREATE TABLE browser_hourly ( browser_name VARCHAR(50) NOT NULL COMMENT 浏览器进程名, hour TINYINT NOT NULL COMMENT 小时0-23, active_user_count INT NOT NULL COMMENT 活跃用户数, PRIMARY KEY (browser_name, hour) ) ENGINEInnoDB DEFAULT CHARSETutf8mb4 COMMENT浏览器按小时活跃用户数;2.6 全量数据清洗与多维度指标聚合操作说明基于线上公共全量行为数据完成数据清洗、衍生指标计算、维度分组聚合落地两大业务指标表。配置要点1. 新建清洗转换流通过「表输入」读取线上公共数据源全量behavior_events数据2. 精简字段仅保留用户ID、进程名、会话时间、行为秒数等核心字段3. 通过「过滤记录」组件筛选六大主流浏览器数据丢弃无效进程数据4. 按会话ID、行为时间排序通过分析查询、计算器组件计算单窗口用户停留时长5. 过滤掉时长≤0的无效数据通过字符串截取、字段转换、时间提取生成使用日期、小时维度字段6. 按用户、日期、浏览器、小时精细化分组统计基础使用数据7. 分双分支聚合分支一按浏览器聚合用户数、总使用时长写入browser_coverage表分支二按浏览器小时聚合活跃用户数写入browser_hourly表。2.7 数据结果校验操作说明加载数据库元数据查询两张业务统计表验证数据完整性与准确性。配置要点进入元数据模块刷新团队数据库通过数据探查功能查询两张目标表确认无空数据、数据维度匹配、指标统计合理。三、实验结果3.1 实验输出结果本次实验最终生成三张有效业务数据表全部成功入库团队私有数据库1.behavior_events用户行为明细表完成800万条半结构化日志的结构化转换包含会话信息、用户信息、软件进程、访问行为、使用时长等全维度明细字段是所有分析的基础数据源2.browser_coverage浏览器市场格局表统计出六大主流浏览器的去重使用用户数量、累计总使用时长直观反映各浏览器的市场覆盖规模与用户使用强度3.browser_hourly浏览器分时活跃度表统计24小时内各浏览器的活跃用户数量精准记录不同时段的用户使用偏好数据。3.2 结果简要分析1. 从用户覆盖维度来看Chrome浏览器、360系列浏览器的用户数量遥遥领先是本次样本中用户覆盖率最高的两款浏览器市场普及度更高2. 从使用时长维度来看主流浏览器的累计使用时长远高于小众浏览器说明用户粘性更强是用户日常上网的核心工具3. 从分时数据来看不同浏览器的活跃高峰存在明显差异可清晰区分工作时段、休闲时段的用户使用偏好为后续用户画像、产品运营分析提供了有效数据支撑4. 所有数据无缺失、无重复、无异常负值字段映射准确指标统计逻辑合理完成了本次数据加工的全部预期目标。五、实验总结5.1 实验收获通过本次互联网用户行为日志数据加工实验我熟练掌握了半结构化日志ETL全流程处理方法突破了纯零代码组件的使用局限学会了零代码组件Java代码混合开发的数据处理模式能够独立完成TXT文本日志解析、字段拆分、结构化入库的完整操作。同时我掌握了数据清洗、空值替换、字段衍生、排序去重、多维度分组聚合、跨数据源读取等核心ETL实操技能理解了用户行为数据、时序数据的加工逻辑学会从海量原始数据中提炼业务指标搭建浏览器市场分析、用户分时使用习惯分析的指标体系为后续用户画像、可视化大屏、数据分析建模打下了扎实基础。5.2 平台使用评价本次使用的助睿数智Uniplore一站式数据科学实验平台功能完善、操作便捷平台搭载200零代码ETL组件可视化拖拽式操作大幅降低了大数据处理的入门门槛无需大量编程即可完成企业级的数据集成与加工任务。平台支持Java代码自定义拓展、公共数据集复用、BI可视化一键分析兼顾教学实操性与企业项目实用性非常适合大数据、数据分析相关课程的实验学习。5.3 实验心得本次实验让我深刻认识到真实业务数据大多为半结构化、非结构化零散数据数据清洗、规整、结构化是数据分析的核心前提。数据分析不仅是简单的数据统计更需要结合业务场景设计指标、优化数据处理逻辑通过不断排查报错、优化流程有效提升了我的问题排查能力与数据思维。