BlinkDB:大规模并行查询引擎
BlinkDB 是一个用于在海量数据上运行交互式 SQL查询的 大规模并行查询引擎 。它允许用户通过权衡数据精度来提升查询响应时间,其数据的精度被控制在允许的误差范围内。
为了达到这个目标,BlinkDB 使用两个核心思想:
- 一个自适应优化框架,从原始数据随着时间的推移建立并维护一组多维样本;
- 一个动态样本选择策略,选择一个适当大小的示例基于查询的准确性和(或)响应时间需求。
工具网站:BlinkDB
OpenRefine:电子表格
OpenRefine 可以被描述为一个电子表格,用于初步查看文本和数字数据。与 Excel 一样,它可以导入和导出多种格式的数据,包括制表符和逗号分隔的文本文件。
OpenRefine 具有几个内置算法,可以找到应该组合在一起的文本项。导入数据后,您可以选择 编辑单元格 –> 聚类和编辑 并选择您要使用的算法。在 OpenRefine 运行后,您决定是接受还是拒绝每个提议。例如,您可以同意合并 Microsoft 和 Microsoft Corp.,但拒绝合并 Coach Inc. 和 CQG Inc.。如果提供的提议太少或太多,您可以更改提议功能的强度。
这是一个强劲的数据操作和分析工具,在功能和易用性之间取得了良好的平衡。您已采取的每个操作的撤消/重做列表可让您在需要时回滚。您还可以存储命令历史以再次运行。文本函数处理 Java 语法正则表达式,允许您查找模式(例如,三个数字后跟两个数字)以及特定的文本字符串和数字。
最后,虽然这是一个基于浏览器的应用程序,但它适用于您桌面上的文件,因此您的数据保持在本地。
缺点: 如果您有一个大型数据集,请在一天中抽出一些时间来查看所有 Refine 提议的更改,由于这可能需要一段时间。并且,根据数据集,在寻找要合并的文本项时做好准备:您可能会得到许多误报或遗漏的问题 – 或两者兼而有之。
技能等级: 高级初学者。数据分析概念的知识比技术实力更重大;了解数据清理需求的高级 Excel 用户应该对此感到满意。
运行于: Windows、macOS X(如果在 Mac 上加载后似乎什么都不做,请手动将浏览器指向 http://127.0.0.1:3333/ )、Linux
工具网站:OpenRefine
The R Project for Statistical Computing:统计分析语言
R 最初是一种统计分析语言,它内置了对图形的支持并处理某些常见的数据格式,例如类似电子表格的行和列。数以千计的附加包之后,它还用于地图、仪表板、交互式 Web 应用程序等。
R 中有许多功能,包括相当多的可视化选项以及数值和 空间分析。
缺点: R 在命令行上运行的实际意味着用户必须花时间了解哪些命令执行哪些操作,而且并非所有用户都会对纯文本界面感到满意。一些人依旧抱怨该语言速度很慢,尽管爱好者反驳说这通常可以通过更好的代码和企业级大数据工具(例如 Microsoft R Server )来解决。
技能等级: 中级到高级。熟悉命令行提示和了解统计知识是核心应用程序的必备条件。
运行于: Linux、macOS X、Unix、Windows
工具网站:The R Project for Statistical Computing
D3.js:数据可视化
D3(Data-Driven Documents 或 D3.js)是一个 JavaScript 库 , 用于使用 Web 标准将数据可视化 。D3 协助你使用SVG、 Canvas 和 HTML 将数据变为现实。D3 将强劲的可视化和交互技术与数据驱动的DOM操作方法相结合,让你拥有现代浏览器的全部功能,并可以自由地为您的数据设计合适的可视化界面。
D3是数据驱动文档的缩写,它充分利用了更新的Web标准,以协助用户创建有趣的图形和图表,并使数据栩栩如生。它源自较早的Protovis项目。
作业系统: Windows,Linux,Mac,iPad
工具网站:D3.js
GraphVis :基于javascript开发的原生前端组件库
GraphVis 图可视化分析组件库是一款 基于javascript开发的原生前端组件库 。一个较为完善的图可视化引擎,支持自定义的可视化效果,集成多种经典网络布局算法,社区发现算法,路径分析算法,方便使用人员或开发者快速构建自己的图可视化分析应用。
工具网站:GraphVis
开发文档:GraphVis开发指南
组件优势:
1、开源,基于canvas的可视化库、布局算法库、聚类算法库均开源可用,有丰富的使用示例。
2、使用简单,设置配置传入数据后会自动进行可视化关系数据展示。
3、算法丰富,提供了默认的网络分析算法、图布局算法、聚类分析算法等扩展组件库。
4、支持定制化开发,开放定制化接口,开发人员可以根据业务需要定制化开发节点、连线效果,而无需管理复杂的事件处理和算法细节。提升开发效率。
GraphVis在线编辑示例代码,即时预览编辑后的代码效果,便于开发人员进行调试和代码拷贝使用。
代码编辑器地址:在线调试预览工具
更多效果图参见:GraphVis可视化模板
go-charts:基于 go-chart 生成数据图表
go-charts基于 go-chart 生成 数据图表 ,无其它模块的依赖纯golang的实现,支持svg与png的输出,Apache ECharts在前端开发中得到众多开发者的认可,go-charts兼容Apache ECharts的配置参数,简单快捷的生成类似的图表(svg或png),方便插入至Email或分享使用。
特性:
- 简洁的 API 设计,使用如丝滑般流畅
- 囊括了 25 种常见图表,应有尽有
- 高度灵活的配置项,可轻松搭配出精美的图表
- 详细的文档和示例,协助开发者更快的上手项目
- 多达 400 地图,为地理数据可视化提供强有力的支持
支持图表类型:line, bar 以及 pie
简单的图表生成PNG在20ms左右,而SVG的性能则更快,性能上比起使用chrome headless加载echarts图表展示页面,截图生成的方式大幅度提升,基本能满足简单的图表生成需求。
演示地址:go-charts
仓库地址:go-echarts
Vimium :vim浏览器扩展
Vimium 是一个浏览器扩展, 可以将浏览器采用 vim 模式操作 。支持 Chrome 与 Firefox。
Vimium是Vim和 Chromium的结合,Vim是linux中让你脱离鼠标编辑文本的利器,同样Vimium是让你脱离鼠标就能上网的终极利器,你不用移动鼠标就能跳转页面,切换标签,打开历史记录,打开书签等等。
快捷键对照表
工具地址:http://vimium.github.io/
Mogo:日志分析和查询平台
Mogo 是一个轻量级的基于浏览器的 日志分析和查询平台 ,可以配合 ClickHouse、MySQL 等多种数据源使用。
架构文档:
https://mp.weixin.qq.com/s/7SfZWo-J7M2lPuOaWvbCAA
使用文档:
https://mogo.shimo.im/doc/AV62KU4AABMRQ
项目地址:
https://github.com/shimohq/mogo
特性:
- 提供了可视化的查询面板,可查询命中条数直方图和原始日志
- 配置好需要计算比率的字段后,可查看字段不同值占比
- 提供了可视化的 VS Code 风格配置中心,可以便捷地将 fluent-bit 配置同步到 Kubernetes 集群ConfigMap 中
- 支持 GitHub 和 GitLab 授权登录
架构
日志查询界面
可视化配置界面
PostHog:开源产品分析平台
PostHog 是一个为开发人员构建的 开源产品分析平台 。自动收集你网站或应用程序上的每个事件,无需向第三方发送数据。它在用户级别提供基于事件的分析,捕获你产品的使用数据以查看哪些用户在你的应用程序中执行了哪些操作。它会自动捕获点击次数和综合浏览量,以分析你的用户在做什么,而无需手动推送事件。
工具地址:PostHog
使用文档:PostHog 文档
PostHog 支持会话录制以观看用户行为的视频,并具有细粒度的隐私控制。它还具有将你的产品使用数据与其他系统(如 CRM 或数据湖)集成的插件。
特点:
- 用户层面的基于事件的分析:捕捉你的产品的使用数据,看哪些用户在你的应用程序中做什么;
- 产品数据可视化:图表、用户群、用户路径和仪表盘;
- 对你的数据进行完全控制;
- 会话记录,观看你的用户行为的视频,有细粒度的隐私控制;
- 自动捕捉点击和页面浏览,分析你的用户在做什么,而不需要手动推送事件;
- 在更广泛地推出新功能之前,用功能标志来了解其影响;
- 用 PostHog 工具条绘制热图;
- 将你的产品使用与其他系统(如 CRM)或数据湖整合的插件;
- 为 JS、Python、Ruby、Node、Go、Android、iOS、PHP、Flutter、React Native、Elixir 提供现成的库;
- 使用 Docker 或 Heroku 进行超级简单的部署。
Gitinspector:git 仓库的统计分析工具
Gitinspector 是一个 用于 git 仓库的统计分析工具 。默认分析显示每位作者的常规统计数据,可以辅之以显示每位作者的工作量和活动的时间线分析。在正常操作下,它会过滤结果以仅显示有关多个给定扩展名的统计信息,并且默认情况下仅在统计分析中包含源文件。
工具地址:Gitinspector
功能:
- 显示历史中每位作者的累积工作
- 按扩展名过滤结果(默认:java、c、cc、cpp、h、hh、hpp、py、glsl、rb、js、sql)
- 可以显示统计时间线分析
- 扫描存储库中找到的所有文件类型(按扩展名)
- 多线程;在可能的情况下使用多个 git 实例来加速分析
- 支持 HTML、JSON、XML 和纯文本输出
- 可以报告违反不同代码指标的情况
Antares SQL:数据库管理工具
Antares SQL 是一个开源的简单但是功能齐备的 数据库管理工具 ,支持多种数据库(MySQL/MariaDB, PostgreSQL 和 SQLite)。
Antares SQL 开发的理念是创建一个功能齐全的工具,快速且具有现代直观的 UI。只需点击几下即可访问所有功能,而无需在数十个下拉菜单中进行搜索;生产力是第一位的。
工具地址:Antares SQL
特点:
- 支持同时连接多个数据库
- 数据库管理
- 完全的表管理支持,包括索引和外键
- 支持视图、触发器、存储过程、函数和调度管理
- 友善的界面
- 支持测试数据生成
- 查询提议和自动完成
- 查询历史记录
- 支持 SSH 连接
- 黑夜主题
- 编辑器主题
- Scratchpad.
- 安全密码存储
RedIsland Redis:Redis 图形管理器
开源免费的 Redis 图形管理器 ,并自带 Lua 脚本编辑器且可调试 Lua 脚本。
Overleaf :LaTeX 编辑器
Overleaf 是一个开源的在线实时协作的 LaTeX 编辑器 。可以免费注册和使用,不用下载LaTeX软件,是最为著名的LaTeX在线协作系统。主要特色是有LaTeX插件,编辑功能十分完善,有实时预览(即编即看,无需手动编译)的功能。科研工作者可以在各大期刊的网站上下载到其Overleaf模板,进行论文写作(不同模板的排版方式(列如“作者”和“地址”)的格式不同)。
工具地址:Overleaf
Overleaf里有个mian.tex文档,主要编写这个文件。可以目前word中把内容写好,再往Overleaf里粘贴。用ctrl+s,就可以即时编译,即时生成,特别方便。当然,它也是支持多人协同编写的。
使用教程:Overleaf—使用教程
特性:
- 协作:在单个版本上协同工作,实时查看合作编辑的内容。
- 使用方便:没有复杂的LaTeX安装。你需要的所有包和模板。
- 文档历史:查看已添加和删除的内容,恢复到任何旧版本。
- 随时随地工作:可离线工作,通过Dropbox和GitHub同步你的文件
Red Panda Dev C++:C/C++ 集成开发环境
Red Panda Dev C++ 是一个小巧的开源 C/C++ 集成开发环境 ,基于 Dev-C++ 开发,超级适合于C/C++ 语言的初学者使用,但是到2015年后已停止开发。
使用说明:Red Panda Dev C++
特点:
- 优化改善代码补全提示功能
- 在输入回车时检查语法错误,并在错误处用波浪线标记
- 用户编辑界面增强和改善
- 重新设计并改善调试功能
- 改善结构浏览器
- 自动链接功能:可以根据用户代码中包含的头文件决定编译时链接哪些库文件
- 在运行和调试主控台程序时,可以用一个数据文件取代标准输入(键盘输入)。这样可以减少调试程序时- 反复输入数据的麻烦
- 集成EGE绘图库和海龟作图库及其项目模板,以提升初学者的学习兴趣
- 支持打开、编辑和编译UTF-8编码的源代码文件。
- 增加 重构->符号重命名 功能。
- GCC 9.2和GDB 9.2(Mingw.org版,兼容Windows XP。6.3-beta2版本开始改为mingw-w64 gcc 10.2)
- 兼容Windows XP/Windows 7/Windows 10
- 支持Windows 7/Windows 10高DPI
结构视图
代码自动完成提示
- 最新
- 最热
只看作者