This commit is contained in:
Jane
2023-12-22 10:59:10 +08:00
parent 751c43e199
commit d1ede2d4aa
2774 changed files with 291509 additions and 0 deletions

View File

View File

View File

@@ -0,0 +1,146 @@
# 2023年度社区分享
```markdown
AllData开源社区 ✖️ Datavines ✖️ 跑象科技 Meetup
主要介绍AllData产品的技术及其应用场景
同时我们会邀请业内同行做嘉宾分享,让参与者有机会与嘉宾和其他社区成员互动。
后续我们会继续分享AllData数字化上游生态和下游支撑平台的专题分享。
```
## 01 分享嘉宾介绍
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/ccf3deb0-fe5e-4384-bf92-a0d8b1416e5f">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/36547083-18bf-4af0-9f26-b939c1699296">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/7b89e6bb-7c46-408e-a308-50e307f0cbc8">
<br/>
## 02 AllData分享
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/32e793dc-7d17-466f-b6aa-7aa23367484c">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/acdc09aa-d704-472e-86d5-892e5e1474ed">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/16d9add0-d772-4785-a671-3c1e9c5f4b2f">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/1bb0cc1d-8ad1-4239-acac-8b59eab1824a">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/1f98910b-a672-4ee0-a277-db68dec5161a">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/4c1b82d3-3582-4896-b0eb-b450ad74cb77">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/0afafffe-49cd-44dc-a4bd-f65296db68d8">
<br/>
## 03 Datavines分享
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/868a41df-87c5-4fd5-a6c5-add7c2797b0f">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/70baf309-519d-42b4-a14e-cb8df7be29ee">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/23fb0238-94f6-4f7d-985d-048d6c182580">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/8243a579-4d6a-414e-94ea-4fbf6493282c">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/a951f8e8-18a5-4c1a-bc18-26c40de8e2d9">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/044cd7aa-b82c-4556-9ecc-715c28a9ed2d">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/a04eae39-f932-4dfd-8c9e-1983ee977fa6">
<br/>
## 04 Datart分享
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/aed13016-9991-4a0a-96c5-d584e055a2e0">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/f3f8e701-68e6-420b-bc0b-cd6e676ccd08">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/19e1bc0a-ccb9-4958-a94a-bb714d0f4f5b">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/deace393-1a88-41f7-91ea-691f5c908780">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/15fcd3fc-eb5f-4df7-9755-dd195e9e2349">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/7eee3cb7-dfc3-4b7f-91a6-dad5cf901aa5">
<br/>
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/108bd71f-412a-44ec-af46-0daf93414fa6">
<br/>
## 05 Apache StreamPark作者分享
<br/>
<img width="1215" alt="image" src="https://github.com/alldatacenter/alldata/assets/20246692/b6f6a95d-a56b-4f0f-adf7-705c23a7056b">
<br/>
```markdown
StreamPark作者王华杰给AllData社区带来了较多问题较多的分享
问题一:如何建设一款社区&&商业成功的开源平台
回答:从可用版本,到好用版本,到可规模化,真正解决客户场景的问题,让客户用在实际场景。
问题二如何用一句话定义AllData
回答:一站式的数据中台,提供能力开放的数据中台。
问题三有没有哪一块是AllData的核心优势能在客户选型阶段必定会拿出来对比竞争的核心功能比较拔尖出类拔萃的功能
回答AllData社区目前的功能正在集成阶段后续会出更多贯穿场景的闭环功能。
```

View File

@@ -0,0 +1,7 @@
alldata
=================================
.. toctree::
:maxdepth: 2
README

View File

View File

@@ -0,0 +1,93 @@
# AllData社区与Dinky社区分享
### AllData社区发起人邀请Dinky的作者文末aiwenmo对AllData社区建设进行分享和宝贵建议
### Dlink为Apache Flink而生让Flink SQL尽享丝般顺滑致力于实时计算平台的构建
### Dinky项目https://github.com/DataLinkDC/dlink
### AllData项目https://github.com/alldatacenter/alldata
### 感谢社区成员@yg9538的会议纪要
- **第一:如何激发社区对用户来参与到项目的建设,一起推动项目的发展?**
- **第二:完成整个项目的基本功能路线,流程是如何的?**
**我首先回答第二个问题。首先AllData用到的技术栈包括我们所设想的整个流程是非常全面丰富的。但然凡事都是有利有弊的技术栈的全面会导致各个技术功能点实现复杂度增高。**
### 2.1 最小MVP
**对于第一个问题其实跟第二个问题是非常有关系的。当我们具备了一个可使用的一个MVP最小可行性产品时候用户将产品用在测试或者生产实践将会给项目带来极大的益处**
**最大的好处是用户将会主动参与到我们那个项目的推动中。比如说项目的在实践中进行的测试和提出的ISSUE作为项目经验必不可少其次用户在实际生产中遇到的二开需求对于我们整个项目提升也是有极大的帮助。**
### 2.2 门户与KM知识库
**当然就是除了有一个最小可行性产品门户和知识库也必不可少,门户可以对整个项目进行一个详细的介绍。比如我们要进行部署的话我们可以进行搜索,百度上也会提供许多文档。但是百度的文档质量参差不齐,非常影响用户的体验。**
**我看到AllData有提到三个概念我是非常赞同的**
- **重设计**
- **轻编码**
- **中度测试**
**对于社区来说,我们可以总结自己的经验形成文档放在社区中。**
### 2.3 用户分类
**然后第三点,因为项目前期用户是较少,在前期用户对项目的发展至关重要。这就不仅需我们仔细的聆听用户的需求,用户的反馈,还要积极的为用户来进行解答,一般用户会划分为两大类:**
- **有完整的技术经验——较少数**
- **无完整的技术经验——占多数**
**第一种用户是自身具备一定的技术栈,一定的能力。**
**第二种用户是作为项目经理或技术他引入该开源项目来作为解决方案的**
**门户网站和知识库至关重要,它可以帮助客户进行部署。所以问题点就是如何教导用户会用我们的产品。**
### 2.4 工作推动
**然后,就是进行一个分工推这方面。如果作为一个领导者要去领导我们的协作者去完成一件事情的时候,首先要达到一个统一的共识才可以,然后如何如何来达到这个统一的共识呢**
#### 2.4.1 获得认可
**首先就得需要认可你的方案**,认可你的思路。
#### 2.4.2 产品定位
**就是说你不要让用户上生产的时候就把你所有的功能都要上去,而是可以用你几块核心功能就可以完成一个产品。**
### 2.5 技术选型
#### 2.5.1 大数据平台选型
基于这些平台你可以独立完整的跑起一个MVP。这样不仅仅能享受到社区福利也可以获得用户的认可
#### 2.5.2 MLOPS平台选型
#### 2.5.3 CI/CD
**CI/CD那一块我认为就比较独立了。这些也是有现成的项目然后我们要做的其实就是调研好现成的项目。然后把它集成进来。**
### 2.6 需求场景
**我个人对AllData的定位是一个把很多开源的项目平台统一管理、集成起来提供一个能力开放的平台**
#### 2.6.1 定义场景
**一般离线开发都是需要开发需求。**
### 2.7 其他要求
#### 2.7.1 文档要求
**第一,文档永远没有交流重要,文档的规范可以放松,但是交流是最主要的。**
#### 2.7.2 设计逻辑
**第二就是设计。先是高层级设计,再是具体细节设计。**
**这具体如何实现呢例如我们如何去把数据开发平台、调度平台、管理平台关联首先就需要把他们打通作为一个底层Base先把他们真正的打通起来。然后让他们可以再以流一个流程化的方式来跑起来。**
**建议总结:**
- **压缩技术栈**
- **理念转变为团队思想**
- **多于其他社区沟通,达到互帮互助引流的效果**

View File

@@ -0,0 +1,7 @@
dinky
=================================
.. toctree::
:maxdepth: 2
README

Binary file not shown.

After

Width:  |  Height:  |  Size: 107 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 202 KiB

View File

@@ -0,0 +1,48 @@
# PLATFORM FOR BDP 科学护城河
# Version1
```markdown
1、美团Logan埋点
2、采集中心代码编写
3、维护kafka集群
4、日志消费系统
5、爬虫采集系统
6、ETL清洗入ES, HBase
7、电商分析
8、上线demo
```
# Version2
```markdown
1、BUSINESS FOR ALL DATA PLATFORM 商业项目
2、BUSINESS FOR ALL DATA PLATFORM 计算引擎
3、DEVOPS FOR ALL DATA PLATFORM 运维引擎
4、DATA GOVERN FOR ALL DATA PLATFORM 数据治理引擎
5、DATA Integrate FOR ALL DATA PLATFORM 数据集成引擎
6、AI FOR ALL DATA PLATFORM 人工智能引擎
7、DATA ODS FOR ALL DATA PLATFORM 数据采集引擎
8、OLAP FOR ALL DATA PLATFORM OLAP查询引擎
9、OPTIMIZE FOR ALL DATA PLATFORM 性能优化引擎
10、DATABASES FOR ALL DATA PLATFORM 分布式存储引擎
```

Binary file not shown.

After

Width:  |  Height:  |  Size: 95 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 202 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 138 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 475 KiB

View File

@@ -0,0 +1,59 @@
# 未来规划
## 1、 AllData总述
>
> 一个基础平台基于Docker拉起20+种开源组件的启停,第二个是数据平台的产品
>
## 2、组件维护与升级
>
> 由于Apache很多开源项目发展节奏较快目前暂时没有很好的版本切换的能力维护不同组件的版本比较困难
>
## 3、定期升级维护最新的组件版本
>
> 并对已进行二次开发的组件进行适配升级到组件新版本,保证平滑兼容升级
>
## 4、apache社区组件版本
>
> DataSphereStudio: 1.1.0
>
> docker: 3.0.0.0-SNAPSHOT
>
> Dolphinscheduler: 3.0.0
>
> Atlas: 3.0.0-SNAPSHOT
>
> Griffin: 0.7.0-SNAPSHOT
>
> Kong: 3.0.0
>
> Flinkcdc: 2.3 RELEASE
>
> Flinkx: 1.12-SNAPSHOT
>
> Kylin: 4.0.2
>
> Presto: 0.276.2
>
> Hudi: v0.12.0
>
> Iceberg: v0.13.1
>
> Dlink: 0.6.7
>
> Linkis: 1.2.0
>
> Streamis: 0.2.0
>
> Doris: 1.0-SNAPSHOT
>
> DataX: X-version
>
> Backend: v1.2-SNAPSHOT
>
> Rancher: 2.6.7
>
> SREWorks: X-version
>
> Cube-Studio: X-version
>
> GraphScope: 0.17.0

Binary file not shown.

After

Width:  |  Height:  |  Size: 389 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 278 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 87 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 230 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 63 KiB

View File

@@ -0,0 +1,7 @@
evolution
=================================
.. toctree::
:maxdepth: 2
README

View File

@@ -0,0 +1,3 @@
# Hudi性能测试报告
> https://docs.qq.com/doc/DVFlVUExWd3Jva2ZK

View File

@@ -0,0 +1,7 @@
hudi
=================================
.. toctree::
:maxdepth: 2
README

View File

@@ -0,0 +1,10 @@
社区分享
=================================
.. toctree::
:maxdepth: 2
alldata/index
dinky/index
hudi/index
evolution/index