kettle如何創建通用的數據庫連接大數據工程師需要會什么？

2023-06-19

2242

大數據工程師需要會什么？Java基礎HTML、CSS與JavaLinuxHadoopt體系Spark生態體系Storm生態體系實戰：數據獲取、數據處理、數據分析、數據應用等等...spoon輸出表找不

大數據工程師需要會什么？

Java基礎

HTML、CSS與Java

LinuxHadoopt體系

Spark生態體系

Storm生態體系

實戰：數據獲取、數據處理、數據分析、數據應用

等等...

答:spoon輸出表一直找不到數據庫的解決方法步驟不勝感激。驅動文件安裝好失敗。最后確認如何確定安裝好了驅程文件。上網下載對度應數據庫的驅動jar包放進kettle下的lib目錄下，oracle數據庫再連接的時候，必須在表也可以數據庫的前面算上前綴詞。

先把系統接受下升級，接著再把服務器的數據通過下，梳理升級，到最后找到ktr文件，然后再就也可以通過需要保存了，之后確認就可以了。

再說文件路徑、數據庫直接連接參數變化的問題，肯定用環境變量來解決的辦法，最簡單的方法，把這些可能會會變化的參數寫在文件中，然后再在轉換和作業中不使用${參數名}語句，那樣在服務器上移動數據庫和文件路徑的時候，只必須改文件去掉，不要直接修改裝換本身。

你好現在的喂養靈獸工具很多，看你們科研數據是結構化數據我還是非結構化數據。結構化是關系型數據庫中的數據，如：mysql,Oracle,Sql server等數據庫中的數據。非結構化諸如你們醫療系統每天晚上啟動的日志，每件精密儀器運行產生的數據。

兩類數據差異很小，采藥的工具也完全不同。結構化數據看你采藥儲存到哪里。要不然沒有都用到大數據技術，只有用kettle工具采藥了。這個工具功能比較大。再采集導入到各種存儲的系統中，也可以不庫對庫，庫對文件等。

非結構化的數據，這類數據不能用FTP工具來半自動哪采了。就算會腳本開發語言，寫哪采腳本也能實現。

當然，采集數據工具很多，就看是那一類數據了。與此同時計算機技術快速發展，現在的采集工具挺好用，給樓主幫我推薦幾種:DataX,Sqoop,flume,kafka等。這些技術都能實現方法三千多種數據彼此間導入導出。只希望對你有用嗎，謝謝了！

你說的數據庫是更適合于BI商業數據分析那就DBA數據庫管理員。

如果沒有是BI，說一些我很清楚的：

BI數據分析先要把數據灌注進自己的系統。這過程牽涉到一些etl工具，公司在用的是kettle；

對SQL語句語言特別要求挺高的，他們都會寫一些非人類的sql，sql簡直就是一門編程語言；

報表制作，我們公司也是不使用一些現成的報表系統，開源的諸如clickhouse、metabase等；

一些商業軟件會把BI的工作集成主板到了一個系統中，.例如SAPBO系統。BI就說這么說多吧，非專業人士。

如果沒有是做DBA，反而數據庫要學，操作系統層面的知識也要學：

sql是基礎，增刪改查，一些比較普遍的數據設計規范、權限管理等等；

要所了解關系型數據庫的各種存儲結構，例如什么是B-Tree，各種索引結構；

數據庫安裝配置優化都要懂吧，怎么分析什么問題、怎末接受系統的優化啊；

Linux要很熟悉，比如要分析什么一些網絡問題，IO問題；

DBA也又不是我的專業，只不過相對于比BI懂的多點。

后來跪求python。個人感覺上，DBA估計不怎么用python。

在商業數據分析方面，python肯定有不少用武之地。如果沒有要學它在數據分析方面的運用，python中幾個數據分析庫這個可以清楚下，它們分別是應用于數據運算與分析的numpy和pandas、作用于可視化作圖的matplotlib。