做research用到databricks但是感觉很难用

不知道是不是我不太会用?
跟业界的公司合作一个project,数据和代码都只能在Databricks上,不能保存到本地
每次用,compute restart都失败,然后就需要新建一个,然而每次新建都很久,需要20分钟左右(?)
没有compute就没法run代码,也没法查看数据

该咋办呢

这个有什么影响吗?就像个远程桌面

databricks用着还行。。

就是start compute很慢,然后一旦inactive, compute再启动或者新建一个compute就需要等半个小时

Computer uncheck"terminates after x minutes of inactivity", or increase “min idle” in pools.

不過無論如何create compute不應該這麼慢,可能網絡有問題。

如果uncheck的话,是不是server就一直在run,那是不是要花很多钱?
我用的是学校的wifi,按理说网络应该没问题?

對的,兩個方法都花錢,所以看誰付的帳單了。

網絡的意思是,create comput 時databricks需要下載runtime之類的軟件到compute 裡,這過程不費你的wifi。但如果你的databricks 設定了no public access、只能經過校內網/公司網之類的奇怪設定,是有可能變慢的。

我是帮老师打工的,我也不知道是老师的funding付钱还是公司出钱,还是各自一半,下次开会问问他,但是我确实觉得每次Start cluster要20分钟很耽误我的效率

确实是no public access的,因为是公司的confidential data,所以只能有权限的人访问,但是我在家也是可以访问的,就是比学校wifi慢很多,比如学校13分钟可以restart compute,在家可能要35分钟

那没办法。你就算写在本地,最后还是要去云上跑。试试本地弄个文件,在那里写。这样启动的时间也能干点活,节约点时间?

1 个赞

确实 本地写个script,到时候upload上去. 就是这些数据分析类的research,不像ML那种,需要经常时刻查看output才知道下一步咋办

还有就是compute大小看一看。会不会启动时间太长是弄了太大的compute。一般程序可能也不需要那么大,选合适的空间

确实 我现在用的是15.3 ML personal compute,我下次试试小一点的

想@一个泥潭知名id

这种cluster真的是好难用,一边用一边骂