DSL 회선의 인터넷 세션에 대한 데이터를 분석해야합니다. 세션 기간이 어떻게 분포되어 있는지 살펴보고 싶었습니다. 나는 이것을하기위한 간단한 방법이 모든 세션의 지속 시간에 대한 확률 밀도 도표를 작성하는 것으로 시작한다고 생각했습니다.데이터의 확률 얻기
데이터를 R에로드하고 density()
함수를 사용했습니다. 그래서 이런 식이었습니다
plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
xlab = "duration(h)", ylab = "probability density")
저는 R에 익숙하지 않으며 이런 종류의 분석입니다. 이것은 내가 구글을 통해 겪은 것으로 나타났습니다. 음모가 있지만 몇 가지 질문이 남아 있습니다. 이 일은 내가하려는 일을하는 데 적합한 기능입니까 아니면 다른 일이 있습니까?
플롯에서 나는 Y 축 스케일이 0 ... 1.5 인 것을 발견했습니다. 나는 그것이 1.5 일 수있는 방법을 얻지 못한다. 그것은 0 ... 1 일 것이 틀림 없어?
또한 부드러운 곡선을 만들고 싶습니다. 데이터 세트가 실제로 커지기 때문에 라인이 정말로 들쭉날쭉합니다. 나가 이것을 선물 할 때 그들을 부드럽게하는 것은 좋을. 그 일을 어떻게 하죠?
밀도가 잘못 입력됩니다. X의 밀도는 ** 가까운 거리에있는 숫자를 모집단에서 끌어낼 확률 **에 비례하는 값 **으로 볼 수 있습니다. 정의에 따르면 밀도 함수의 적분은 1입니다.이것은 밀도 함수의 최대 값이 1이어야 함을 의미하지 않으며 쉽게 커질 수 있습니다. 사실, df = (1,1) 인 F 분포의 경우 밀도의 최대 값 (0에서)은 무한대입니다. –
@Joris 예. 나는 그것을 올바르게 해석하지 못했다는 것을 알았습니다. 오히려 단순하게 나는 확률 분포 때문에 1보다 작을 것이라고 가정했다. – sfactor