2009-12-29 3 views
0

실험, E1, ..., E5의 5 가지 값 집합과 10000 개의 다른 시뮬레이션 결과 sim_A_B_C.out이 있습니다. 각 시뮬레이션에서 S1, ..., S5를 얻습니다.선형 회귀를 수행하는 가장 좋은 방법

실험 및 시뮬레이션 값 간의 상관 관계를 연구하고 싶습니다. 그래서 나는 10000 개의 결과 파일 전체를 반복하는 스크립트에서 각 세트에 대해 선형 회귀를 수행하려고합니다.

bash 또는 python에서 선형 회귀를 수행하는 가장 좋은 방법은 무엇입니까? 나는 sigmaplot을 사용했지만 너무 큰 데이터 세트에는 좋지 않다.

+0

또는 "r"에 대한 조언이 필요하면 python 또는 bash – asdf

답변

2

여러분의 시뮬레이션마다 약간의 입력 값이있을 것으로 예상합니다. 예를 들어, x은 첫 번째는 1, 두 번째는 2이고 시뮬레이션을 실행하는 일부 함수 f (x)는 5입니다. 각 시뮬레이션에 대한 포인트. 귀하의 예제에서 x는 실제로 A, B, C 세 값입니다.

그런 경우, 가장 좋은 시뮬레이션을 생성하는 x의 값을 찾고 싶습니다.

이 경우 시뮬레이트 된 결과 자체가 아니라 실험 결과에 대한 f (x) 간의 상관 관계를 실제로 찾아야합니다.

이유는 시뮬레이션과 실험 결과 사이에 좋은 상관 관계를 찾는 데 너무 많은 변수가 있다는 것입니다 (시뮬레이션이 서로 독립적이라고 가정 할 경우). 우연히 만날 가능성이 높습니다.

나는 당신도 자신의 자신감을 높이기 위해 실험적인 추가 값을 얻어야한다고 생각합니다. 그런 것들에 대한


내가 가장 좋아하는 언어는 most platforms at a download site near you에 대한 무료로 볼 수 있습니다 R이다, 나는 당신이 시도 할 화분의 예를 많이주는 책 "Introduction to Statistics using R"을 추천하고, 일부 시작 통계를 통해 실행 꽤 진보 된 것.

+0

+1에 적합하지 않은 언어로 작성하십시오. – Guru

0

파이썬에는 사용할 수있는 SciPy 패키지에 stats.linregress 함수가있다.

0

저는 이것을 위해 bash를 피하고 파이썬을 사용하고 싶습니다. 사실 Matlab이나 Mathematica를 사용 하겠지만 둘 다 여러분의 목록에 있습니다. 그래서 Numpy를 설치하고 Scipy를 설치하면됩니다.

관련 문제