2012-04-04 2 views
0

완벽한 세상에서 나는 묻고받는 데 시간을 들일 필요없이 즉시 많은 자료를 얻을 수있었습니다. 그러나 Google이나 페이스 북과 같은 실제 응용 프로그램과 관련하여 데이터베이스에 데이터가 저장되어있어 쿼리 할 시간이 필요하며 의미있는 결론/관계를 이끌어 내기 위해 해당 데이터를 처리하려고합니다.NLP 처리는 언제 시작해야합니까?

sql에서 많은 데이터를 계산하고 정렬하는 맥락에서 처리를 피하기 위해 요약 테이블에 데이터를 저장하고 cron으로 해당 테이블을 업데이트하면됩니다. 그러나 통계 분석과 nlp는 다를 것 같습니다.

실제로 통계/nlp/etc 분석이 수행되어야하는 데이터의 수명은 언제입니까?

답변

1

일반적으로 데이터를 수집하는 방식으로 데이터를 수집하고 (SQL 또는 NoSQL) 일종의 데이터베이스를 가지고 있으며 방대한 양의 데이터가 있으면 hadoop 그리드로 처리합니다. 그렇지 않으면 평소 무엇을 하든지합니다. 그런 다음 데이터를 분석하고 결과를 다시 귀하에게 제공하는 작업이 있습니다.

가져 오기 데이터 -> 보관 ->를 덤프 -> 오프라인 분석의 사용 결과

데이터 실제 데이터베이스에 재정 것은 너무 잘 작동하지 않습니다 ->를 분석합니다.

+0

분석을 저장해야합니다. 맞습니까? – Kristian

+0

확실하지만 아마도 분석은 꽤 작습니다. 통계 모델이나 새 데이터에 적용 할 수있는 가중치 벡터 일 수 있습니다. – nflacco

+0

은 큰 분석을 말하고 있다고 가정 할 수 있습니다. 질문의 요점은 적절한시기가 중요한 분석을 할 때입니다. 그리고 비행 중에 그것을하는 방법. Google의 검색 "index"라고 생각하십시오 – Kristian

0

NLP를 말할 때 염두에 두어야 할 사항에 달려 있습니다. 수십 개의 트윗/상태 업데이트가 어딘가에 저장되어 있으면이를 읽고 분석 할 수 있습니다. NLP가 진행되는 동안 단 하나의 프로덕션 서버를 반복적으로 쿼리하는 것은 좋은 생각이 아닙니다. 데이터가있는 곳에서 덤프하고 거기에서 작업하고 싶을 수도 있습니다.